解説2026-06-19 公開
多重検定と偽陽性——相関を量産するほど「当たり」が増える理由
「100の統計と100銘柄を全通り調べれば、何も実際の連動がなくてもランダムな偶然だけで500件の『有意な相関』が出る」——これが多重検定問題の核心です。相関研究・アノマリー研究の世界で最もよく知られた落とし穴のひとつで、p値と検定数の関係を理解しないと、偶然の産物を「発見」と呼んでしまいます。このページでは p値の意味・多重検定で偽陽性が膨らむ仕組み・当サイトがとっている対策を順に解説します。
p値とは何か——「偶然これ以上の値が出る確率」
p値(p-value)は、「もし本当に連動がないとしたら、今回観測された相関係数 r 以上の絶対値が、偶然出る確率」を示します。たとえば r=0.25・n=100 の相関を計算すると、p値はおよそ 0.012 になります。これは「もし連動がゼロなら、偶然でこの r が出る確率は約1.2%」という意味です。
慣例的に「p<0.05(5%未満)」を「統計的に有意」と呼びますが、これは「このペアが必ず連動している」という証明ではありません。p<0.05 は「偶然そう見える確率が5%未満」という、あくまで「起きにくさ」の指標です。
1回の検定と多重検定の違い
1つのペアだけを検定するなら、p<0.05 で偽陽性(本当は無関係なのに「有意」と判定する)が起きる確率は5%です。しかし複数のペアを同時に調べると話が変わります。
| 検定数 | 少なくとも1件の偽陽性が出る確率 |
|---|---|
| 1件 | 5.0% |
| 10件 | 40% |
| 50件 | 92% |
| 100件 | 99%超 |
| 1,000件 | ほぼ確実(期待値50件の偽陽性) |
計算式:1−(1−0.05)^検定数。各検定が独立でない場合(相関ペアは互いに独立でないことが多い)は正確にはこの通りではありませんが、偽陽性が膨らむ方向の傾向は変わりません。
当サイトは56の統計 × 219銘柄 × 7ラグ(0〜6ヶ月)× 複数の窓(全期間・COVID除外・期間分割など)を計算しています。組み合わせは数万件規模になります。そのスケールで p<0.05 だけを「連動の証拠」と見なしたら、大量の偽陽性が混入します。
「ファクター動物園」問題——金融研究でも同じことが起きている
学術研究でも同じ問題が広く知られています。2016年に Harvey, Liu, Zhu が発表した論文("…and the Cross-Section of Expected Returns")では、それまでに発表された300本以上の「超過リターン因子」の大部分は多重検定を補正するとほぼ消えてしまうと指摘されました。「t値が2.0(p≒0.05)程度の因子は信頼できない。最低でも t=3.0(p≒0.003)必要」という主張です。
当サイトのファクター動物園の検証でも、国内株でこの問題を検討しています。「相関が出た」だけでは弱く、再現性・経済的合理性・補正後の有意水準の3つを揃えて初めて信頼できる発見と言えます。
n数(サンプル数)と p値の関係——n が大きいと「些細な r」でも有意になる
多重検定とは別の問題として、n が大きくなると非常に小さな r でも p<0.05 になる点も知っておく必要があります。
| n | p<0.05 になる最小 |r|(目安) |
|---|---|
| 30 | 約 0.36 |
| 100 | 約 0.20 |
| 200 | 約 0.14 |
| 300 | 約 0.11 |
| 1,000 | 約 0.06 |
両側t検定による近似値。
月次データ24年分(n=288)では r=0.12 程度でも p<0.05 になります。しかしその連動が実際に投資判断に使えるほど強いかは別の話です。「統計的有意」と「実用的に意味のある強さ」は別物です。当サイトが r の絶対値の目安として |r|≥0.40 を設定しているのは、n が大きくなっても「まがりなりにも連動と呼べる強さ」を要求するためです。
ボンフェローニ補正——検定数で割り引く基本的なアプローチ
多重検定に対するもっともシンプルな対策がボンフェローニ補正(Bonferroni correction)です。K 件の検定を行うなら、有意水準を α/K に引き下げます。たとえば100件の検定なら 0.05/100=0.0005(p<0.0005 でないと有意と見なさない)になります。
ただしこの補正は保守的すぎる面があります。各検定が完全に独立でない(同じ銘柄を複数の統計で検定する、同じ統計を複数の銘柄で検定するなど相関のある検定が多い)場合、ボンフェローニ補正は必要以上に厳しくなります。より洗練された方法として BH 法(Benjamini–Hochberg 手続き)があり、「偽陽性率(FDR)を q% 以下に制御する」という発想で補正します。
当サイトの立場——p値に頼らず r の大きさと n と経済合理性で判断する
当サイトは p 値を主な判断基準に使っていません。代わりに次の3点を組み合わせています。
- r の絶対値の大きさ——|r|≥0.40 を目安に「参考になりうる連動」と表現。それ以下は「弱い」または「ほぼ無相関」と記述します
- n の大きさ——n が小さい(目安: n<100)場合は「参考値」と明記し、判断に使わないよう注意を促します
- 複数窓での再現性——全期間と COVID 除外の両方で同方向・同程度の r が出ているかを確認します。一方の窓だけで強い相関が出ても、もう一方で消えるなら信頼性は低いと評価します
加えて、「なぜ連動するか」の経済的な説明が成り立つかを記事内で検討しています。統計的に「出た」だけでなく、業態・収益構造・情報フローの観点から説明できないペアは、多重検定の偽陽性である可能性が高いからです。
データ採掘(データ・マイニング)とオーバーフィッティング
「大量のデータを探索して事後的に法則を見つける」行為をデータ採掘(data mining)またはp-hackingと呼びます。探索の結果が、サンプル外(未来のデータ)でも再現するかどうかが検証されない限り、それは「発見」ではなく「過去データへの過学習(オーバーフィッティング)」です。
株式市場のアノマリー研究でよく見られるパターンは次の通りです。
- 過去データで「有意な超過リターン」を発見
- 論文・記事として発表(その時点では過去データのみ)
- 発表後のデータで追跡すると、アノマリーが縮小・消滅
消滅の理由は複数あります。①市場参加者がアノマリーを学習して裁定する、②そもそも多重検定の偽陽性だった、③標本期間が特殊な経済環境を含んでいた——いずれも「過去の相関は将来を保証しない」という原則の具体的な現れです。
まとめ:相関を見るときの3つの問い
この記事の要点を3つの問いにまとめます。統計と株価の連動データを読む際の確認リストとして使ってください。
- 何件のペアを調べた上での「発見」か?——大量のペアを探索して事後的に拾い上げた相関は、多重検定の偽陽性かもしれません
- r の大きさは実用的か、それとも n が大きいだけで有意になっているか?——p<0.05 であっても r=0.12 では連動と呼べる強さがありません
- 経済的な説明がつくか?——「なぜ連動するか」のメカニズムが業態・情報フローの観点から説明できない相関は、偶然の産物の可能性を疑ってください
当サイト自体も大量のペアを計算しているため、多重検定問題から完全に自由ではありません。ただし「過去の参照ツール」と位置づけ、投資助言を行わないことで、偽陽性が混入しても読者が誤った意思決定に使いにくい設計にしています。相関は「連想の道具」として使い、「予測の根拠」として使わないことが重要です。
本記事は統計的手法の概念解説を目的としたものです。特定銘柄の売買推奨ではありません。記述中の「p値の閾値」「補正手法」は一般的な慣例・参考値であり、文脈によって適切な基準は異なります。
参考:Harvey, C. R., Liu, Y., & Zhu, H. (2016). "…and the Cross-Section of Expected Returns." Review of Financial Studies, 29(1), 5–68. / Benjamini, Y., & Hochberg, Y. (1995). "Controlling the False Discovery Rate." Journal of the Royal Statistical Society: Series B, 57(1), 289–300.