ヒッグスは99.98%の確率で見つかったのか?

(追記:2012年7月4日に、ヒッグス粒子と思われる粒子の発見が発表されました。この記事は、2011年12月のもの。)
13日にスイスのCERNで、理論によって予測されているヒッグス粒子という素粒子の探索について発表がありました。この発表後の、日本の新聞記事にいくつかリンクします。


http://www.yomiuri.co.jp/science/news/20111213-OYT1T01268.htm
http://www.asahi.com/science/update/1213/TKY201112130615.html
http://mainichi.jp/select/science/news/20111214ddm001040020000c.html


読売の記事は、見出しに「99・98%の確率で見つけた」。朝日は、「存在する確率」が「ATLASチームは98.9%、CMSチームは97.1%」と発表したという記述。毎日は、「特定の範囲内のデータがヒッグス粒子由来と判断できる確率は98・9%」と書いています。


結論から言ってしまうと、このように「○○%の確率で発見」とか、「ヒッグス粒子が存在する/ヒッグス粒子由来の確率が○○%」と書かれているものは、全て間違っています。


正しい説明の例としては、Caltechの大栗博司教授のブログ記事「ヒッグス粒子」がありました。今回の発表で分かったのは、「99.98%の確率で見つけた」という事ではなくて、まぐれでは5000回に1回(0.02%の確率で)しか起こらないデータが出た、という事です。


大栗教授のブログは統計の部分に話を絞ったものではないので、これだけではどこが問題なのか分からないと思います。この記事で少し詳しく説明してみます。

コイントスは公平かどうか?

ヒッグス粒子のように予備知識が必要な問題ではなく、コイントスの例で考えてみます。


あなたはある日、財布の中に入っていたコインを投げると、表が出る確率と裏が出る確率が同じなのかふと気になりました*1。気になってしょうがないので、コインをとにかく投げてみます。実験です。


2回投げて、2回とも表が出たとします。ここで、「あ!このコインは表ばっかり出るんだ!」と思う人は流石にいないでしょう。なぜなら、表と裏が半々の確率で出るコインだったとしても、2回とも表が出る確率は1/4、つまり25%もあるからです。まぐれでもよくある事なので、コインが公平な可能性はまだ除外できない、という事です。


まだ分からないのなら、もっとデータを集めないといけません。10回投げてみて、表が出た回数は7回だったとします。ここで「分かった!このコインは70%の確率で表が出るコインだ!」と言っていいでしょうか?ほとんどの人はこの場合にも、まだ結論を出すには早い、と考えると思います。


ここでちょっと、グラフを出します。公平なコインを10回投げた場合、n回表が出る確率のグラフです。*2



10回コインを投げて、表がちょうど7回出る確率は11.7%で、7回以上出る確率を全部合わせると17.2%あります。まだまだ、まぐれで出てもおかしくなさそうだという事です。


という事は、まだデータが足りない。気合を入れて、100回投げてみます。その結果、70回、表が出ました。もう、「このコインは公平じゃない!」と言っていいのでしょうか?公平なコインを100回投げた場合の確率の分布を、またグラフにしてみます。



公平なコインを100回投げて、70回以上表が出る、という事はほとんど無い事がわかります。計算してみると、0.004%というとても小さい数字になります。これは25,000回に1回という確率です。


ここまで来れば、このコインは表を出しやすい、と結論してほぼ間違いないでしょう*3。さて、この話がヒッグス粒子とどう関係があるのでしょうか。

有意

「ヒッグス粒子を発見した!」と発表するためには、「このコインは公平じゃない!」と発見するのと同じ手順を踏まなければなりません。つまり、「コインが公平だったらこんな事は起こらない」というデータを出したのと同じように、「ヒッグスが無かったらこんな事は起こらない」というデータを出す必要があるわけです。


この、「まぐれでこんな事は起こらない」事を、統計学では有意と言います。そして、「これだけ珍しい事がまぐれで起こる確率」の事は有意確率と言います。


コイントスの話で言うと、表が10回中7回出た際の有意確率は17.2%。100回中70回出た際の有意確率は、0.004%です。そして、この0.004%という確率はあまりに小さいので、この結果は統計的に有意だろう、つまりまぐれでは無いだろう、と判断したわけです。


これをヒッグス粒子の話に当てはめてみます。読売新聞の見出しに出ていた「99.98%の確率で見つけた」の本当の意味は、「有意確率が0.02%のデータが出た」という事です。ヒッグスが無かった場合、まぐれでは0.02%の確率でしか起こらない事が起こった、と。


この0.02%というのは、コイントスの場合には偶然にしては小さすぎる、と判断した0.004%のたった5倍です。これなら、ヒッグス粒子を発見したと言っていいのでは?と思われるかも知れません。この話の前に、しておかないといけない話があります。

条件付き確率

それは、「○○%の確率で発見/ヒッグスが存在する」という書き方の問題です。「まぐれの確率は0.02%なのだから、まぐれじゃない確率は99.98%じゃないか」と思うかも知れませんが、これは間違いなのです。確率について考える際には、その数字に付いている条件に気をつけなければなりません。


まぐれの確率が0.02%、というのは厳密には、「ヒッグス粒子がなかった場合、まぐれでこれほど珍しいデータが出る確率は0.02%」という事です。


ここから分かるのは、「ヒッグス粒子がなかった場合、これほど珍しくないデータが出る確率は99.98%」という事。これは、「これほど珍しいデータが出た場合、ヒッグス粒子がある確率は99.98%」というのとは違うとは分かってもらえるでしょうか。


この2つの確率の違いを鮮やかに示してくれるのが、下のマンガです*4。英語なので、マンガの下に解説を書きます。



(解説)「ジェリービーンズ(お菓子)がニキビの原因になる」、という噂を調べようと科学者たちが動き出します。調べてみたところ、有意確率は5%以上。つまり、まぐれで出てもおかしくない、その2つは関係ないと思われる、という結果が出ました。


そこに、「特定の色のジェリービーンズが原因って話らしいよ」という新情報が。科学者たちは、20種類のジェリービーンズを調べます。そしてそのうちの1種類、緑のジェリービーンズを食べた人達に、まぐれでは5%の確率でしか起こらないくらいニキビが多く発生しました。他の19種類のジェリービーンズでは、有意確率の低い結果は出ませんでした。


彼らの研究結果を聞いた新聞の見出しは、「95%の確率*5で、緑のジェリービーンズはニキビの原因になる!」(解説終わり)


さて、緑のジェリービーンズがニキビの原因だという確率は何%でしょうか?95%では無いでしょう。


この話では、20回に1回起こるような珍しい結果が、20回に1回出ました。ジェリービーンズとニキビが無関係だったとしても、これと同じ事は起こるという事ですから、ジェリービーンズとニキビに関係があるという結論は導けないのです。有意確率が低い、珍しい実験結果も、何度も同じ事を繰り返してみれば、まぐれで出てくる事があるという事です。


ヒッグス粒子を探す実験で問われているのは実は、「質量が○○のヒッグス粒子はあるかどうか?」という質問です。使われる質量の単位はGeVというものなのですが*6、「125GeVのヒッグスがあるのか?」、「126GeVのヒッグスがあるのか?」と、色々な質量の場合で、まぐれでは出ないような珍しいデータが出ているかどうか調べています。これは、紫のジェリービーンズ、茶色のジェリービーンズ、と別々に調べているようなものですね*7


この、数撃てばまぐれで当たってしまう可能性を考慮に入れて、素粒子物理の実験では、有意確率0.00003%*8というレベルまでデータを集めないと、研究グループは発見を主張してはいけないことになっています*9


ヒッグスの話の結論としては、今回発表されたのは、125GeVくらいの質量のヒッグス粒子があるかもしれない、というヒントが見つかったという事です。ATLASとCMSという2つの実験グループが、ほぼ同じ質量でヒントになるデータを得たので、期待は高まっていますが、発見を主張するにはまだまだデータが足りません。そして、その必要なデータは来年、実験を継続する事で出てくるはずだという事です。


最後に、科学者向けに少し。(そのまた後に「追記」が付きました。)

誤解しているのは誰?

最初に一番上にリンクしたような記事を読んだ時、統計学について誤解している記者がいるのかな、誰かが解説してあげないといけないのではないかな、と僕は思いました。発見が確実とは言えないのに、確実かのように書かれてしまうのは良い事とは思えないからです。もし来年、ヒッグスの証拠かもしれないと思ったデータは単なる統計的なゆらぎだと分かったとします。そうなると、あの時煽ったのは何だったのだ、と思われ、今後の発表を真に受けてもらえないようなこともあるでしょう。


しかし、科学者が書いたものにも、似たような表現があるのが見つかりました。例えば、この記事では、取材された学者が「データがヒッグス粒子によるものと判断できる確率は98・9%」と発言しているようですし*10、この英語のブログ記事でも、"there is less than a 5% chance that [the signals] are simply statistical fluctuations*11"という間違った表現をしています。他にも複数、同じ間違いを見つけたので、誤解している物理学者の割合は小さくないのではないかと思います*12


中には、有意性の本当の意味は分かっているけれど、説明が面倒だから、このような書き方をしている人もいるかもしれません*13。ただ、そういった表現は、統計についてちゃんと理解しているプロ向けならともかく、素人向けに使ってはいけないのではないでしょうか?


物理学者たちのTwitterでの反応には、報道が煽りすぎ、というようなものが多く見られました。その原因は、誤解している記者達だけではなく、こういった数字の落とし穴について丁寧に説明して来なかった科学者たちにもあるのではないか、と今後の対応を考えて欲しいと思います。


ミニ追記:東大では、CERNの講演前に講義があり、この記事に書いたような事をさらに詳しく説明し、偶然でも起こりうる事を強調していたそうです。逆に、詳しすぎた可能性もあったようですが…誤差の概念を正しく伝えるのが難しいというのは実体験からも感じているので、悩ましいところです。

追記*14

Q:今回に限らず、「○○%確実」という風に誤解している人に会ったらどうすればいいでしょうか?


A:賭けをふっかけましょう。


相手が、95%確実な発見だと思っているのなら、「これが本当の発見だったら1000円あげるよ。でも、そうじゃないって分かったら1万円ちょうだい。95%確実だったら、ホントはもっと倍率高くてもいいはずだよね。」とでも言って誘ってみましょう。*15


(12/15 17:05 有意水準→有意確率と訂正。有意水準は、有意確率がこの数字を下回れば有意と判定する、という数字ですね。)

*1:なんでいきなり?と思うかも知れませんが、素粒子物理学者の動機も突き詰めていけば「気になったから」です。

*2:この確率は、グラフの上にあるように \frac{_{10}C_{n}}{2^{10}} =\frac{10!}{2^{10} n! (10-n)!} です。

*3:本当はここでもっとベイズ推定のような話に突っ込むべきですが、本題ではないので割愛。

*4:xkcd: Significantより

*5:confidenceというのは統計用語で、これは正しい用法ですが、一般にはこれだけの「自信」を持って発見したのだ、と捉えられます。

*6:陽子や中性子の質量より少し大きい単位です。

*7:大栗教授のブログにも説明があります。

*8:ヒッグスが無かった場合に予想される平均値から標準偏差の5倍以上外れないといけない。0.00006%と書いてありましたが、この記事の他の確率は片側検定の場合の確率なので、これも合わせて片側検定の数字にしました。

*9:これ自体は慣習でしかありませんが、そう決めておかないと嘘の発見が増えてしまう、というちゃんとした理由のある慣習です。

*10:こういった記事では、間違って引用されている可能性もゼロではないですが。

*11:シグナルが統計的なゆらぎではない確率が5%以下

*12:なので、個人を晒そうという意図は無いことはご理解下さい。

*13:ハンロンの剃刀」を採用するなら、こういったケースは少ないと思います。

*14:ネタかどうかは各自判断。

*15:id:what_a_dudeさんのブコメでの指摘から補足:ここで「本当の発見」と書いたのは、素粒子物理の基準で発見になるかどうか、の話です。5σはなかなか厳しい水準なので、物理以外ではあまり応用が効かなそうですね。ただ、確率について勘違いしている人がいる場合、賭けにすると見えなかった事が見えるようになる事はあると思います。