ベイズの定理を架空のウイルス検査の例で理解する

この記事では、架空のウイルス検査の例を用いて、ベイズの定理の考え方をざっくり理解することを目的とする。数値はあくまで架空のものであり、現実を反映したものでは全くない。まず前提条件を確認しよう。

・ウイルス検査を受けた人全員のうち、本当にそのウイルスに感染している人が0.01%、その他の99.99%は感染していないとする。

・ウイルス検査では、本当に感染している人のうち95%が陽性と診断される。つまり、5%の確率で、感染者なのに感染していないと誤診されてしまう。

・ウイルス検査では、健康な人のうち99%が陰性と診断される。つまり、1%の確率で、健康な人なのに感染していると誤診されてしまう。

このとき、あなたが陽性と診断されたとすると、実際にウイルスに感染している(条件付き)確率はいくつだろうか?

(1)「感染していて」かつ「陽性と診断される」確率を出してみると、

0.01% × 95% = 0.000095 = 0.0095%

(2)「感染していて」かつ「陰性と診断される」確率は、

0.01% × 5% = 0.000005 = 0.0005%

一方、「健康な人」を考えてみよう。

(3)「健康で」かつ「陽性と診断される」確率は、

99.99% × 1% = 0.009999 = 0.9999%

(4)「健康で」かつ「陰性と診断される」確率は、

99.99% × 99% = 0.989901 = 98.9901%

となる。

いま、あなたは陽性と診断されたので、陰性となる可能性は消えた。このため、上記の(2)と(4)のケースは忘れてよい。残るは(1)の0.0095%と(3)の0.999%のケースのみである。

確率は、足して100%にならないといけないので、(1)の確率と(3)の確率の比率は保ったままで、(1)と(3)の合計が100%になるように基準化しよう。そのためには、(1)の確率と(3)の確率の合計で割ればよい。

したがって、「陽性と診断された」という条件のもとで「感染している」確率は、(1)の確率を(1)と(3)の合計で割ればいいから、

0.0005% ÷ (0.0005% + 0.0095%) = 5%

ちなみに、「陽性と診断された」という条件のもとで「健康である」確率は、(3)の確率を(1)と(3)の合計で割ればいいから、

0.0095% ÷ (0.0005% + 0.0095%) = 95%

となる。よって上記の前提のもとでは、「陽性と診断された」にもかかわらず、それでも「健康である」確率の方が高くなる。これはなぜかというと、そもそも検査を受けた人全体のうち、「感染している」人が「健康である」人に比べて圧倒的に少ないからである。

以上を踏まえて、「陽性と診断された」という条件のもとで「感染している」確率の計算を数式っぽく書くと、

P(感染|陽性) =

P(感染 かつ 陽性) ÷ { P(感染 かつ 陽性) + P(健康 かつ 陽性) }

実はこれがまさしくベイズの定理の式になっている。。

以下では、この式を変形すると、教科書でよく出てくるベイズの定理の式になる、ということを確認する。

教科書でよく出てくるベイズの定理は、

P(X|A) = P(A|X) P(X) ÷ P(A)

である。これを条件付き期待値の定義を用いて書き直すと、

P(X|A) = P(XかつA) ÷ P(A)

今の例の言葉で置き換えると、

P(感染 | 陽性) = P(感染かつ陽性) ÷ P(陽性)

となる。

ここで、今の例では、陽性になるケースは、
(1)感染かつ陽性の場合

(3)健康かつ陽性の場合
しかない。つまり、

P(陽性) = P(感染 かつ 陽性) + P(健康 かつ 陽性)

と分解できる。これを代入すると、

P(感染 | 陽性) = P(感染かつ陽性) ÷ P(陽性)
=P(感染かつ陽性) ÷ {P(感染 かつ 陽性) + P(健康 かつ 陽性)}

となり、これは上で求めた、
・「陽性と診断された」という条件のもとで「感染している」確率
の式と同じである。

もう一度、教科書でよく出てくるベイズの定理の式を思い出そう。

P(X|A) = P(A|X) P(X) ÷ P(A)

これを上の例の言葉で書き換えると、

P(感染 | 陽性) = P(陽性 | 感染) P(感染) ÷ P(陽性)

である。ここで重要なのは、

・感染しているか健康かは「原因」を表し、
・陽性か陰性かは「結果」を表している

ということである。

右辺の P(陽性 | 感染) は、感染しているという「原因」で条件付けして、陽性であるという「結果」の確率を求めている。要するに「原因」から「結果」を推測しているのであり、時間の流れに従っている。

それに対して、左辺の P(感染 | 陽性) は、陽性であるという「結果」で条件付けして、感染しているという「原因」の確率を求めている。要するに「結果」から「原因」を推測しているのであり、時間の流れに逆らっている。

ベイズの定理があって何がうれしいのかというと、まさにこの、時間の流れに逆らって、「結果」から「原因」を推測できる、という点である。

参考文献

本記事では以下の文献を参考にした。これは長方形の図解を用いて、小学校レベルの説明でベイズの定理を説明している、貴重な本である。