再現率/適合率とは？違い/覚え方【わかりやすく】

こちらもおすすめ
関連記事
具体例
TrueとFalse
PositiveとNegative
TP, TN, FP, FNとは
再現率 (Recall) の計算
再現率の覚え方、問題点
適合率 (Precision) の計算
適合率の覚え方、問題点
再現率と適合率の違い
再現率と適合率のトレードオフ
関連記事
あわせて読みたい
こちらもおすすめ

【初心者から上級者まで】Pythonプログラミング独学におすすめの本6選 (難易度順)【感想あり】 | Quant College

QuantLib-Pythonチュートリアル（導入編）をリリースしました。 | Quant College

QuantLib-Pythonチュートリアル（スワップイールドカーブ編その１）をリリースしました。 | Quant College

【やめとけ?飽和?】データサイエンティストのつらいこと7選【なくなる?後悔?クオンツからの転職】 | Quant College

データサイエンティストとデータアナリストの違い5選 | Quant College

データサイエンティストとデータエンジニアの違い5選 | Quant College

データサイエンスの資格7選【データサイエンティスト】 | Quant College

具体例

ここでは「患者がウイルス感染しているかどうかを機械学習モデルが判定する」という状況を考えて説明してみる。

機械学習モデルとして３つを考える。
・ある程度は優秀なモデル
・厳し過ぎモデル（ほとんどの患者を感染していると判定する）
・ゆる過ぎモデル（ほとんどの患者を健康であると判定する）

〇が感染している
×が健康である
を示すとする。

　　　　　　　優秀な　　厳し過ぎ　ゆる過ぎ
　　　　真実　モデル　　モデル　　モデル

患者１：　〇　　　〇　　　〇　　　〇
患者２：　〇　　　〇　　　〇　　　×
患者３：　〇　　　〇　　　〇　　　×
患者４：　×　　　〇　　　〇　　　×
患者５：　×　　　 ×　　　〇　　　×
患者６：　×　　　 ×　　　〇　　　×

正解率：　　　　　5/6　　 3/6　　 4/6
再現率：　　　　　3/3　　 3/3　　 1/3
適合率：　　　　　3/4　　 3/6　　 1/1

TrueとFalse

再現率や適合率の計算式には、TP (True Positive) やFN (False Negative) という用語が出てくるので、これらについて知っておかないといけない。

True/Falseというのは、機械学習モデルによる分類が正解かどうかを表している。

Trueに該当するのは２つの場合があり、
・感染している患者を感染していると判定する
・健康な患者を健康と判定する
の２つである。

逆にFalseに該当するのも２つの場合があり、
・感染している患者を健康と判定する
・健康な患者を感染していると判定する
の２つ。

PositiveとNegative

次にPositive/Negativeというのは、機械学習モデルが正例（陽性などとも言う）と判定したか負例（陰性などとも言う）と判定したかを表す。重要なのは、真実がどうかは関係なく、あくまで機械学習モデルがどっちと判定したか、を表していること。とにかく機械学習モデルの目線で見ている、と覚えておく。

何が正例で何が負例かはケースバイケースだが、今の例では、
・感染しているケースが正例
・健康であるケースが負例
となる。

一般的には、
・モデルを使って見つけ出したい異常サンプルが正例（例：スパムメール）
・その他の通常サンプルが負例（例：スパムではないメール）
となる。

TP, TN, FP, FNとは

以上を踏まえて、
・TP (True Positive) とは、正例と判定されてかつ、本当に正例である場合
・TN (True Negative) とは、負例と判定されてかつ、本当に負例である場合
・FP (False Positive) とは、正例と判定されたが、本当は負例である場合
（つまり間違って正例と判定されてしまった場合。偽陽性などとも言う。）
・FN (False Negative) とは、負例と判定されたが、本当は正例である場合
（つまり間違って負例と判定されてしまった場合。偽陰性などとも言う。）

イメージとしては、
・FP (False Positive) は、ちょっと疑わしいというだけで犯人にされてしまった場合や、ちょっと体調が悪いというだけでウイルス感染していると判定されてしまった場合のこと。
・FN (False Negative) は、本当は犯人なのにまんまとバレずに捕まらなかった場合や、本当はウイルス感染しているのに検査が甘くて見つからなかった場合のこと。

再現率 (Recall) の計算

再現率 (Recall) とは、正解が正例であるもののうち、正例だと判定したものの割合である。

計算式は
$$
Recall = \frac{TP}{TP + FN}
$$
となる。
TP (True Positive) は正しく正例と判定されたもの、
FN (False Negative) は本当は正例なのに負例と判定されてしまったものである。

例えば患者６人のうち感染者が３人いて、その３人のうち２人を正例と判定できていれば、再現率は2/3 = 66.7%ということになる。

再現率の覚え方、問題点

再現率の覚え方としては、本当の正例のうち、モデルがどれくらいを「再現」できたか（正例のうちどれくらいを正例として出力したか）、というイメージになる。

再現率の特徴は、分母の主体が（モデルではなく）真実のほうだということ。つまり、計算式の分母に来るのは、モデルが正例と判定したものではなく、正解が正例だったもの、である。

再現率の問題点としては、機械学習モデルがなんでもかんでも正例と判定すれば、再現率が100%になってしまうことである。

例えば患者６人のうち感染者が３人しかいないのに、何も考えずに６人全員を感染者と判定した場合を考えよう。このとき、感染者３人のうち３人全員が正例と判定できているから、再現率は100%となる（見かけ上あたかも良いモデルかのように見えてしまう）。

したがって再現率が高いだけでは良いモデルとはいえない。

適合率 (Precision) の計算

適合率 (Precision) とは、正例だと判定されたもののうち、本当に正例だったものの割合である。

計算式は
$$
Precision = \frac{TP}{TP + FP}
$$
となる。
TP (True Positive) は正しく正例と判定されたもの、
FP (False Positive) は本当は負例なのに正例と判定されてしまったものである。

例えば患者６人のうち４人を感染者と判定し、その４人のうち３人が本当に感染者であれば、適合率は3/4 = 75.0%ということになる。

適合率の覚え方、問題点

適合率の覚え方としては、モデルが正例と判定したもののうち、どれくらいが合っていたか（「適合」していたか）、というイメージになる。適合率の元の英語はPrecisionで、「精度」という意味なので、モデルの正例判定がどれくらいの「精度」で正解だったか、と覚えてもいいだろう。

適合率の特徴は、分母の主体が（真実ではなく）モデルのほうだということ。つまり、計算式の分母に来るのは、真実がどうだったかとは関係なく、機械学習モデルが正例と判定したもの、である。

適合率の問題点としては、機械学習モデルが慎重すぎて、負例の判定ばかりを出し、めったに正例の判定を出さないようにすれば、適合率が高く出やすいことである。

例えば感染者が３人のうち、わざわざ機械学習モデルを使わなくても明らかに感染者だとわかる１人の患者しか、正例と判定しなかった場合を考えよう。このとき、感染者と判定したのは１人だけで、本当にその１人が正例だから、適合率は100%となる（見かけ上あたかも良いモデルかのように見えてしまう）。

したがって適合率が高いだけでは良いモデルとはいえない。

再現率と適合率の違い

以上から、再現率と適合率の違いをまとめると次の通り。

分母の主体が、再現率は真実のほうだが、適合率はモデルのほう
再現率は本物の正例のうちモデルがどれくらいを再現したか（実際に正例と判定できたか）を表し、適合率はモデルが正例と判定したもののうち、どれくらいの精度で正解だったかを表す
再現率はモデルがアグレッシブに正例判定ばかりを出せば高くなるが、適合率はモデルがコンサバティブに負例判定ばかりを出せば高くなりやすい