【機械学習】混同行列について学ぼう

本記事では混合行列とその中身について書いてあります。
目次は以下の通りです。

混同行列とは?


この評価方法は、分類問題における一つの方法で、真陽性、真陰性、偽陽性、偽陰性の4つの要素で構成されています。通常、これらの要素を表形式で示し、分類モデルの性能を評価します。
表は以下のようになります。

予測結果が正しい予測結果が間違い
正解結果が正しいTP(真陽性)FN(偽陰性)
正解結果が間違いFP(偽陽性)TN(真陰性)

精度

精度とは正しく分類できたデータの割合であり、正解率とも呼ばれます。
公式は以下の通りです。

$$ \frac{TP+TN}{TP+FP+FN+TN} $$

TP、TN、FP、FNは表で示したものです。
ここでは大事なのが分子が真陽性だけで真陰性も含まれていることです。

再現率

再現率は、失敗が許されない現場で活用される重要な指標です。この指標は、実際の陽性データの中で、正しく陽性として検出されたデータの割合を示します。再現率は、特に陽性を見落とすとリスクが高い場合に特に注目される指標であり、本当は不良品だったものを実際に不良品として正しく特定する割合を示します。
公式は以下の通りです。

$$ \frac{TP}{TP+FN} $$

TP、FNは表で示したものです。

適合率

適合率は、検索サイトやレコメンドシステムなどで重要な指標として活用されるもので、不良品だと予測した中で実際に不良品であったものの割合を示します。具体的には、陽性判定されたデータのうち、実際に陽性だったデータの割合を表し、特に偽陽性を避けたいときに注目される要素となります。
公式は以下の通りです。

$$ \frac{TP}{TP+FP} $$

ただし、TP、FPは表で示したものです。

F値

再現率と適合率は互いにトレードオフの関係にあり、片方に重きを置くともう片方がおろそかになることがあります。例えば、あるテストが不良品を検出する場合、再現率を高くするために、可能な限り多くの不良品を見逃さないようにテストの感度を高めることができます。しかし、この場合、偽陽性も増え、適合率が低下する可能性があります。

一方、適合率を高くするためには、検出された不良品の中で実際に不良品である確率を高めることが重要です。しかし、このアプローチでは、一部の不良品を見逃す可能性があるため、再現率が低下することがあります。

このような偏りを解消するために、再現率と適合率の調和平均を取って算出される指標があります。この指標はF値と呼ばれ、再現率と適合率の両方をバランスよく考慮することができ、適切なトレードオフを達成するのに役立ちます。
公式は以下の通りです。

$$ \frac{2\times P\times R}{P+R} $$

ただし、Rは再現率でPは適合率を示しています。

まとめ

本記事は混合行列とその中身である精度、再現率、適合率、そしてF値について解説しました。再現率と適合率はどちらを重視するかはモデルによって判断しましょう。

コメント

タイトルとURLをコピーしました