スコア分布・クロス表・ROC曲線をインタラクティブに動かして、AUC(Area Under the Curve)の本質を体感する教材です。
二値分類モデルは、各データに「陽性らしさ」のスコアを与えます。陽性のスコア分布(赤)と陰性のスコア分布(青)がどれだけ分離しているかが、モデルの性能を決めます。しきい値を動かしてみましょう。
しきい値を動かすとクロス表(混同行列)がリアルタイムに変化します。「均等」と「偏り」を切り替えて、データの偏りが正解率を騙す仕組みを体感してみてください。
すべてクロス表(混同行列)のどこを割り算するかで定義されます。ボタンを切り替えると、その指標が見ているセルがハイライトされます。
AUC(Area Under the ROC Curve)は、分類モデルが「陽性と陰性をどれだけうまく区別できるか」を、しきい値に依存せずに測る指標です。
確率的な解釈:ランダムに選んだ陽性1人と陰性1人のペアに対して、モデルが陽性のほうに高いスコアを与える確率。AUC = 0.92 なら、100ペア中92ペアで正しくランク付けできます。
正解率との違い:正解率はしきい値に依存し、データの偏りに弱い。AUCはすべてのしきい値にわたる総合的な区別力を測るため、偏ったデータでも騙されません。
Recall / Precision / F1:あるしきい値を固定したときの性能を評価する指標。Recallは「見逃しの少なさ」、Precisionは「誤報の少なさ」、F1は両者のバランスを測ります。すべてクロス表のどこを見ているかで定義され、目的に応じて使い分けます。