【AIF-C01】”評価指標”に関連した知識を身に着けよう!(勉強ログ#21)

AWS AI Practitioner

※本記事はAIF-C01の資格試験対策用に私が勉強した内容を備忘録として残したものです。想定問題を解いていて重要だ、ここは忘れそうだと感じた部分をまとめています。網羅的な解説記事ではありませんのでご容赦ください。

はじめに

さて今回は、AIF-C01(AWS Certified AI Practitioner)の資格試験対策として、評価指標についてまとめたいと思います。

資格試験に受かることだけを目標に、ポイントだけ抑えた記事となっていますので、気になった個所はより深く調べてみてくださいね。

それでは見ていきましょ~。

オススメ試験対策

試験対策にオススメなUdemy講座も載せておきますね。

基本的には過去問のみです。

とにかく問題を解きまくる!分からないところは私の勉強ログで知識を補填する。このようなサイクルで回してもらえるとすごく嬉しいです~。

目指せ試験合格!

評価指標

分類タスクの評価指標

  • 混同行列(Confusion Matrix):
    混同行列は、分類モデルの性能を評価するための表形式の指標です。行と列に「実際のクラス」と「予測したクラス」を配置し、真陽性(TP)、偽陽性(FP)、偽陰性(FN)、真陰性(TN)の4つの要素を示します。これにより、どの程度正しく分類できたか、またどの誤分類が発生しているかを一目で把握できます。
  • 正解率(Accuracy):
    正解率は、全ての予測に対して正しく予測された割合を示す指標です。具体的には、(TP + TN) ÷ (TP + FP + FN + TN)で計算されます。全体の中で正解した割合を表しますが、クラスの不均衡がある場合には、必ずしもモデルの性能を正確に反映しないことがあります。
  • 適合率/精度(Precision):
    適合率は、モデルが陽性と予測した中で、実際に陽性であった割合を示します。計算式はTP ÷ (TP + FP)です。高い適合率は、誤って陽性と判断する(偽陽性)のが少ないことを意味し、重要なケースで誤判定を避けたい場合に重視されます。
  • 再現率(Recall):
    再現率は、実際に陽性であるサンプルの中で、モデルが正しく陽性と予測できた割合を示します。計算式はTP ÷ (TP + FN)です。再現率が高いと、見逃しが少ないことを意味し、すべての陽性を検出することが重要なタスクで評価されます。

精度とリコールの違いはしっかりと理解しよう!

精度:モデルが陽性と判断した中で実際に陽性の割合

リコール:実際に陽性の中でモデルが陽性と判断した割合

  • F1スコア:
    F1スコアは、適合率と再現率の調和平均を取ることで算出され、両者のバランスを評価する指標です。計算式は2 × (Precision × Recall) ÷ (Precision + Recall)です。適合率と再現率の両方を重視する場合に有用な指標となります。

色々と名前がごちゃごちゃですが、精度とリコールの関係性を示したものがF1スコアです

  • 偽陽性率(False Positive Rate, FPR):
    偽陽性率は、実際は陰性であるサンプルの中で、誤って陽性と予測された割合を示します。計算式はFP ÷ (FP + TN)です。低い偽陽性率は、誤って陽性と判定するケースが少ないことを示し、特に誤検知が問題となる場合に重要です。
  • 真陰性率(True Negative Rate, TNR):
    真陰性率は、実際に陰性であるサンプルの中で、正しく陰性と予測できた割合です。計算式はTN ÷ (TN + FP)で、特に正常なケースを正しく識別する能力を示します。TNRは1-偽陽性率とも表現されます。
  • ROC曲線(Receiver Operating Characteristic Curve):
    ROC曲線は、モデルの分類性能を閾値ごとに評価するためのグラフです。横軸に偽陽性率(FPR)、縦軸に真陽性率(TPR, Recall)をプロットします。これにより、閾値を変化させた際のトレードオフを視覚的に評価でき、モデルの性能比較に利用されます。
  • AUC(Area Under the ROC Curve):
    AUCは、ROC曲線の下の面積を表す指標で、0から1の値をとります。1に近いほどモデルの識別能力が高く、0.5はランダム分類器と同等であることを意味します。AUCは、閾値に依存しない総合的なモデル性能の評価指標として広く利用されます。要は確率ですかね。

回帰タスクの評価指標

  • 平均二乗誤差(MSE):
    平均二乗誤差(Mean Squared Error, MSE)は、モデルの予測値と実際の値との差(誤差)の二乗を平均した指標です。具体的には、各データポイントの誤差を二乗することで、正負の影響を打ち消さずに大きな誤差により大きなペナルティを与えるため、外れ値に敏感な評価となります。数式で表すと、MSE = (1/n) Σ (予測値 – 実測値)² となります。この指標は、回帰モデルの精度を評価する際に広く使用され、値が小さいほどモデルの予測が実際の値に近いことを意味します。
  • 二乗平均平方根誤差(RMSE):
    二乗平均平方根誤差(Root Mean Squared Error, RMSE)は、MSEの平方根を取った指標です。RMSEは、元のデータの単位に合わせた形で誤差を評価できるため、直感的に理解しやすい特徴があります。計算式は、RMSE = √[(1/n) Σ (予測値 – 実測値)^2] となります。RMSEは、MSEと同様に大きな誤差に対してより大きなペナルティを与えるため、外れ値の影響を反映しますが、誤差の尺度を元のデータに合わせることで、モデルの予測精度を直感的に評価するのに役立ちます。
  • 平均絶対誤差(MAE):
    平均絶対誤差(Mean Absolute Error, MAE)は、予測値と実際の値との差の絶対値を平均した指標です。数式で表すと、MAE = (1/n) Σ |予測値 – 実測値| となります。MAEは、誤差の大きさをそのまま評価するため、外れ値に対する感度がMSEやRMSEほど高くなく、データのばらつきをより安定して反映します。また、誤差の平均的な大きさを直感的に理解できるため、モデルの性能をシンプルに評価したい場合に適しています。
  • 決定係数R^2:
    決定係数R^2は、回帰モデルがどれだけ実際のデータを説明しているかを示す指標です。実測値とモデルによる予測値との乖離を、実測値の全体的なばらつき(変動)と比較して算出されます。1に近いほどモデルの説明力が高く、0に近いと説明力が低いことを意味します。

生成タスクの評価

  • ROUGE(自動生成要約の品質評価):
    ROUGEは、生成された要約文の品質を評価するための指標群で、主に自動生成要約システムの出力を評価する際に利用されます。ROUGE-Nはnグラムの重複度合いを計算し、ROUGE-Lは最長共通部分系列(LCS)に基づいて要約の類似性を測定します。これらの指標は、生成要約が参照要約とどの程度一致しているかを定量的に評価し、要約の網羅性や正確性を判断するために用いられます。数値が高いほど参照要約との一致度が高く、生成要約の品質が良いとされます。
  • BLEU(機械翻訳の品質評価):
    BLEUは、機械翻訳システムの出力を評価するための指標で、参照翻訳と生成された翻訳文の間で一致するnグラムの割合を計算します。これにより、翻訳文がどの程度自然で正確かを定量的に示すことができます。BLEUは、nグラム一致率に加えて、ペナルティ項(ブレベティペナルティ)を導入することで、長さの違いも考慮に入れた評価を行います。高いBLEUスコアは、生成された翻訳が参照翻訳に近い品質であることを示し、機械翻訳の性能向上を評価する際に広く利用されます。
  • BERTScore(生成応答のセマンティックな類似性評価):
    BERTScoreは、BERTなどの事前学習済み言語モデルを活用して、生成された文章と参照文章間のセマンティックな類似性を評価する指標です。各単語をベクトル表現に変換し、類似度(コサイン類似度など)を計算することで、単純なnグラムの一致に頼らず、意味的な一致度を評価します。これにより、機械翻訳や生成応答の忠実度や自然さ、意味の整合性をより深く評価できるため、ハルシネーション(生成誤り)のリスクを低減する効果が期待されます。数値が高いほど、生成文と参照文が意味的に近いことを示します。

ROUGE:テキストの一致度

BERT:テキストの類似度

  • SageMakerによる基盤モデル評価(FMEval):
    SageMakerによる基盤モデル評価(FMEval)は、Amazon SageMaker上で動作する評価フレームワークで、事前学習済みモデルの性能を包括的に評価するために設計されています。FMEvalは、GLUE、SuperGLUE、MMLU、BIG-bench、HELMなどの既存のベンチマークを統合し、多角的な視点からモデルの理解能力、生成品質、タスク適合性を測定します。これにより、基盤モデルの改良点を明確にし、モデルの信頼性や忠実度、ハルシネーションリスクの評価に役立ちます。評価結果は、モデルの実運用前にパフォーマンスを確認するための重要な指標となり、最適なモデル選定や微調整のプロセスをサポートします。

FM(Foundation Model):基盤モデル

Evaluation:評価

最後に

さて今回は、AIF-C01(AWS Certified AI Practitioner)の資格試験対策として、評価指標についてまとめました。

あくまでも私の備忘録ですが、このメモが皆さんのお役に立てればとても嬉しいです!是非この記事を読んで資格に合格できた!!等あれば励みになりますのでコメントください~。

前回まとめた記事はこちらです。

本ブログでは、AIF-C01以外の勉強記事もあげていますのでそちらも是非!!

コメント

タイトルとURLをコピーしました