現役のITエンジニアが、 システム開発の現場で求められる知識を発信
記事検索
公開

生成AIの精度を評価するための指標入門(2クラス分類編)

生成AI関連

はじめに

生成AIに限らず、AIを業務に使う際、「なんとなく良さそう」「有名だから安心」といった感覚で高性能なモデル(GPT 5.2 / Gemini 3 Pro / Claude Opus 4.5 など)を選んでしまうことは少なくありません。
近年の生成AIは全体的に性能が高く、どのモデルを使っても一見それなりに動くケースも多いため、この選び方でも短期的には問題が顕在化しないことがあります。
しかし、このような選定には次のような落とし穴があります。

  • 実はオーバースペックで、不要なコストが発生している
  • タスクとの相性が悪く、期待した精度が出ない
  • 結果、「AIを使ったが微妙だった」という結論で終わってしまう

一方で、適切な評価を行えば、

  • タスクに合った性能のモデルを選べる
  • コストパフォーマンスを意識した判断ができる
  • そもそも「このタスクはAIに向いていない」という判断もできる

ようになります。
その第一歩が、何を重視するかを決め、それを定量的に評価することです。本記事では、「生成AI × 2クラス分類問題」を題材に、実務でよく使われる評価指標を整理します。

ベンチマークでの評価との違い

ここで、「各モデルが公開しているベンチマークスコアを見れば、どのモデルが優れているか分かるのでは?」と感じる方もいるかもしれません。
確かに、ベンチマークはモデル同士を比較するうえで有用な指標です。
同一条件・同一タスクで測定されているため、モデルの“平均的な性能”や世代間の進化を把握する目的では、非常に参考になります。
一方で、ベンチマークには明確な前提があります。
それは、汎用的に設計されたタスクやデータセットを用いて評価されているという点です。
実務で扱うタスクでは、

  • 入力データの形式や品質
  • 判断基準
  • 誤判定が与える影響の大きさ

といった条件が、業務ごとに大きく異なります。
これらは、多くの場合ベンチマークの評価条件には含まれていません。

そのため、ベンチマークスコアが高いモデルを選んだとしても、

  • 自分たちの業務データでは精度が出ない
  • 特定の誤りが許容できず、実運用に耐えない
  • コストに見合う効果が得られない

といった状況が起こり得ます。
つまり、ベンチマークは「モデルの一般的な性能を知るための指標」であって、「自分たちの業務タスクに最適かどうかを判断するための指標」ではありません。
本記事で扱う評価指標は、こうしたベンチマークでは見えにくい部分である、「どの誤りを重視すべきか」、「どの誤りが致命的か」踏まえて客観的に評価にするためのものです。
以降では、2クラス分類というシンプルな設定を通して、実務のタスクに即した形で精度を評価するための考え方を見ていきます。

分類問題とは

分類問題とは、入力データをあらかじめ決めたカテゴリに振り分ける問題です。特に「2クラス分類」は、2つのどちらかに分類するシンプルな形式で、実務でも非常に多く使われています。

弊社で扱った案件であった例

今まで弊社で扱ってきた案件でも、次のような2クラス分類のタスクがありました。

  1. 特定のメール(問い合わせメール、案件紹介メールなど)と、その他のメールの分類

  2. 2つのデータが特定の観点で整合するか、しないか(◯ / ✕)

  3. スパムメール・通常のメールの分類

その他の業務例

  1. 契約書の条文が「要確認」or「問題なし」
  2. 問い合わせ内容が「人手対応(調査など)が必要」or「AIで返信内容の作成が可能」
  3. 画像が「正常」or「異常」

このように、2クラス分類は多くの業務判断のベースになっています。

分類問題を評価する指標

2クラス分類の評価でまず押さえるべきなのが、混同行列(Confusion Matrix)です。混同行列は、

  • 実際の正解
  • AIの予測結果

の組み合わせを整理したものです。

混同行列

Nano Banana Proで生成

Positive / Negative の設計について

ここで重要なのは、Positive / Negative はタスクごとに設計する概念だという点です。一般的には、

  • Positive(陽性):検知したい・重要視したい対象
  • Negative(陰性):それ以外

として設計します。

例:

  1. スパム検知

    ・Positive:スパム
    ・Negative:通常メール
  2. 問い合わせ分類

    ・Positive:人手対応が必要
    ・Negative:自動対応可能

この設計によって、「何を取りこぼしたくないのか」、「何を誤検知したくないのか」といった評価の軸が明確になります。

各要素の意味

  1. TP(True Positive)

    AIがPositiveと予測し、正解だった
  2. FP(False Positive)

    AIがPositiveと予測し、不正解だった
  3. FN(False Negative)

    AIがNegativeと予測し、不正解だった
  4. TN(True Negative)

    AIがNegativeと予測し、正解だった

Positive / NegativeはAIの予測結果、True / Falseは正解かどうかを表します。

混同行列から導く各指標

次から指標を見ていきますが、以下の例を使って各指標を計算していきます。

  • TP = 80
  • FP = 20
  • FN = 10
  • TN = 90

正解率(Accuracy)

全体のうち、どれくらい正解しているかを示す指標です。


Accuracy = (TP + TN) / (TP + FP + FN + TN)
計算例

Accuracy = (80 + 90) / (80 + 20 + 10 + 90) = 0.85
データの偏りと注意点

直感的で分かりやすい指標ですが、クラスの偏りが大きい場合は注意が必要です。
例えば、

  • Positive:1件
  • Negative:999件

という極端に偏った検証用データですべてを「Negative」と予測した場合でも、


Accuracy = 999 / 1000 = 0.999

となり、一見高精度に見えてしまいます。

※ このような極端な偏りがある場合、陽性データを増やすなどが必要となりますが、ここでは無視します。

適合率(Precision)

AIが「Positive」と予測したものの中で、どれくらい正しかったかを示す指標です。


Precision = TP / (TP + FP)
計算例

Precision = 80 / (80 + 20) = 0.8
重要になるビジネスケース

下記のように、誤検知そのものが損失やコスト増加につながる場合

  • 重要なメールをスパムメールと判断してほしくないケース

など、「誤ってPositiveと判定すると、後に重大な損失が出る」ケースでは、適合率が重視されます。

再現率(Recall)

本来Positiveであるものを、どれだけ取りこぼさず検知(再現)できたかを示す指標です。


Recall = TP / (TP + FN)
計算例

Recall = 80 / (80 + 10) ≒ 0.889
重要になるビジネスケース

下記のような見逃しが致命的な場合

  • 不正検知を確実に行いたい
  • 重要な問い合わせやアラートを確実に検出したい

など、「多少誤検知が増えても、見逃しは避けたい」というケースでは再現率が重視されます。

F値 / F1スコア(F1-score / F-measure)

適合率と再現率のバランスを取った指標です。


F1 = 2 × (Precision × Recall) / (Precision + Recall)
計算例

F1 ≒ 2 × (0.8 × 0.889) / (0.8 + 0.889) ≒ 0.842

タスクによっては、適合率も再現率もどちらも重要なケースが出てきます。
ですが、これらの値は基本的にトレードオフとしまうため、両指標のバランスを見て決定することも多いです。
そのようなときに用いることができる指標が、F1スコアです。

思ったより精度が出なかったら?

評価指標を使って検証した結果、
「思ったより精度が出ない」ということは珍しくありません。
その場合、すぐに「このモデルはダメだ」、「AIは使えない」と結論づけるのではなく、タスク設計を見直すことが有効なケースも多くあります。

タスクをシンプルにできないか?

例えば、

  • いきなりややこしいタスクをさせていないか
  • 判断基準が曖昧なままAIに投げていないか

といった点を見直します。例えば

  • まずは「要確認 or 問題なし」だけに絞る
  • 判断基準を明確にする
  • 判断が難しいケースは人手に戻す
  • データをきれいにしてからAIに渡す

といった形で、AIが判断しやすいタスクにすることで精度が大きく改善することがあります。

前処理・人手作業は許容できるコストか?

タスクをシンプルにする過程で、

  • データを整理する
  • ノイズを除去する
  • 事前に人がラベルを付ける

といった作業が必要になることもあります。このとき重要なのは、その作業コストが業務上許容できるかを冷静に判断することです。
場合によっては、

  • 「AIを使わない方が正確だし早い」
  • 「この部分だけは人がやる方が合理的」

という結論になることも、十分にあり得ます。

評価指標は、AIを採用するかどうかを判断するための材料でもあります。

まとめ

本記事では、生成AIを用いた2クラス分類タスクを題材に、混同行列と代表的な評価指標について整理しました。

生成AIは一見すると高精度に見えることが多いものの、評価指標を用いずに判断するとオーバースペックなモデルを選んでしまったり、逆にタスクに対して能力不足のモデルを使ってしまうことがあります。
正解率、適合率、再現率といった指標を使って定量的に評価することで、モデルの特性やタスクとの相性を客観的に把握できるようになります。
また、評価の過程で「そもそもこのタスクはAIに向いていない」という判断に至ることもあります。
重要なのは、単に精度の高いモデルを選ぶことではなく、業務上どの誤りが許容でき、どの誤りが致命的なのかを明確にしたうえで、適切な評価指標を選ぶことです。

本記事が、「とりあえず最新モデル」から一歩進んだ、測って選ぶAI活用の参考になれば幸いです。

生成AI活用支援サービスのご紹介

Tech Funでは、お客様のフェーズに合わせ、生成AI活用に向けた支援を3つのパックでご提供しています。

  1. 無料診断パック:業務・プロセスの現状を無料で診断し、生成AI活用の可能性をレポートします。
  2. 検証(PoC)パック:診断で有効性が確認された業務を対象に、プロトタイプ構築を支援します。
  3. コンサルティングサービス:生成AI導入戦略の策定から運用体制構築までを包括的に支援します。

生成AIに限らず、Web・業務システム開発やインフラ設計など、技術領域を問わずご相談を承っています。「何から始めれば良いか分からない」という段階でも構いませんので、ぜひお気軽にお問い合わせください。

執筆・編集

Tech Fun Magazine R&Dチーム
Tech Funの生成AI研究に携わるエンジニアが、最新のAIモデル動向やプロンプト設計、実業務への応用手法など、生成AIに特化した知見を執筆・編集しています。
モデル評価や業務シナリオに応じたAI活用設計など、日々のR&D活動で得られる実践的なノウハウをわかりやすく紹介します。

ARTICLE
生成AI関連記事一覧

生成AI関連

生成AIの精度を評価するための指標入門(2クラス分類編)

生成AI関連

NotebookLMで議事録活用【検索編】

生成AI関連

類似検索を実現するための「エンベディング」のしくみ

生成AI関連

CS業務効率化を始める最小ステップ

生成AI関連

生成AIのテキスト生成のしくみとパラメータ

生成AI関連

生成AIの導入と定着に向けて

生成AI関連

AI議事録のしくみ

生成AI関連

「良いプロンプト」はAIに作らせよう

生成AI関連

生成AIの“知識の限界”をどう突破する?

記事一覧を見る