GPT-5.2 徹底解説

公開 2025.12.12

更新 2025.12.16

はじめに

2025年12月11日、OpenAIはGPT-5.2を発表し、同日に安全性レポート「Update to GPT-5 System Card: GPT-5.2（以下、GPT-5.2 システムカード）」を公開しました。
本ブログでは、主にChatGPTを使用されているユーザーやAIシステムを開発するエンジニア・プロダクト担当者に向けて、重要になりそうなポイントについて整理します。

システムカードとは何か

OpenAIが公開しているSystem Card（以下、システムカード）は、フロンティアモデルをリリースする際に併せて公開される安全性レポートです。GPT-4のシステムカードでも、モデルに伴う安全上の課題を概観し、リスクを軽減するために行った介入（mitigations）を説明する趣旨が明示されています。
システムカードの実務上の価値は、次の点にあります。

どのリスク領域を重視し、何を指標化しているか
どの条件で改善／悪化が観測されたか
運用（監視・ポリシー・レビュー）をどう前提にしているか

良く勘違いされがちなのが、モデルがアップグレードされたら全ての観点で性能が向上するということです。システムカードを読み解けば、どのような条件で各ベンチマークを計測したのか、どのような条件の下では改善したのかが分かります。もちろん、ある特定条件の下では悪化することもあるため、開発者としては何となくモデルをアップグレードするのではなく、自分たちが使用する業務領域において、果たしてこのモデルのアップグレードを適用することは良いことなのかを考え抜かなければなりません。
そして、システムカードは「すべての派生モデルについて同じ粒度の評価表が並ぶ」とは限りません。今回のGPT-5.2 システムカードの主要評価表では、InstantとThinkingが中心で、Proの列は提示されていないことも分かります。

Table 1: Production Benchmarks

このため、対外向けの安全性説明やシステムに組み込む際には、この点を考慮した人間による総合的な判断が必要になります。

GPT-5.2 ラインナップ

まず、モデルラインナップを整理します。日本語版の公式ブログでは、GPT-5.2ファミリーを次の3モデルとして説明しています。

モデル名	概要
GPT-5.2 Instant	日常の仕事・学習向けの高速モデル。情報探索、手順説明、技術文書作成、翻訳などに最適。
GPT-5.2 Thinking	より深い業務、複雑なタスク向け。コーディング、長文ドキュメント要約、ファイル QA、数学・ロジック、計画・意思決定の支援に強み。
GPT-5.2 Pro	高品質な回答が求められる難しい質問向け。「当社で最も高度かつ信頼性の高いモデル」と位置づけられ、プログラミングなどの複雑な領域でエラー減少・性能向上が確認されたと説明

特に科学・数学分野では、大学院レベルの Q&A ベンチマーク GPQA Diamond にて、

GPT-5.2 Pro: 93.2%
GPT-5.2 Thinking: 92.4%

というスコアを達成し、FrontierMathやARC-AGI-2といった難度の高いベンチマークでもSOTAに近い性能を記録しています

主要なベンチマーク

ところで、ChatGPTとAPIとでは、そのモデル命名に違いがあります。

ChatGPTとAPIにおけるモデル命名

ここで注意しなければならないのは、gpt-5.2-chat-latestとgpt-5.2は価格が同水準でも、コンテキスト長と最大出力が異なることです。

Compare models chat-latest and gpt-5.2

生成AIをシステムに組み込むときのこの違いは致命的になることがあるので、間違えないようにしましょう。

GPT-5.2システムカードの要点

GPT-5.2のシステムカードで主に評価されているのは、InstantとThinkingです。以降の内容は、基本的にこの2モデルと、GPT-5.1・GPT-5系列の比較であることをご認識ください。

不許可コンテンツ（Production Benchmarks）

システムカードでは、実際の ChatGPT トラフィックに近い「Production Benchmarks」を用いて、違法行為・個人情報・ハラスメント・過激主義・自傷行為・性的コンテンツなどのカテゴリで、ポリシー違反を起こさない率（not_unsafe）を測定しています。

Table 1: Production Benchmarks

表1では、gpt-5.2-instant / gpt-5.2-thinkingがGPT-5.1系列と同等かそれ以上の安全性を示し、特に以下のカテゴリで改善が強調されています。

自殺・自傷（suicide / self-harm）
メンタルヘルス（mental health）
モデルへの強い感情的依存（emotional reliance）

また、成人向けの性的テキストコンテンツに関しては、gpt-5.2-instantがgpt-5.1-instantより拒否を減らしつつ、未成年や違法な性的コンテンツに関しては既存の保護を維持していると説明されています。

ジェイルブレイク

システムカードでは、StrongRejectという学術的なジェイルブレイクベンチマークを用いて、意図的にポリシーを破らせようとする攻撃への耐性も評価しています。

Table 2: StrongReject filtered

gpt-5.2-thinkingはgpt-5.1-thinkingより高い安全性を示す一方で、gpt-5.2-instantはジェイルブレイク耐性において一部指標でgpt-5.1-instantより劣っているのが分かります（0.976 → 0.878）。それでもGPT-5系列よりは良好な水準であることが見て取れますね。

プロンプトインジェクション

プロンプトインジェクション評価（Table 3）では、Instant / Thinking の両方でほぼ飽和に近い高スコアとなっており、「既知の攻撃」に対するロバストネスはかなり高いと結論づけています。

Table 3: Prompt Injection

ただし、これは既知攻撃に対する評価であり、未知攻撃に対する一般化を保証するものではありません。したがって実装側では、権限分離やツール出力のサニタイズ、監査ログなどの多層防御を前提にする必要があります。

ハルシネーション

システムカードでは、ハルシネーションを複数の指標で評価しています。特に重要なのは、Browsing Enabled（ブラウジング有効）の条件では、5ドメイン（Business + Marketing Research、Financial and Tax、Legal and Regulatory、Academic Essays、Current Events and News）で<1%と記載されている点です。

Average Hallucination Rate

Average Hallucination Rate by Domain

一方で、同じ図ではBrowsing Disabled（ブラウジング無効）の条件で、別指標（例：1つ以上の重大誤りを含む応答割合）が10%台となる箇所も示されています。

Average Hallucination Rate not browsing

Average Hallucination Rate by Domain not browsing

つまり「<1%」は重要な前進である一方、条件が異なれば誤り率が上がり得るため、実運用では「根拠提示」「検証導線」「レビュー線」を設計に組み込むことが不可欠です。

Deception（欺瞞）

まず、ここでいうDeceptionは「ユーザー向けの回答が、内部推論や実際の行動と食い違う」ということを指しています。つまり、ツールを実行していないのに「実行した」と言ったり、成功していないのに「成功した」ということを指しています。

Table 6: Deception rate

Production trafficのdeception rateは7.7% → 1.6%と大きく改善しています。
ただし同じ表では、たとえばCharXiv Missing Image（Strict output requirements）のように、34.3% → 88.8%と非常に悪化している項目も示されています。
実務的には、厳密な出力制約（例：「整数のみ」「指定フォーマット厳守」）を課すタスクほど、推測回答や仕様逸脱が起きないかを個別に検証し、必要に応じて「再試行」「検証ステップ」「フォールバック」を設計するのが安全でしょう。

API 料金と仕様

以下の表のとおりになります。
より正確な情報は、OpenAI社のモデル比較ページで確認すると良いでしょう。
OpenAI Platform: Compare models

料金（1M tokens あたり）

モデル ID	入力	キャッシュ入力	出力
gpt-5.2	$1.75	$0.175	$14.00
gpt-5.2-chat-latest	$1.75	$0.175	$14.00
gpt-5.2-pro	$21.00	—	$168.00

仕様（コンテキスト長・最大出力・知識カットオフ）

モデル ID	最大コンテキスト長	最大出力トークン	Knowledge cutoff
gpt-5.2	400,000	128,000	2025-08-31
gpt-5.2-chat-latest	128,000	16,384	2025-08-31
gpt-5.2-pro	400,000	128,000	2025-08-31

Compare 3 models

ここでgpt-5.2-proについては注意点があります。
上記画像のように、Responses APIのみ対応しており、Structured outputs（構造化出力）、Image input（画像入力）には対応していません。
API経由で呼び出す際にはこの点を抑えておかなければなりませんね。

API実装例

開発者としてこれらを組み込むときにどのようにコードを書くことができるのでしょうか。
たとえば、PythonからGPT-5.2 Thinkingを呼び出す例は下記のとおりです。

main.py


from openai import OpenAI

client = OpenAI()

response = client.responses.create(
    model="gpt-5.2",
    reasoning={"effort": "medium"},
    input=[
        {
            "role": "developer",
            "content": "あなたは B2B SaaS 企業のテックブログ編集者です。"
        },
        {
            "role": "user",
            "content": "GPT-5.2 システムカードの要点を、非専門家の経営層にも伝わるように5点に要約してください。"
        }
    ]
)

print(response.output_text)

GPT-5.2 parameter compatibility

ここで、GPT-5.2にのみ使用できるパラメータがあります。例えば、Reasoning depthとしてxhighがサポートされるようになりましたが、これはgpt-5などでサポートされていないパラメータであるためエラーになります。この点は注意しながら移行をする必要があります。
gpt-5.2-proをReasoning effort: xhighで使用する際は慎重になる必要もありそうですね。
1リクエストのコストが容易に数ドル～十数ドルになる可能性があるため、用途を高付加価値タスクに絞り切ることが重要そうです。
また、レイテンシが長くなるケースもあるため、バッチ処理や非同期実行と組み合せる設計も必要になりそうですね。
何でも一番グレードの高いモデルを使えばよいわけではないので、この判断を行うためには、しっかりシステムカードを読み込む必要があることが伝わるかと思います。

安全運用の観点で押さえておきたいポイント

最後に、システムカードを踏まえた運用上の注意を簡潔に整理します。

モデル任せにしないガバナンス：
OpenAI 自身も、Production BenchmarksやSafety Classifiersを併用して安全性を担保しており、「安全が確実に保証される」とは言っていません。AIシステムを開発するベンダー側でも、コンテンツフィルタやヒューマンレビューを含む多層防御を設計する必要があります。
メンタルヘルス・自傷関連：
GPT-5.2 では自殺・自傷・メンタルヘルス・感情的依存に関する応答品質が大きく改善したものの、あくまで大衆向けチャットボットとしての安全性であり、医療行為の代替ではありません。
バイオ・サイバー・AI 自己改善などの高リスク分野：
GPT-5系列では、バイオ・化学・サイバーセキュリティ・AI自己改善といった分野を特に強く評価し、「High capability」とみなした上で追加のガードを適用しています。社内ポリシーとしても、これらの分野では利用目的・ユースケース・ユーザー権限を明示的に制限するべきです。
ログ・評価の仕組みを最初から組み込む：
GPT-5.2 Thinkingは、ハルシネーション率が「<1%」まで抑えられたケースもある一方、「ゼロではない」という前提でログ・監査の仕組みを最初から設計しておくことが重要です。

まとめ

GPT-5.2の公式ブログおよびシステムカードから、GPT-5.2の解説を行いました。
システムカードでは公式ブログに記載された改善点だけでなく「どの条件で悪化し得るか」まで含めて示している点が重要です。少なくとも生成AI活用を推進する立場の人間は、必ずご自身の目で読みましょう。AI要約、ブログ記事、YouTubeなどのまとめも非常に参考になりますが、実際に自分自身で読んで、正しい判断のもとに生成AIを活用した業務効率化を進めていきたいものです。
また、システムカードにおいてGPT-5.2 Proは公開指標が Instant/Thinking と同じ形で揃っていないため、その点も留意して適用範囲を決めるのがよいでしょう。

生成AI活用支援サービスのご紹介

Tech Funでは、お客様のフェーズに合わせ、生成AI活用に向けた支援を3つのパックでご提供しています。

無料診断パック：業務・プロセスの現状を無料で診断し、生成AI活用の可能性をレポートします。
検証（PoC）パック：診断で有効性が確認された業務を対象に、プロトタイプ構築を支援します。
コンサルティングサービス：生成AI導入戦略の策定から運用体制構築までを包括的に支援します。

生成AIに限らず、Web・業務システム開発やインフラ設計など、技術領域を問わずご相談を承っています。「何から始めれば良いか分からない」という段階でも構いませんので、ぜひお気軽にお問い合わせください。

執筆・編集

Tech Fun Magazine R&Dチーム

Tech Funの生成AI研究に携わるエンジニアが、最新のAIモデル動向やプロンプト設計、実業務への応用手法など、生成AIに特化した知見を執筆・編集しています。
モデル評価や業務シナリオに応じたAI活用設計など、日々のR&D活動で得られる実践的なノウハウをわかりやすく紹介します。

GENERATIVE AI
生成AI関連記事一覧

生成AI関連

公開 2026.07.07