コード品質に関する新しいデータ: GPT-5.2高、Opus 4.5、Gemini 3など

December 15, 2025

10 読了時間

Prasenjit Sarkar

Solutions Marketing Manager

TL;DR 概要

Sonarの最新のLLMコード品質分析では、4,000以上のJavaタスクを対象に実施され、GPT-5.2 Highが最も優れたセキュリティ姿勢（MLOCあたり16のブロッカー脆弱性）を達成しましたが、最も多くのコード量（974,379 LOC）を生成し、メンテナンスの負担が大きいことが判明しました。
Claude Sonnet 4.5は、パストラバーサルやインジェクションの欠陥を含むMLOCあたり198のブロッカー脆弱性を生成しましたが、Opus 4.5 ThinkingはこれをMLOCあたり44に減少させ、推論モードがセキュリティ制約の検証を意味のある形で改善することを示唆しています。
コードの臭いはすべてのモデルで支配的で、検出された問題の92〜96％を占めており、AI生成コードのスケールでのメンテナンス性が普遍的なコストであることを確認しています。
結果はSonar LLMリーダーボードで利用可能で、エンジニアリングリーダーにAIモデル選択を情報に基づいて行うための透明な品質データを提供します。

機能ベンチマークはAIモデルを評価するための標準であり、生成されたコードがテストケースを通過できるかどうかを効果的に測定します。LLMが進化するにつれて、これらの機能的な課題を解決する能力がますます向上しています。しかし、このコードを本番環境に展開するエンジニアリングリーダーにとって、機能的な正確さは方程式の半分に過ぎません。

AIコーディングモデルの実際の効果を理解するには、その構造的品質、セキュリティ、およびメンテナンス性も理解する必要があります。幸いなことに、Sonarは毎日7500億行以上のコードを分析しているため、この作業を行うのに最適な立場にあります。

数ヶ月前、私たちはSonarQube静的解析エンジンを使用して、4,000以上の異なるJavaプログラミング課題でテストすることにより、主要なLLMで作成されたコードの品質、セキュリティ、およびメンテナンス性を分析し始めました。

今日、私たちはすべての評価を新しいSonar LLMリーダーボードで利用可能にし、GPT-5.2 High、GPT-5.1 High、Gemini 3.0 Pro、Opus 4.5 Thinking、およびClaude Sonnet 4.5に関する最新の発見を共有しています。

Sonar LLMリーダーボードで新しいデータを探索する

トレードオフの可視化

異なるモデルのトレードオフと動作を理解するために、3つの重要な次元でプロットしました: 合格率（X軸）、認知的複雑性（Y軸）、冗長性（バブルサイズ）。

モデルがより「パフォーマンスが高く」なり右に移動するにつれて、その出力はより冗長で複雑になり、コードをレビューし使用するエンジニアに対する負担が増します。

複雑性の相関

私たちの研究は、モデルの推論能力とコードの複雑性の間に相関があることを示しています。モデルがより難しい問題に対して洗練された状態を持つ解決策を試みると、しばしば単純なコードから離れていきます。この変化は、単純な構文エラーよりも検出が難しいエンジニアリングの課題を引き起こします。

Opus 4.5 Thinkingは機能的なパフォーマンスで83.62％の合格率を達成し（したがって上記のチャートで最も右に位置しています）、しかしこのパフォーマンスは高い冗長性を伴い、ベンチマークテストを解決するために639,465行のコード（LOC）を生成しています（これがチャート上で最も大きなバブルサイズの1つである理由です）。これは、より冗長でないモデルの2倍以上のボリュームです。
Gemini 3 Proは効率性の異常値として際立っています。81.72％の合格率を達成しながら、低い認知的複雑性と低い冗長性（小さなバブルサイズ）を維持しています。この組み合わせは、簡潔で読みやすいコードで複雑な問題を解決する独自の能力を示唆しています。しかし、Geminiは他の最近のモデルと比較して最も高い問題密度を持っています。
GPT 5.2 Highは機能的なパフォーマンスで3位（80.66％）にランクインし、Opus 4.5とGemini 3 Proに続いています。高い合格率にもかかわらず、コホートの中で最も多くのコード量（974,379 LOC）を生成しました。前任者（GPT 5.1 High）と比較して、GPT 5.2はメンテナンス性が低下し、すべての重大度でバグ密度が増加していますが、全体的なセキュリティとブロッカーレベルの脆弱性においてわずかな改善を示しています。
GPT-5.1 Highも80％の合格率を達成していますが、認知的複雑性が増加しています（Y軸上で高い位置）。これは、問題を解決する一方で、構造的に読みやすく維持しやすいロジックを生成していることを示しています。

エンジニアリングの規律と信頼性

モデルは強力な論理能力を示していますが、私たちの分析は、リソース管理やスレッドセーフティなどのソフトウェアエンジニアリングの基本をどのように扱うかにおいて明確なパターンを明らかにしています。これらの数値を文脈化することで、同様の合格率を持つモデル間で信頼性に大きな格差があることが明らかになります。

1. 同時実行の課題: GPT-5.2 Highは強力な推論を示していますが、同時実行エラーが他のモデルよりも多く発生しやすいです。MLOCあたり470の同時実行問題を生成しており、次に近いモデルのほぼ2倍、Gemini 3 Proの6倍以上の率です。

モデル	MLOCあたりの同時実行問題
GPT 5.2 High	470
GPT-5.1 High	241
Opus 4.5 Thinking	133
Claude Sonnet 4.5	129
Gemini 3 Pro	69

2. リソース管理: Claude Sonnet 4.5は、MLOCあたり195のリソース管理リークを生成し、より高い率を示しました。比較すると、GPT-5.1 Highは同じタスクでMLOCあたり51のリークを生成しました。

モデル	MLOCあたりのリソースリーク
Claude Sonnet 4.5	195
GPT 5.2 High	86
Opus 4.5 Thinking	84
Gemini 3 Pro	79
GPT-5.1 High	51

3. 制御フロープレシジョン: Gemini 3 Proは制御フローミスの最高率（MLOCあたり200）を記録し、Opus 4.5 Thinking（MLOCあたり55）の約4倍です。GPT 5.2 Highは高い精度を示し、コホート内で最も低いエラーレートを達成し、MLOCあたりわずか22の制御フローミスを記録しました。

モデル	MLOCあたりの制御フローミス
Gemini 3 Pro	200
Claude Sonnet 4.5	152
GPT-5.1 High	98
Opus 4.5 Thinking	55
GPT 5.2 High	22

セキュリティ検証

セキュリティは検証のための重要な領域です。私たちの分析は、モデルが信頼できないユーザー入力をソースからシンクまで常に確実に追跡するわけではないことを確認しています。

Claude Sonnet 4.5は、パストラバーサルやインジェクションの欠陥を含むMLOCあたり198のブロッカー重大度の脆弱性を登録しました。この率は同クラスの他のモデルよりも高いです。Opus 4.5 ThinkingはMLOCあたり44のブロッカーで大幅に優れたパフォーマンスを示し、その「思考」プロセスが出力を生成する前にセキュリティ制約の検証を改善する可能性があることを示唆しています。GPT 5.2 Highは、MLOCあたり16のブロッカー脆弱性でコホート内で最も優れたセキュリティ姿勢を達成しました。他の指標ではこのモデルがコード量と一般的なバグ密度に苦労していることを示していますが、重要なセキュリティホットスポットの処理においては現在最高クラスです。

モデル	MLOCあたりのブロッカー脆弱性
Claude Sonnet 4.5	198
Gemini 3 Pro	66
GPT-5.1 High	53
Opus 4.5 Thinking	44
GPT 5.2 High	16

メンテナンス性の課題

重大なバグを超えて、メンテナンス性はAIコードの総所有コストにおける主要な要因であり続けます。「コードの臭い」問題はメンテナンス性を低下させ、評価されたモデル全体で検出された問題の92％から96％を占めています。

GPT-5.1 HighはMLOCあたり4,400以上の一般的な臭いを生成しました。

モデル	MLOCあたりの一般的な臭い
GPT-5.1 High	4426
GPT 5.2 High	3453
Gemini 3 Pro	3044
Claude Sonnet 4.5	2551
Opus 4.5 Thinking	2225

Claude Sonnet 4.5はより多くの設計ベストプラクティスを回避しました。

モデル	MLOCあたりの設計ベストプラクティス違反
Claude Sonnet 4.5	4316
Gemini 3 Pro	3824
Opus 4.5 Thinking	2494
GPT 5.2 High	2293
GPT-5.1 High	1840

Sonar LLMリーダーボードについて

私たちはSonar LLMリーダーボードを作成し、モデルがコードをどのように構築するかだけでなく、何を構築するかについての透明性を提供しています。数千のAI生成ソリューションをSonarQubeを通じて実行することで、エンジニアリングリーダーにとって重要な指標でモデルを評価しています: セキュリティ、信頼性、メンテナンス性、複雑性。

Sonar LLMリーダーボードで完全なデータセットを探索してください。

SonarQube Cloud

SonarQube Server

SonarQube IDE

Advanced Security

Gitar新着

Sonar Vortex新着

SonarQube Remediation Agent

MCP Server / SonarQube CLI

SonarSweep早期アクセス

SonarQube Cloud

SonarQube Server

SonarQube IDE

Advanced Security

Gitar新着

Sonar Vortex新着

SonarQube Remediation Agent

MCP Server / SonarQube CLI

SonarSweep早期アクセス

ユースケース

AIコード品質

開発者主導のセキュリティ

自動化されたコードレビュー

プラットフォームエンジニアリング

コンプライアンスと報告

SDLCガバナンス

秘密の検出

すべてのユースケース

探求する

AIソリューション

セキュリティソリューション

コード品質ソリューション

ROI計算ツール新着

SonarQube 対 GitHub Code Quality

産業

医療

金融サービス

小売

連邦政府

顧客認識

当社の顧客

お客様の声

AIコード品質

開発者主導のセキュリティ

自動化されたコードレビュー

プラットフォームエンジニアリング

コンプライアンスと報告

SDLCガバナンス

秘密の検出

すべてのユースケース

AIソリューション

セキュリティソリューション

コード品質ソリューション

ROI計算ツール新着

SonarQube 対 GitHub Code Quality

医療

金融サービス

小売

連邦政府

当社の顧客

お客様の声

開発者向け

開発者ハブ

オープンソースへの取り組み

コミュニティ

Sonarルール

開発者ガイド

ドキュメント

SonarQube Server

SonarQube Cloud

SonarQube for IDE

統合

GitHub

Bitbucket

Azure DevOps

Gitlab

すべて見る

35以上の言語とフレームワーク

Java

JavaScript

Python