コーディングモデルへの信頼性を構築
トレーニングデータから体系的な欠陥を事前に排除し、設計段階から安全な基盤モデルを学習させます。
大規模言語モデル(LLM)は強力ですが、トレーニングデータに起因する欠陥を継承してしまいます。SonarSweepは、モデルの事前学習および事後学習で使用されるコーディングデータセットの修正、セキュリティ強化、最適化を行うために設計されたサービスです。

AIが生成するコードの品質は、LLMのトレーニングに使用されたデータの品質に左右されます。研究によると、たとえ少量の低品質なデータであっても、モデルに不釣り合いなほど悪影響を与え、バグだらけでセキュリティ上の脆弱性があるコードを生成させる原因となることが示されています。
ほとんどのLLMの基盤となっている膨大な公開データセットは、良質なコードと、バグやセキュリティ上の脆弱性に満ちたコードの断片が混在した混沌とした状態です。
トレーニング中、LLMはこれらの欠陥のあるパターンを内面化し、良質なコードと悪質なコードを区別できなくなります。そして、教えられたのと同じ過ちを再現するよう学習してしまうのです。
その結果、LLMはコードを生成する際にバグや脆弱性を再現してしまい、それらが製品に混入する恐れがあり、厳格な検証が必要となります。
生成AIはコーディングのあり方を変革していますが、LLMには重大な限界があります。それは、隠れたバグやセキュリティ上の欠陥、保守性の負債を抱えたコードを生成しがちだということです。より高い品質基準を求められるLLMプロバイダーや企業にとって、モデルの微調整やカスタマイズは不可欠なニーズとなっています。SonarSweepは、以下の企業にとって不可欠なデータ品質レイヤーを提供します:
ソースとなるトレーニングデータを改善することで、設計段階から安全で信頼性の高いモデルを構築し、顧客に市場での競争優位性を提供します。
プライベート環境で自信を持ってカスタムモデルを開発し、顧客が厳格なコンプライアンス要件を満たし、機密性の高い知的財産を保護できるよう支援します。
DatabricksやIBMなどのプラットフォーム上で、専門的なエージェント型ワークフロー向けに、高性能かつコスト効率の高い小型言語モデル(SLM)を作成します。
トレーニングデータセットを最適化し、より少ないデータと計算リソースでより強力なモデルを構築することで、予算内で最先端のパフォーマンスを実現します。


SonarSweepは、トレーニングデータセット内の数千ものバグ、脆弱性、コード品質の問題を大規模に自動的に分析し、修正します。

厳格なフィルタリングプロセスを適用し、低品質なコードを除去します。その後、精選されたデータセットのバランスを調整し、堅牢なモデル機能を実現するための多様で代表的な学習環境を確保します。

最終的に「スイープ」されたデータセットは、モデルトレーニングに即座に利用できる最適化された高品質な資産となり、生成されるコードの品質を大幅に向上させます。
トレーニングデータから体系的な欠陥を事前に排除し、設計段階から安全な基盤モデルを学習させます。

SonarSweepは、Sonarの業界をリードするコード分析エンジンを活用し、大量のトレーニングコードを自動的に処理して問題を修正し、欠陥のあるデータを高品質なトレーニング例に変換します。
コードを削除するのではなく修正することで、モデルにとって貴重な学習例を保持し、複雑なパターンに対する理解を深めます。
当社のエンジンは、不良な例を良質な例へと変換し、データセット全体の品質とセキュリティ態勢を体系的に向上させます。
世界中で7億人の開発者に信頼され、7,000億行のコードを保護しているのと同じ分析技術を採用しています。
SonarSweepは現在、早期アクセス版として提供されています。Sonarと提携し、安全で信頼性が高く、セキュアな次世代コーディングモデルをいち早く構築しましょう。
4.6 / 5
SonarSweep is a product from Sonar that remediates, secures, and optimizes coding datasets used to train AI language models. It is designed for AI companies and model builders — not for software development teams managing their own codebases.
Coding LLMs are typically trained on large volumes of publicly available open-source code, which frequently contains bugs, security vulnerabilities, and poor patterns. Models learn from these flawed examples and reproduce — and in many cases amplify — those flaws in the code they generate. SonarSweep addresses this at the root by cleaning and improving the training data before it is used to train or fine-tune a model.
SonarSweep shares its underlying code analysis engines with SonarQube and SonarQube Cloud, but it is a completely separate service and does not integrate with either product. It is not an add-on, extension, or feature of any SonarQube edition.
Where SonarQube and SonarQube Cloud help development teams detect quality and security issues in their own application code during development and CI/CD, SonarSweep processes large code datasets that AI companies use to train models. The relationship is a shared technological foundation — Sonar's analysis engines — applied to an entirely different use case and a different customer.
Coding LLMs are pre-trained on raw public open-source code — code that's full of bugs, vulnerabilities, and poor patterns. Models don't just absorb these flaws; they amplify them in everything they generate. SonarSweep fixes this at the source by cleaning training data before a model ever sees it.
It reduces security vulnerabilities in model output by up to 67% and cuts bugs by up to 42%. It also handles a subtler problem: naively removing flawed code can skew language distribution in a dataset, so SonarSweep rebalances after cleaning to preserve model proficiency across all languages. And by addressing quality upfront, it eliminates the need for costly post-training correction passes.
SonarQube for IDE (formerly SonarLint) is a developer productivity tool that runs inside editors like VS Code, IntelliJ, and Eclipse, giving individual developers real-time feedback on quality and security issues as they write code. It operates at the developer level, in the IDE, during active development.
SonarSweep is not a developer tool at all. It is a data processing service for AI companies that are training or fine-tuning coding LLMs. It does not run in an IDE, does not provide feedback to developers, and is not part of a development workflow.
Yes — this is the core purpose of SonarSweep. The quality of code a language model generates is directly shaped by the quality of the data it trained on. A model that learned from code full of vulnerabilities and bugs will reproduce those patterns at scale. SonarSweep intervenes at the data stage, before training, to raise the quality floor of what the model learns from.
Models trained on SonarSweep-prepared datasets have demonstrated up to 67% fewer security vulnerabilities and up to 42% fewer bugs in their generated code compared to models trained on unswept data — with no degradation in functional performance. This was validated on the GPT-OSS-20B model.
SonarSweep supports 35+ programming languages, drawing on the full breadth of Sonar's code analysis engines — the same engines that power SonarQube and SonarQube Cloud.
In the context of LLM training data, this means SonarSweep can analyze, filter, and remediate code across all the languages that typically appear in large public code datasets: common back-end languages, front-end languages, scripting languages, systems languages, and more. Across these languages, it can identify and automatically fix over 6,700 distinct types of quality and security issues.
SonarSweep doesn't produce code changes for developers to review in pull requests. It processes and delivers cleaned training datasets to AI companies. Governance in this context sits with the AI team — validating dataset quality and model output before using the swept data in a training run.
No. SonarSweep has no connection to any SonarQube edition. It is a separate product for companies building or fine-tuning coding LLMs — not a feature unlocked through any SonarQube subscription tier.
The ROI is for AI companies, not development teams. Models trained on SonarSweep-processed data produce up to 67% fewer security vulnerabilities and up to 42% fewer bugs — with no loss in functional performance. It also reduces training cost by addressing data quality upfront, eliminating expensive post-training correction cycles.