Leanstral 1.5は、6Bのアクティブパラメータを持つApache-2.0ライセンスの無料モデルで、形式検証およびコード解析において顕著なパフォーマンス向上を実現します。複数のベンチマークで最先端の結果を達成し、オープンソースリポジトリで以前に未知だったバグを発見しました。
- miniF2Fを完全に飽和(検証セットとテストセットで100%)。
- PutnamBenchの672問中587問を解決し、Seed-Prover 1.5を上回り、コストは数分の1。
- FATE-Hで87%、FATE-Xで34%という新たな最先端スコアを達成。
- 自動化パイプラインを使用して57のリポジトリで5つの以前に報告されていないバグを発見。
- テスト時のスケーリングを示し、4Mトークンの予算で587問を解決。
このモデルは、現実的なコードベースに対して厳格な証明エンジニアリングをよりアクセスしやすく、コスト効果の高いものにすることで、実用的な形式検証を可能にします。