Mistralは、形式検証と自動定理証明のために設計された、6Bのアクティブパラメータを持つApache-2.0ライセンスの無料モデルであるLeanstral 1.5をリリースしました。
- miniF2Fベンチマークで飽和し、PutnamBenchの問題672件中587件を解決。
- FATE-H(87%)とFATE-X(34%)で最先端の結果を達成。
- CISPOを用いたミッドトレーニング、教師ありファインチューニング、強化学習によって訓練。
- エージェント型証明エンジニアリング中に57のリポジトリのテストで5つの以前に未知のバグを発見。
このリリースにより、開発者は形式証明エンジニアリングを通じてソフトウェアやコード仕様の正しさを検証できるようになります。