Mistralは、形式検証と自動定理証明のために設計された、6Bのアクティブパラメータを持つApache-2.0ライセンスの無料モデルであるLeanstral 1.5をリリースしました。

  • miniF2Fベンチマークで飽和し、PutnamBenchの問題672件中587件を解決。
  • FATE-H(87%)とFATE-X(34%)で最先端の結果を達成。
  • CISPOを用いたミッドトレーニング、教師ありファインチューニング、強化学習によって訓練。
  • エージェント型証明エンジニアリング中に57のリポジトリのテストで5つの以前に未知のバグを発見。

このリリースにより、開発者は形式証明エンジニアリングを通じてソフトウェアやコード仕様の正しさを検証できるようになります。