Leanstral 1.5 是一款采用 Apache-2.0 许可证的免费模型,拥有 6B 活跃参数,在形式化验证和代码分析方面带来了显著的性能提升。它在多个基准测试中取得了 state-of-the-art 结果,并发现了开源仓库中先前未知的 bug。
- 完全饱和 miniF2F(在验证集和测试集上达到 100%)。
- 解决了 PutnamBench 的 587/672 个问题,以极低的成本超越了 Seed-Prover 1.5。
- 在 FATE-H 上取得 87%、在 FATE-X 上取得 34% 的新 state-of-the-art 分数。
- 通过自动化流水线在 57 个测试仓库中发现了 5 个此前未报告的 bug。
- 展示了强大的测试时扩展能力,在 4M token 预算下解决了 587 个问题。
该模型使实践中的形式化验证成为可能,让严谨的证明工程对现实世界的代码库更加可及且具成本效益。