一名用户通过要求 Codex 将游戏 Pikachu Volleyball 移植到 UmLang(一种晦涩的韩国梗编程语言)来测试现代编码代理。该代理在完成大约 41 小时的工作后成功完成了该项目。

  • 使用无头模拟吞吐量对生成的代码进行了基准测试,对象包括原生 Rust、原始 JavaScript 以及各种 UmLang 虚拟机。
  • 性能排名将 Rust 列为第一,其次是原始 JS,然后是运行在 Rust、Node 和 Python VM 上的 UmLang 实现。
  • 所有实现的正确性保持一致,性能差异归因于运行时开销。

该项目突显了编码代理处理极低资源语言的能力,并引发了关于特定语言的抽象如何影响未来 AI 交互的问题。