Armin Ronacher melaporkan bahwa model-model Claude terbaru dari Anthropic, khususnya Opus 4.8 dan Sonnet 5, menghasilkan panggilan alat yang tidak valid saat berinteraksi dengan harness coding Pi. Model-model tersebut menciptakan bidang tambahan dalam array edit bersarang yang tidak sesuai dengan skema yang diharapkan, menyebabkan Pi menolak panggilan tersebut.

  • Model SOTA terbaru seperti Opus 4.8 dan Sonnet 5 menunjukkan regresi ini, sementara model lama tidak.
  • Masalah ini berasal dari model yang dilatih untuk menggunakan alat edit bawaan Claude Code, yang merusak kompatibilitas dengan harness pihak ketiga.
  • Hal ini kontras dengan Codex dari OpenAI, yang menggunakan mekanisme apply_patch berbeda yang dirancang untuk penggunaan alat yang efektif.

Artikel tersebut menyarankan bahwa harness coding pihak ketiga mungkin perlu mengimplementasikan beberapa alat edit untuk memastikan kinerja yang benar di berbagai model dasar.