PACE memprediksi kemampuan LLM agentic melalui benchmark proksi

Para peneliti memperkenalkan PACE, sebuah kerangka kerja yang membangun benchmark proksi untuk secara akurat memprediksi kinerja LLM pada evaluasi agentic yang mahal menggunakan skor dari subset kecil kemampuan atomik non-agentic. Dengan menyesuaikan model regresi untuk memetakan skor dari instance yang dikurasi ke benchmark agentic target, PACE-Bench yang dihasilkan mencapai akurasi prediktif tinggi dengan biaya hanya sebagian kecil.

Eksperimen pada 14 model dan 4 benchmark agentic menunjukkan bahwa PACE-Bench memprediksi skor agentic dengan error absolut rata-rata validasi silang leave-one-out di bawah 4% dan korelasi Spearman di atas 0,80.
Kerangka kerja ini mencapai akurasi peringkat model berpasangan sekitar 85% sambil memakan biaya kurang dari 1% dari total biaya evaluasi agentic penuh.
Analisis pada instance proksi yang dipilih mengungkap keterampilan spesifik apa yang secara unik dituntut oleh setiap benchmark agentic.

PACE memungkinkan praktisi mendapatkan estimasi kinerja agentic yang andal selama pengembangan, pemilihan, dan perutean model tanpa overhead menjalankan evaluasi agen penuh.