QVal memperkenalkan testbed tanpa pelatihan untuk mengevaluasi sinyal pengawasan padat pada agen LLM jangka panjang

Para peneliti telah memperkenalkan QVal, sebuah testbed tanpa pelatihan yang dirancang untuk secara langsung mengevaluasi kualitas sinyal pengawasan padat yang digunakan pada agen LLM jangka panjang. Berbeda dengan praktik standar yang mencampuradukkan kualitas sinyal dengan rekayasa pelatihan dengan mengukur kinerja downstream, QVal menilai seberapa baik skor metode selaras dengan Q-values dari kebijakan referensi yang kuat.

Para penulis menginisialisasi QVal sebagai QVal-v1.0 untuk melakukan benchmark pada 21 metode pengawasan padat di empat lingkungan beragam dan tujuh keluarga metodologis. Evaluasi tersebut melibatkan lebih dari 1,2K eksperimen yang dilakukan di enam backbone model open-weight.

Studi ini menemukan bahwa baseline prompting sederhana secara konsisten mengungguli metode pengawasan padat terbaru dari literatur, dengan kinerja yang mengelompok kuat berdasarkan keluarga. Temuan ini berlaku di berbagai ukuran model, lingkungan, dan modalitas observasi.