Artikel ini memperkenalkan kerangka evaluasi behavioral untuk mengkalibrasi klaim memori pelatihan saat uji (TTT) terhadap kemampuan deployment aktual seperti personalisasi dan recall. Artikel ini berargumen bahwa metrik proksi standar seperti perplexity adalah bukti yang tidak memadai untuk perilaku canggih ini, yang memerlukan validasi behavioral langsung.
- Kerangka kerja ini mencakup tangga bukti yang dikalibrasi oleh klaim yang membedakan adaptasi aliran dari pembelajaran behavioral saat deployment.
- Kerangka ini memanfaatkan protokol evaluasi dengan baseline memori eksplisit dan kategori kegagalan yang saling eksklusif.
- Validasi melalui diagnostik terkontrol pada model Qwen3 menunjukkan bahwa meskipun pembaruan LoRA satu langkah menurunkan dukungan dan kehilangan jawaban, recall bentuk bebas tetap nol.
Pendekatan ini memberikan kepada penulis dan evaluator standar konkret untuk menyelaraskan klaim memori TTT dengan bukti yang sebenarnya dilaporkan.