本記事は、パーソナライゼーションやリコールといった実際のデプロイメント能力に対して、テスト時トレーニング(TTT)のメモリ主張を較正するための行動評価フレームワークを紹介します。標準的な代理指標であるパープレキシティでは、これらの高度な動作に対する直接的な行動検証が必要不可欠であるため、十分な証拠にはならないと指摘しています。
- このフレームワークには、ストリーム適応とデプロイメント時の行動学習を区別する主張較正済みエビデンスラダーが含まれています。
- 明示的メモリベースラインと相互排他的な失敗カテゴリを用いた評価プロトコルを活用します。
- Qwen3モデルに対する制御された診断による検証では、ワンステップのLoRA更新がサポートと回答損失を低下させる一方で、自由形式のリコールはゼロのままとなることが示されました。
このアプローチにより、著者および評価者は、TTTメモリ主張を実際に報告された証拠と整合させるための具体的な基準を得ることになります。