본 기사는 개인화 및 회상과 같은 실제 배포 능력에 대해 테스트 타임 트레이닝(TTT) 메모리 주장을 보정하기 위한 행동 평가 프레임워크를 소개합니다. 표준 프록시 지표인 퍼플렉시티는 이러한 고급 동작에 대한 직접적인 행동 검증이 필요하므로 이를 입증하기에 불충분한 증거라고 주장합니다.
- 이 프레임워크에는 스트림 적응과 배포 시점의 행동 학습을 구분하는 주장을 보정된 증거 사다리가 포함됩니다.
- 명시적 메모리 기준선과 상호 배타적 실패 카테고리를 사용하는 평가 프로토콜을 활용합니다.
- Qwen3 모델에 대한 통제된 진단을 통한 검증은 한 단계 LoRA 업데이트가 지원 및 답변 손실을 줄이지만 자유 형식 회상은 0으로 유지됨을 보여줍니다.
이 접근 방식은 저자와 평가자에게 TTT 메모리 주장을 실제로 보고된 증거와 일치시키기 위한 구체적인 기준을 제공합니다.