El artículo presenta VISTA, una capa sin entrenamiento diseñada para abordar las limitaciones de la ventana de contexto de los agentes de herramientas a largo plazo exponiendo su estado interno. Argumenta que los modelos de vanguardia son ciegos ante su propio uso del contexto y propone una interfaz que muestra detalles de la memoria de trabajo en lugar de depender de políticas de compresión aprendidas.

  • VISTA representa la memoria de trabajo como bloques tipados y direccionables, y proporciona un panel de control en tiempo real que muestra el uso de tokens por bloque, antigüedad e historial de acceso.
  • El sistema archiva los bloques como cargas útiles recuperables de fidelidad completa sin requerir entrenamiento del modelo.
  • En LOCA-Bench, la interfaz mejoró cuatro backbones, elevando el rendimiento de Gemini-3-Flash del 22.7% al 50.7%.
  • Las ganancias de rendimiento aumentan con la presión del contexto y se transfieren a trayectorias de escala de millón, 100K y 10K en LOCA-Bench, BrowseComp-Plus y GAIA.

Este enfoque permite que los modelos tomen decisiones informadas de mantener o descartar proporcionando visibilidad sobre su propio estado del contexto, abordando la brecha dejada por métodos anteriores de gestión controlada por el sistema.