Atención de contexto largo gestionada por memoria: Un estudio preliminar de memoria local a la solicitud editable

Este estudio investiga la atención de contexto largo gestionada por memoria separando un núcleo recurrente o disperso rápido de ranuras de memoria local a la solicitud explícitas y editables, junto con una recuperación dispersa en tiempo de consulta. La investigación tiene como objetivo abordar las limitaciones de los métodos de atención lineales, recurrentes y dispersos existentes para gestionar cuándo se deben escribir, sobrescribir, proteger o descartar los hechos.

Los métodos puros de estado fijo o puros dispersos fallan en casos específicos de sobrescritura, versión, anti-contaminación o sin señal de escritura, mientras que un enfoque híbrido cubre ambas rutas.
Una prueba de estrés de mecanismo con 2,097,152 tokens logró una precisión combinada de 50/50 con 2-132 fragmentos activos.
Un modelo causal mínimo de eventos-tokens de 2.74M parámetros alcanzó una precisión de 595/600 con supervisión ligera de escritura, demostrando entrenabilidad independiente de la escala.
Un puente de estado oculto congelado de seis familias logró una precisión de puntero controlado de 1079/1080 pero dependió de identificadores de clave enteros proporcionados por el generador en lugar de resolución de entidades de texto abierto.

Los diagnósticos RULER 4K fuera de tablas de clasificación locales permanecieron cerca del contexto completo, mientras que un subconjunto de LongBench v1 de 16K con 33 registros mostró que la selección léxica ingenua no es general.

La evidencia sugiere que el ciclo de vida controlado de las ranuras es factible y que la recuperación dispersa es necesaria cuando las escrituras carecen de señales de consulta futura, pero la selección aprendida de dominio abierto sigue siendo el principal cuello de botella arquitectónico.