Los investigadores proponen un método sin entrenamiento para seleccionar qué capas en modelos de atención híbrida deben conservar la atención completa, abordando la ineficiencia de los patrones fijos en la inferencia de contexto largo. Al medir la degradación de la verosimilitud logarítmica negativa en los tokens de respuesta, el enfoque identifica las capas críticas para mantener la precisión al cambiar a atención de ventana deslizante.
- El método selecciona capas calculando la caída en la verosimilitud logarítmica negativa cuando una capa usa atención de ventana deslizante en lugar de atención completa.
- En LongMemEval con Qwen3-4B, logra un 64.6% de precisión utilizando solo 1/4 de las capas de atención completa, igualando la precisión del 65.0% de una línea base periódica 1/2-FA mientras se reduce a la mitad el costo computacional.
- Supera las líneas base periódicas 1/4-FA reportadas por SWAA en 10.4 puntos porcentuales y las líneas base estilo LightTransfer en 26.4 puntos porcentuales.
- El análisis de desconfusión confirma que la señal de selección se alinea con las necesidades de atención a largo alcance en lugar de la sensibilidad genérica de las capas.
- El proceso de calibración requiere aproximadamente 15 minutos de computación única.
Este enfoque avanza la frontera de Pareto eficiencia-precisión para el despliegue de LLMs de contexto largo, permitiendo ahorros computacionales significativos sin requerir reentrenamiento del modelo.