Selección de capas de atención completa guiada por NLL para adaptación de ventana deslizante sin entrenamiento
Los investigadores proponen un método sin entrenamiento para seleccionar qué capas en modelos de atención híbrida deben conservar la atención completa, abordando la ineficiencia de los patrones fijos en la inferencia de contexto largo. Al medir la degradación de la verosimilitud logarítmica negativa en los tokens de respuesta, el enfoque identifica las capas críticas para mantener la precisión al cambiar a atención de ventana deslizante.