HydraHead: Atención híbrida a nivel de cabezal para rendimiento en contexto largo
HydraHead introduce una hibridación a nivel de cabezal de Full Attention y Linear Attention, aprovechando la interpretabilidad para seleccionar los cabezales críticos para recuperación y fusionar las salidas mediante un módulo normalizado por escala. Entrenado con 15B tokens, logra más del 69% de mejora sobre la línea base en una longitud de contexto de 512K, superando a los híbridos a nivel de capa y acercándose al rendimiento de Qwen3.5 en tareas de contexto largo.