HydraHead introduce una hibridación a nivel de cabezal de Full Attention y Linear Attention, aprovechando la interpretabilidad para seleccionar los cabezales críticos para recuperación y fusionar las salidas mediante un módulo normalizado por escala. Entrenado con 15B tokens, logra más del 69% de mejora sobre la línea base en una longitud de contexto de 512K, superando a los híbridos a nivel de capa y acercándose al rendimiento de Qwen3.5 en tareas de contexto largo.
arxiv
arXiv cs.CL
·
hace 2 h
·
fuente: hace 9 d
·
research
HydraHead: Atención híbrida a nivel de cabezal para rendimiento en contexto largo
Traducido del English → Español
Importancia 3/3
Supera un benchmark de un laboratorio puntero
Nueva función frente a los líderes
arXiv cs.CL
Alibaba (Qwen)
Evaluation & benchmarks
Reasoning models
Training methods
Benchmarks
| Benchmark | Modelo | Puntuación |
|---|---|---|
| GAIA | HydraHead | — |
| LMSYS Arena (Elo) | HydraHead | — |
| SWE-bench Verified | HydraHead | — |
| WebArena | HydraHead | — |