HydraHead вводит гибридное объединение полного и линейного внимания на уровне головок, используя интерпретируемость для выбора головок, критичных для поиска, и объединяя выходы через модуль с нормализацией масштаба. Обученный на 15 миллиардов токенов, он обеспечивает более чем 69% улучшения по сравнению с базовой моделью при длине контекста 512K, превосходя гибридные модели на уровне слоев и приближаясь к производительности Qwen3.5 на задачах с длинными контекстами.
arxiv
arXiv cs.CL
·
6 д назад
·
research
HydraHead: гибридное внимание на уровне головок для производительности при длинных контекстах
Переведено с English → Русский
Важность 3/3
Обходит бенчмарк топ-лаборатории
Новая фича по сравнению с лидерами
arXiv cs.CL
Alibaba (Qwen)
Evaluation & benchmarks
Reasoning models
Training methods
Бенчмарки
| Бенчмарк | Модель | Результат |
|---|---|---|
| GAIA | HydraHead | — |
| LMSYS Arena (Elo) | HydraHead | — |
| SWE-bench Verified | HydraHead | — |
| WebArena | HydraHead | — |