arxiv arXiv cs.CL · hace 2 h · fuente: hace 9 d · research

HydraHead: Atención híbrida a nivel de cabezal para rendimiento en contexto largo

Traducido del English → Español

HydraHead introduce una hibridación a nivel de cabezal de Full Attention y Linear Attention, aprovechando la interpretabilidad para seleccionar los cabezales críticos para recuperación y fusionar las salidas mediante un módulo normalizado por escala. Entrenado con 15B tokens, logra más del 69% de mejora sobre la línea base en una longitud de contexto de 512K, superando a los híbridos a nivel de capa y acercándose al rendimiento de Qwen3.5 en tareas de contexto largo.

Importancia 3/3 Supera un benchmark de un laboratorio puntero Nueva función frente a los líderes arXiv cs.CL Alibaba (Qwen) Evaluation & benchmarks Reasoning models Training methods

Benchmarks

Benchmark	Modelo	Puntuación
GAIA	HydraHead	—
LMSYS Arena (Elo)	HydraHead	—
SWE-bench Verified	HydraHead	—
WebArena	HydraHead	—

Leer original