CAHP: Poda de cabezales de atención complementarios para Transformers eficientes

CAHP introduce un marco post-hoc que utiliza agrupamiento teórico de grafos y medidas info-teóricas para seleccionar cabezales de atención complementarios en Transformers. Determina automáticamente la retención de cabezales sin una esparsidad predefinida, identificando un umbral de degradación del rendimiento para garantizar una pérdida mínima del modelo, y supera a las líneas base en escenarios de alta compresión al preservar los cabezales funcionalmente críticos en capas intermedias.