AVOC: Compresión de Tokens Inspirada en Recuperación para Comprensión Audio-Video de Largo Alcance
AVOC mejora la comprensión audio-video de largo alcance en LLMs omni-modales mediante la introducción de un módulo de compresión de tokens aprendible. Reformula la selección de tokens como un problema de recuperación top-K, utilizando criterios de relevancia, importancia y diversidad para seleccionar tokens compactos e informativos, logrando resultados de vanguardia en OmniVideoBench y LVOmniBench, y manteniendo un rendimiento sólido en tareas de aguja en pajar de audio-video de una hora.