AVOC улучшает понимание длинных аудио-видео данных в универсальных многомодальных языковых моделях, вводя модуль сжатия токенов, обучаемый в процессе. Он переформулирует выбор токенов как задачу извлечения топ-K, используя критерии релевантности, важности и разнообразия для выбора компактных и информативных токенов, достигая лучших результатов на OmniVideoBench и LVOmniBench, и сохраняя сильную производительность на задачах поиска в стеке из одного часа аудио-видео данных.