OmniAgent introduce un ciclo iterativo Observación-Pensamiento-Acción basado en POMDP para la comprensión de video, permitiendo la ejecución de acciones bajo demanda para destilar selectivamente señales audiovisuales en memoria textual persistente. Alcanza rendimiento de vanguardia en diez benchmarks, con un agente de 7B superando a un modelo Qwen2.5-VL-72B 10× más grande en LVBench (50.5% vs. 47.3%).