arxiv arXiv cs.CL · hace 2 h · fuente: hace 9 d · research

OmniAgent: Percepción activa nativa para comprensión omnimodal

Traducido del English → Español

OmniAgent introduce un ciclo iterativo Observación-Pensamiento-Acción basado en POMDP para la comprensión de video, permitiendo la ejecución de acciones bajo demanda para destilar selectivamente señales audiovisuales en memoria textual persistente. Alcanza rendimiento de vanguardia en diez benchmarks, con un agente de 7B superando a un modelo Qwen2.5-VL-72B 10× más grande en LVBench (50.5% vs. 47.3%).

Importancia 3/3 Supera un benchmark de un laboratorio puntero Nueva función frente a los líderes arXiv cs.CL Mistral AI Alibaba (Qwen) OpenAI AI agents Multimodal Reasoning models

Benchmarks

Benchmark	Modelo	Puntuación
LongVideoBench	OmniAgent	—

Leer original