Mimo 2.5 mantiene un rendimiento rápido en longitudes de contexto largas en dos tarjetas RTX Pro 6000 utilizando un mecanismo de atención de ventana deslizante local/global 5:1, similar al de Gemma 3. Completa tareas en aproximadamente 4 minutos, significativamente más rápido que MiniMax M3, que tarda alrededor de 40 minutos, a pesar de que ambos modelos tienen una calidad similar bajo los límites de VRAM.
Mimo 2.5 es rápido en contextos largos con dos RTX Pro 6000
Traducido del English → Español