Evalatro — это открытый бенчмарк, позволяющий LLMам играть в реальную игру Balatro. Модели получают состояние игры в виде текста, принимают решения независимо и соревнуются в достижении Ante 12. Текущие результаты показывают ограниченный прогресс — mimo-v2.5-pro достиг Ante 5, а deepseek-v4-pro не смог превзойти Ante 8.