Evalatro: un benchmark abierto donde los LLM juegan al Balatro real
Evalatro es un benchmark abierto que permite a los LLM jugar al juego real Balatro. Los modelos reciben el estado del juego como texto, toman decisiones de forma independiente y compiten para alcanzar la Ante 12, con resultados actuales que muestran un progreso limitado: mimo-v2.5-pro alcanzó la Ante 5, y deepseek-v4-pro no logró superar la Ante 8.