Tmax presenta la mejor receta RL de código abierto para agentes terminales, alcanzando un 27% en Terminal-Bench 2.0 con solo 9B parámetros. Utiliza una taxonomía de datos novedosa para generar más de 2.5x entornos terminales que los conjuntos de datos anteriores, permitiendo un entrenamiento eficiente con una receta sencilla basada únicamente en el resultado. El conjunto de datos, los modelos y el código se han publicado como código abierto en https://github.com/hamishivi/tmax.
Tmax: Una receta RL sencilla para agentes terminales
Traducido del English → Español