Cliff Tokens: Identificando gatillos de fallo de un solo token en el razonamiento matemático de LLM

Los investigadores introducen el concepto de cliff tokens para identificar gatillos de fallo específicos de un solo token en modelos de lenguaje grandes durante tareas de razonamiento matemático. A diferencia del trabajo previo que analiza fallos a nivel de paso o oración, este método señala el token exacto donde las caídas potenciales disminuyen significativamente utilizando un umbral adaptativo basado en una prueba z. El estudio evalúa siete modelos en tres conjuntos de datos: GSM1K, MATH500 y AIME 2025. Eliminar el primer cliff token y realizar muestreo permite recuperar pass@64 hasta 1.0, mientras que mantenerlo limita la recuperación entre 0.71 y 1.00. Los autores proponen una taxonomía que clasifica los cliffs como deterministas, inciertos o muestreados fuera (sampled-off) basándose en la elección greedy y la entropía del token. Esta clasificación se generaliza a través de diferentes escalas de modelos y exhibe características probabilísticas distintas para cada tipo. Además, el equipo valida esta taxonomía mediante optimización de preferencia de un solo token conocida como Cliff-DPO. Entrenado en GSM8K, Cliff-DPO mejora la precisión hasta +6.6 en los benchmarks. La optimización resulta efectiva para cliffs inciertos y muestreados fuera, pero no produce mejoras para los deterministas.