Un usuario entrenó un modelo de lenguaje para lanzar un dado, asegurando que cada número aparezca aproximadamente una vez cada seis lanzamientos. La publicación destaca cómo los LLMs convencionales tienden a dar por defecto '4' cuando se les pide lanzar un dado, ilustrando un problema más amplio en el aprendizaje por refuerzo: los modelos a menudo fallan al explorar de manera efectiva y en su lugar siguen patrones conocidos.