Este estudio introduce la diversidad de enfoque para abordar la brecha entre la variación superficial y las diferencias estratégicas reales en el razonamiento matemático de LLM. Demuestra que las métricas anteriores no logran capturar la verdadera diversidad metodológica, lo que lleva a un declive en la diversidad de enfoque durante el entrenamiento de RLVR consciente de la diversidad.

  • Los autores introducen la diversidad de enfoque como variación en las estrategias entre soluciones correctas al mismo problema.
  • Un marco de juez LLM calibrado por humanos revela que las medidas de diversidad anteriores son proxies poco confiables para la diversidad de enfoque.
  • RLVR consciente de la diversidad preserva las métricas objetivo mientras causa un declive en la diversidad de enfoque.
  • Los conjuntos de candidatos diversos en enfoque mejoran el rendimiento del escalado en tiempo de prueba.
  • Optimizar una recompensa de diversidad del juez LLM durante el entrenamiento hace que la política explote las preferencias específicas del juez en lugar de ampliar los enfoques.

El trabajo marca un paso hacia LLM que razonan de manera genuinamente diversa y similar a la humana, al descubrir una divergencia sistemática entre las señales superficiales y las de enfoque.