Este estudio investiga la inestabilidad de las generaciones impulsadas por personas (PDG) en modelos de lenguaje grandes cuando se aplican a tareas de respuesta a preguntas de opción múltiple (MCQA), un dominio a menudo pasado por alto en comparación con las interacciones de texto libre. Los autores desarrollaron tres métricas para evaluar el rendimiento, el resultado y la estabilidad de la corrección de la pregunta en distintas dimensiones.

  • La inestabilidad varía consistentemente entre familias de modelos, tamaño del modelo y dominios de preguntas, con preguntas de matemáticas y sentido común que exhiben mayor inestabilidad.
  • El formato de la instrucción de la tarea introduce más inestabilidad en las predicciones que otros hiperparámetros como la temperatura.
  • La inestabilidad está relacionada con la precisión de la tarea, revelando que diferentes configuraciones experimentales pueden resultar en diferentes mejores y peores personas a pesar de su similitud.

Los hallazgos destacan la importancia de verificar la inestabilidad de los hiperparámetros en las generaciones impulsadas por personas para garantizar un rendimiento confiable.