Las generaciones de LLM basadas en persona en MCQA son inestables en distintas dimensiones

Este estudio investiga la inestabilidad de las generaciones impulsadas por personas (PDG) en modelos de lenguaje grandes cuando se aplican a tareas de respuesta a preguntas de opción múltiple (MCQA), un dominio a menudo pasado por alto en comparación con las interacciones de texto libre. Los autores desarrollaron tres métricas para evaluar el rendimiento, el resultado y la estabilidad de la corrección de la pregunta en distintas dimensiones.

La inestabilidad varía consistentemente entre familias de modelos, tamaño del modelo y dominios de preguntas, con preguntas de matemáticas y sentido común que exhiben mayor inestabilidad.
El formato de la instrucción de la tarea introduce más inestabilidad en las predicciones que otros hiperparámetros como la temperatura.
La inestabilidad está relacionada con la precisión de la tarea, revelando que diferentes configuraciones experimentales pueden resultar en diferentes mejores y peores personas a pesar de su similitud.

Los hallazgos destacan la importancia de verificar la inestabilidad de los hiperparámetros en las generaciones impulsadas por personas para garantizar un rendimiento confiable.