Un nuevo conjunto de datos, IFLLM, recopila trayectorias del ratón y datos de fijación ocular de usuarios que interactúan con LLMs. Muestra que la retroalimentación implícita mejora significativamente la alineación de LLMs, aumentando la precisión del modelo de recompensa basado en texto del 55% al 64% y casi triplicando las mejoras en la calidad de respuesta después del entrenamiento DPO en ocho LLMs.
Alineación de LLM usando retroalimentación implícita del usuario
Traducido del English → Español