Alineación fallida en LLMs: Un estudio cuantitativo

Un nuevo estudio presenta VETO, un conjunto de datos de 2.032 pares contrastivos derivados de BBQ, para cuantificar la alineación fallida en modelos de lenguaje grandes. Define la Tasa de Alineación Fallida (MAR) y encuentra que todos los LLMs evaluados exhiben MARs entre 4.7% y 18.9%, mientras que los participantes humanos logran 0%. La investigación muestra que las señales de alineación pueden amplificar estos fallos, con supresión de evidencia que ocurre en las capas tardías de los modelos y emerge después del entrenamiento por instrucciones.