PRIME introduce un marco para analizar cómo los modelos de lenguaje grandes manejan instrucciones contradictorias generando conflictos calibrados en longitud de respuesta, formato y razonamiento. El estudio encuentra que el tipo de conflicto tiene un mayor impacto en el comportamiento del modelo que el tamaño del modelo, revelando diversos modos de fallo a través de las categorías de conflicto. Los resultados destacan la necesidad de conciencia sobre los conflictos y sugieren que el seguimiento de instrucciones no puede evaluarse de manera confiable solo a través de benchmarks aislados.
PRIME: Evaluando la resolución de instrucciones en instrucciones contradictorias
Traducido del English → Español