PRIME: Evaluando la resolución de instrucciones en instrucciones contradictorias

PRIME introduce un marco para analizar cómo los modelos de lenguaje grandes manejan instrucciones contradictorias generando conflictos calibrados en longitud de respuesta, formato y razonamiento. El estudio encuentra que el tipo de conflicto tiene un mayor impacto en el comportamiento del modelo que el tamaño del modelo, revelando diversos modos de fallo a través de las categorías de conflicto. Los resultados destacan la necesidad de conciencia sobre los conflictos y sugieren que el seguimiento de instrucciones no puede evaluarse de manera confiable solo a través de benchmarks aislados.