Auditoría de la sensibilidad al orden en modelos de lenguaje grande multimodales

El estudio introduce Facet-Probe, una auditoría de cinco facetas de 18 modelos de lenguaje grande multimodales de vanguardia y con pesos abiertos para evaluar la sensibilidad al orden. Las pruebas estándar a menudo pasan por alto si el desordenamiento de la evidencia cambia las respuestas, una propiedad de confiabilidad destacada por las directrices emergentes de evaluación de IA. Utilizando un modelo bayesiano de respuesta al ítem, los investigadores separaron el ruido de ordenamiento del sesgo por faceta y estimaron los límites estocásticos del decodificador mediante controles con el mismo ordenamiento. La auditoría encontró que ninguno de los 18 modelos es invariante al orden, con tasas de cambio en la media del panel que oscilan entre el 24% y el 50% a través de diferentes facetas. Incluso el modelo de mejor rendimiento cambió su respuesta en el 13.4% de las pruebas, lo que indica que una mayor capacidad no elimina esta vulnerabilidad. Las pruebas de mitigación utilizando cambios de prompt sin entrenamiento resultaron condicionales a la modalidad y fallaron al transferirse entre tareas de razonamiento textual y visual. Estos hallazgos sugieren que las correcciones a nivel de prompt son insuficientes para la robustez general al orden, motivando soluciones arquitectónicas. Los autores proponen la tasa de cambio por cruce de ordenamientos como un eje estándar de reporte para futuras evaluaciones de MLLM.