VLA-FAIL: Detección de fallos ligera para modelos de visión-lenguaje-acción

VLA-FAIL introduce un marco de detección de fallos ligero para modelos de visión-lenguaje-acción que utiliza la distancia de Mahalanobis de la última capa y la consistencia de los fragmentos de acción sin requerir datos de fallo ni muestreo costoso de acciones. El marco combina estos detectores para lograr una detección temprana y fiable de fallos en diversas tareas, superando a los métodos base tanto en precisión como en eficiencia.