El Benchmark Argus evalúa la estabilidad de la cuantificación de incertidumbre en modelos de visión-lenguaje y conjuntos de datos de fundamentación de GUI
Los autores presentan Argus, un benchmark diseñado para evaluar la cuantificación de incertidumbre post-hoc para agentes de uso informático que traducen las predicciones de modelos de visión-lenguaje en acciones ejecutables de GUI. El estudio evalúa 28 métodos de peso abierto en cuatro agentes VLM y cuatro conjuntos de datos, junto con ocho métodos propietarios de tres proveedores donde los estados internos del modelo son inaccesibles. Los hallazgos clave revelan una estabilidad de transferencia selectiva, donde las clasificaciones de incertidumbre permanecen consistentes entre diferentes conjuntos de datos para un modelo fijo, pero se degradan significativamente al pasar entre diferentes clases de modelos o interfaces observables. Entre las opciones de peso abierto, las técnicas de estimación de densidad y los estados ocultos demostraron la mayor estabilidad, mientras que regímenes específicos favorecieron puntuaciones basadas en muestreo o autoevaluación verbalizada. La transferencia de ranking dentro del modelo resultó ser fuerte con valores de rho de Spearman hasta 0.969, mientras que la transferencia entre niveles a proveedores propietarios promedió solo +0.08. La investigación también indica que las regiones de clic conformes reducen los radios en un 40-60 por ciento tras la calibración, pero sufren degradación de cobertura bajo desajuste de interfaz. Para apoyar la selección consciente del régimen, los autores publican registros por elemento, divisiones de calibración, puntuaciones UQ y scripts de análisis.