STATEWITNESS: Explicador de activaciones para auditoría de engaño en LLMs
STATEWITNESS introduce un explicador de activaciones que audita el engaño en LLMs de razonamiento leyendo estados ocultos y generando respuestas en lenguaje natural o informes estructurados. Logra una AUROC media de 0.916, superando a los monitores de caja negra y sondas de activación existentes en un 11.6% y 25.0% respectivamente, y proporciona trazas a nivel de consulta, esquema y evidencia para inspección humana.