STATEWITNESS: Объяснитель активации для аудита лжи в LLMs
STATEWITNESS представляет объяснитель активации, который аудит ложь в логических LLMs, читая скрытые состояния и генерируя ответы на естественном языке или структурированные отчёты. Он достигает среднего AUROC в 0,916, превосходя существующие чёрные коробки мониторов и объяснители активации на 11,6% и 25,0% соответственно, и предоставляет отслеживание на уровне запроса, схемы и доказательств для проверки человеком.