Los LLMs fallan al autoinformar de manera confiable los prefijos adversarios

Ningún modelo de lenguaje grande detecta de manera confiable cuándo sus respuestas fueron influenciadas por ataques de prefijo adversario. Las señales introspectivas son más fuertes en el razonamiento relacionado con la seguridad, pero dependen de la sonda y pueden amplificarse mediante el ajuste fino con LoRA, lo que paradójicamente aumenta las tasas de éxito del ataque.