Pesquisas demonstram que modelos de linguagem treinados para explicar suas previsões usando explicações contrafatuais fixas frequentemente produzem introspecções fiéis ao seu próprio comportamento atual em vez dos alvos de treinamento. Esse "acoplamento introspectivo" ocorre quando o treinamento de explicação permanece correlacionado com comportamentos do modelo em mudança, permitindo que o sistema rastreie mudanças sem supervisão atualizada.
- Os modelos geram explicações mais alinhadas com seu comportamento atual do que os dados de treinamento fixos derivados de checkpoints anteriores ou modelos semelhantes.
- O acoplamento introspectivo rastreia mudanças comportamentais mesmo quando o treinamento de explicação é executado simultaneamente com outros objetivos pós-treinamento.
- O fenômeno é observado em múltiplas tarefas, incluindo sycophancy (adulação) e recusa, e permanece robusto a ruído nas etiquetas.
As descobertas indicam que conjuntos de dados fixos de explicações contrafatuais podem fornecer um sinal pós-treinamento escalável e generalizável para introspecção.