Além da Clareamento Supervisionado: Reescrita de Entrada com LLMs para Análise do Discurso em Diálogos

Este estudo reavalia o uso da reescrita de entrada para melhorar modelos downstream congelados para análise do discurso em diálogos sob condições reais de implantação onde nenhuma supervisão de clareamento está disponível. Os autores descobrem que o clareamento da última utterance é muito menos confiável do que sugerido por configurações supervisionadas, pois a reescrita agnóstica ao parser frequentemente introduz mais regressões do que reparos.

Através de três conjuntos de dados de Teoria da Representação do Discurso Segmentada (SDRT) e múltiplos parsers, a análise revela que as edições que permitem correções frequentemente perturbam as pistas do discurso nas quais o parser se baseia.
Uma análise de reescrita 'best-of-8' mostra um teto prático onde uma grande fração de erros não é reparável apenas através da reescrita de entrada.
Um clarificador consciente do parser treinado com GRPO reduz as regressões em até 37% aprendendo abstenção conservadora, mas ainda falha em produzir clareamentos seletivos que melhorem consistentemente a análise.

As descobertas reformulam o clareamento como um problema de intervenção seletiva e identificam a previsão de reescrevibilidade como a capacidade-chave ausente para a otimização do lado da entrada dos parsers de discurso congelados.