Más allá de la aclaración supervisada: Reescritura de entradas con LLMs para el análisis del discurso del diálogo

Este estudio reevalúa el uso de la reescritura de entradas para mejorar modelos downstream congelados para el análisis del discurso del diálogo en condiciones de despliegue realistas donde no hay supervisión de aclaración disponible. Los autores encuentran que la aclaración de la última utterance es mucho menos confiable de lo sugerido por los entornos supervisados, ya que la reescritura agnóstica al parser a menudo introduce más regresiones que reparaciones.

A través de tres conjuntos de datos de Teoría de Representación del Discurso Segmentada (SDRT) y múltiples parsers, el análisis revela que las ediciones que permiten correcciones frecuentemente interrumpen las pistas del discurso en las que se basa el parser.
Un análisis de reescritura 'best-of-8' muestra un techo práctico donde una gran fracción de errores no son reparables solo mediante la reescritura de entradas.
Un clarificador consciente del parser entrenado con GRPO reduce las regresiones hasta en un 37% aprendiendo a abstenerse de manera conservadora, pero aún falla en producir aclaraciones conscientes de la selectividad que mejoren consistentemente el análisis.

Los hallazgos replantean la aclaración como un problema de intervención selectiva e identifican la predicción de reescribibilidad como la capacidad clave faltante para la optimización del lado de entrada de los parsers de discurso congelados.