本研究在缺乏澄清监督的真实部署条件下,重新评估了使用输入重写来改进用于对话话语解析的冻结下游模型。作者发现,与监督设置所暗示的情况相比,基于最后一句话语的澄清可靠性要低得多,因为与解析器无关的重写往往会引入更多的性能回退而非修复。

  • 对三个分割话语表征理论(SDRT)数据集和多种解析器的分析显示,能够修复错误的编辑经常破坏解析器所依赖的话语线索。
  • “8选1”重写分析显示存在一个实际上限:很大一部分错误无法仅通过输入重写来修复。
  • 使用 GRPO 训练的感知解析器的澄清模块通过学习保守的弃权策略,将回退减少了高达 37%,但仍未能产生能一致性地改善解析效果的、具备选择意识的澄清。

研究结果将澄清重新定义为一种选择性干预问题,并指出可重写性预测是实现冻结话语解析器输入端优化的关键缺失能力。