Плохие запросы приводят к коллапсу модели и ошибкам

Плохие контексты в диалогах могут привести к 'птичьему эффекту', когда модели повторяют неверные ответы или сужаются до одного ответа. Эксперименты показывают, что при увеличении числа ходов диалога производительность падает на 38-40%, а ошибки ухудшаются, даже если начальные входные данные корректны. Новый метод, RLVR с синтетическими ошибками, улучшает производительность модели на 43-60% при таких плохих контекстах.