Сэмплер и верификатор с возвратом назад кардинально улучшают производительность маленьких моделей в задачах программирования

Новый сэмплер с возвратом назад, объединенный с моделью-верификатором, значительно повышает качество кодогенерации у крошечных моделей объемом 0.5B параметров, потенциально делая их конкурентоспособными по сравнению с моделями класса 2–4B без изменения весов. Этот подход теоретически решает проблему галлюцинаций в больших моделях за счет исправления ошибок во время генерации путем повторного сэмплирования. Однако данный метод приводит к снижению скорости декодирования на 5–30% из-за необходимости выполнения обратных проходов и требует обучения модели-верификатора, сопоставимой по размеру с исходной. Это требование удваивает использование VRAM и увеличивает вычислительные затраты в 1,5–3 раза по сравнению со стандартным инференсом. Несмотря на эти издержки, верификатор обобщается на модели равного или меньшего веса, если он обучен на разнообразных распределениях данных. Обучение верификатора очень эффективно и требует лишь около 0,01% от объема токенов, используемых для полного предварительного обучения.