В данном исследовании оценивается производительность больших языковых моделей с открытыми весами, работающих локально для задач преобразования текста в SQL, с использованием воспроизводимого бенчмарка на обучающем наборе данных BIRD. Сравниваются три семейства моделей двух поколений при этом абляционно изучаются конкретные техники повышения точности, чтобы определить их реальную ценность.

  • Qwen2.5-Coder доминирует над CodeLlama при сопоставимых размерах, показывая 39,1% против 20,9% точности выполнения при 7 млрд параметров.
  • Llama-3.3-70B достигает конкурентоспособных результатов в 49,2% на протоколе обслуживания с аналогичными параметрами, что указывает на то, что качество генерации важнее сырого размера.
  • Самовосстановление обеспечивает надежное и статистически значимое улучшение во всех трех семействах моделей там, где есть потенциал для улучшения.
  • Привязка схемы не дает статистической выгоды: линкер с точностью извлечения золотых таблиц 96,5% работает неразличимо от случая без привязки.
  • Самосогласование дает плохой результат, добавляя лишь 0,13 процентных пункта при примерно пятикратном увеличении стоимости токенов без статистической значимости.

Авторы сообщают о реальных затратах на каждом этапе и публикуют весь код, предсказания и сводки, чтобы помочь организациям определить, какие рецепты точности стоят их вычислительных ресурсов.