В данном исследовании оценивается производительность больших языковых моделей с открытыми весами, работающих локально для задач преобразования текста в SQL, с использованием воспроизводимого бенчмарка на обучающем наборе данных BIRD. Сравниваются три семейства моделей двух поколений при этом абляционно изучаются конкретные техники повышения точности, чтобы определить их реальную ценность.
- Qwen2.5-Coder доминирует над CodeLlama при сопоставимых размерах, показывая 39,1% против 20,9% точности выполнения при 7 млрд параметров.
- Llama-3.3-70B достигает конкурентоспособных результатов в 49,2% на протоколе обслуживания с аналогичными параметрами, что указывает на то, что качество генерации важнее сырого размера.
- Самовосстановление обеспечивает надежное и статистически значимое улучшение во всех трех семействах моделей там, где есть потенциал для улучшения.
- Привязка схемы не дает статистической выгоды: линкер с точностью извлечения золотых таблиц 96,5% работает неразличимо от случая без привязки.
- Самосогласование дает плохой результат, добавляя лишь 0,13 процентных пункта при примерно пятикратном увеличении стоимости токенов без статистической значимости.
Авторы сообщают о реальных затратах на каждом этапе и публикуют весь код, предсказания и сводки, чтобы помочь организациям определить, какие рецепты точности стоят их вычислительных ресурсов.