Авторы представляют iLLaDA, 8-миллиардную языковую модель с маскированной диффузией, обученную с нуля с использованием полностью двунаправленного внимания. Этот подход контрастирует с преобладающим авторегрессионным факторизацией и каузальным вниманием, используемыми в современных больших языковых моделях. Предобучение модели масштабировалось до 12 триллионов токенов, за которыми последовало контролируемое тонкое настраивание (supervised fine-tuning) на корпусе инструкций объемом 25 миллиардов токенов в течение 12 эпох. iLLaDA сохраняет цель маскированной диффузии на обоих этапах обучения и использует генерацию переменной длины для повышения эффективности. Она также внедряет оценку на основе уверенности для улучшения результатов на задачах многократного выбора. Результаты бенчмарков показывают значительные улучшения по сравнению с ее предшественником, LLaDA, включая прирост на 21,6 балла на BBH и на 14,9 балла на ARC-Challenge для базовой модели. Вариант с инструкционным тонким настраиванием достиг увеличения на 14,5 балла на MATH и на 16,5 балла на HumanEval. Несмотря на неавторегрессионную природу, iLLaDA остается конкурентоспособной с Qwen2.5 7B по нескольким метрикам.
iLLaDA: 8-миллиардная языковая модель с маскированной диффузией и полностью двунаправленным вниманием
Переведено с English → Русский