Оценка бенчмарка малых языковых моделей для арабской NLP
Бенчмарк из 240 арабских тестовых заданий в восьми областях и десяти навыках оценивает двенадцать малых языковых моделей в нуля-шот условиях. Gemma 3 (12B) достигла наивысшей общей оценки (4,548/5), за ним следуют Aya и C4AI Command Arabic, производительность которых связана больше с арабской настройкой и выполнением инструкций, чем с размером модели. Общие неисправности включают утечку промпта, халлюцинации и слабое выполнение задач.