Una evaluación de referencia de 240 elementos de prueba en árabe a través de ocho dominios y diez habilidades evalúa doce modelos de lenguaje pequeños en configuraciones zero-shot. Gemma 3 (12B) obtuvo la puntuación general más alta (4.548/5), seguido por Aya y C4AI Command Arabic, con un rendimiento vinculado más a la alineación en árabe y al seguimiento de instrucciones que al tamaño del modelo. Los modos de fallo comunes incluyen filtración de prompt, alucinación y débil adherencia a la tarea.