Las evaluaciones muestran que las traducciones de Fongbe logran una calidad deficiente (1.0-2.2/5) en comparación con las puntuaciones aceptables de Hausa (4.0-4.5/5), con una brecha constante de 3x en BLEU. Las métricas automáticas como BERTScore muestran colapso de incrustaciones y débil correlación humana, especialmente para Hausa, mientras que Gemini supera a los demás para Fongbe y GPT-4o para Hausa en juicios humanos. Se necesitan tamaños mínimos de muestra de 2,500 oraciones para clasificaciones estables de modelos.