Las evaluaciones muestran que las traducciones de Fongbe logran una calidad deficiente (1.0-2.2/5) en comparación con las puntuaciones aceptables de Hausa (4.0-4.5/5), con una brecha constante de 3x en BLEU. Las métricas automáticas como BERTScore muestran colapso de incrustaciones y débil correlación humana, especialmente para Hausa, mientras que Gemini supera a los demás para Fongbe y GPT-4o para Hausa en juicios humanos. Se necesitan tamaños mínimos de muestra de 2,500 oraciones para clasificaciones estables de modelos.
Los modelos de lenguaje grandes fallan al traducir Fongbe con precisión
Traducido del English → Español