Le benchmark SPLIT évalue l'empathie interlinguale et l'ancrage culturel dans les réponses des LLM en anglais et en ukrainien

Le benchmark SPLIT est introduit pour évaluer la cohérence des grands modèles de langage (LLM) à générer des réponses émotionnellement ancrées sur cinq catégories liées aux crises : Stress, Panique, Solitude, Déplacement interne et Tension. Le cadre évalue trois LLM techniquement diversifiés sur la précision empathique, la naturalité linguistique et l'ancrage contextuel et culturel en anglais et en ukrainien.

Gemini-2.5-Flash et LLaMA-3.3-70B-Instruct se dégradent lors de la transition vers l'ukrainien, tandis que DeepSeek-V3 reste comparativement stable.
Les évaluateurs humains et les IA sont faiblement d'accord sur l'empathie et la naturalité, mais divergent sur l'ancrage culturel.
L'étude soutient que produire du texte en ukrainien n'est pas équivalent à produire un soutien émotionnel en ukrainien.

Les résultats visent à aider au développement futur de conceptions de benchmarks plus adaptées culturellement et à encourager une emphasis plus forte sur l'évaluation centrée sur l'humain.