Le benchmark SPLIT est introduit pour évaluer la cohérence des grands modèles de langage (LLM) à générer des réponses émotionnellement ancrées sur cinq catégories liées aux crises : Stress, Panique, Solitude, Déplacement interne et Tension. Le cadre évalue trois LLM techniquement diversifiés sur la précision empathique, la naturalité linguistique et l'ancrage contextuel et culturel en anglais et en ukrainien.

  • Gemini-2.5-Flash et LLaMA-3.3-70B-Instruct se dégradent lors de la transition vers l'ukrainien, tandis que DeepSeek-V3 reste comparativement stable.
  • Les évaluateurs humains et les IA sont faiblement d'accord sur l'empathie et la naturalité, mais divergent sur l'ancrage culturel.
  • L'étude soutient que produire du texte en ukrainien n'est pas équivalent à produire un soutien émotionnel en ukrainien.

Les résultats visent à aider au développement futur de conceptions de benchmarks plus adaptées culturellement et à encourager une emphasis plus forte sur l'évaluation centrée sur l'humain.