引入SPLIT基准测试以评估大型语言模型在五类危机相关类别(压力、恐慌、孤独、内部流离失所和紧张)中生成情感基础响应的一致性。该框架评估了三种技术多样化的LLM在英语和乌克兰语中的共情准确性、语言自然度以及上下文与文化根基。

  • Gemini-2.5-Flash和LLaMA-3.3-70B-Instruct在过渡到乌克兰语时性能下降,而DeepSeek-V3保持相对稳定。
  • 人类评估者和AI评估者在共情和自然度上同意程度较弱,但在文化根基上存在分歧。
  • 该研究认为,生成乌克兰语文本并不等同于提供乌克兰语的情感支持。

这些发现旨在协助未来开发更具文化针对性的基准测试设计,并鼓励更强调以人为中心的评估。