SPLIT基准测试评估LLM在英语和乌克兰语响应中的跨语言共情与文化根基

引入SPLIT基准测试以评估大型语言模型在五类危机相关类别（压力、恐慌、孤独、内部流离失所和紧张）中生成情感基础响应的一致性。该框架评估了三种技术多样化的LLM在英语和乌克兰语中的共情准确性、语言自然度以及上下文与文化根基。

这些发现旨在协助未来开发更具文化针对性的基准测试设计，并鼓励更强调以人为中心的评估。