SPLIT 벤치마크는 영어 및 우크라이나어 LLM 응답의 교차언어적 공감과 문화적 기반을 평가합니다

SPLIT 벤치마크는 스트레스, 공황, 외로움, 내부 실향민, 긴장이라는 5가지 위기 관련 범주에 걸쳐 감정적으로 근거 있는 응답을 생성하는 대규모 언어 모델의 일관성을 평가하기 위해 도입되었습니다. 이 프레임워크는 영어와 우크라이나어 모두에서 공감 정확성, 언어적 자연스러움, 문맥 및 문화적 기반에 대해 세 가지 기술적으로 다양한 LLM을 평가합니다.

Gemini-2.5-Flash와 LLaMA-3.3-70B-Instruct는 우크라이나어로 전환할 때 성능이 저하되는 반면, DeepSeek-V3는 비교적 안정적입니다.
인간과 AI 평가자는 공감과 자연스러움에 대해 약하게 일치하지만 문화적 기반에서는 의견이 갈립니다.
이 연구는 우크라이나어 텍스트를 생성하는 것이 우크라이나어 정서적 지원을 생성하는 것과 동등하지 않다고 주장합니다.

이러한 발견은 향후 더 문화적으로 맞춤화된 벤치마크 설계 개발을 지원하고 인간 중심 평가에 대한 더 강한 강조를 촉진하는 것을 목표로 합니다.