SPLIT 벤치마크는 스트레스, 공황, 외로움, 내부 실향민, 긴장이라는 5가지 위기 관련 범주에 걸쳐 감정적으로 근거 있는 응답을 생성하는 대규모 언어 모델의 일관성을 평가하기 위해 도입되었습니다. 이 프레임워크는 영어와 우크라이나어 모두에서 공감 정확성, 언어적 자연스러움, 문맥 및 문화적 기반에 대해 세 가지 기술적으로 다양한 LLM을 평가합니다.
- Gemini-2.5-Flash와 LLaMA-3.3-70B-Instruct는 우크라이나어로 전환할 때 성능이 저하되는 반면, DeepSeek-V3는 비교적 안정적입니다.
- 인간과 AI 평가자는 공감과 자연스러움에 대해 약하게 일치하지만 문화적 기반에서는 의견이 갈립니다.
- 이 연구는 우크라이나어 텍스트를 생성하는 것이 우크라이나어 정서적 지원을 생성하는 것과 동등하지 않다고 주장합니다.
이러한 발견은 향후 더 문화적으로 맞춤화된 벤치마크 설계 개발을 지원하고 인간 중심 평가에 대한 더 강한 강조를 촉진하는 것을 목표로 합니다.