SPLITベンチマークは、5つの危機関連カテゴリ(ストレス、パニック、孤独、国内避難、緊張)にわたって感情的に根拠のある応答を生成する大規模言語モデルの一貫性を評価するために導入された。このフレームワークは、英語とウクライナ語の両方で、共感的正確性、言語的自然さ、文脈的・文化的基盤について3つの技術的に多様なLLMを評価する。
- Gemini-2.5-FlashおよびLLaMA-3.3-70B-Instructはウクライナ語への移行時に劣化するが、DeepSeek-V3は比較的一定している。
- 人間とAIの両方の評価者は共感と自然さについて弱い一致を示すが、文化的基盤については意見が分かれる。
- この研究は、ウクライナ語テキストを生成することがウクライナ語の感情的支援を生成することと同義ではないと主張する。
これらの知見は、より文化的に適合したベンチマーク設計の将来の開発を支援し、人間中心の評価へのより強い強調を促すことを目的としている。