SPLIT बेंचमार्क को पेश किया गया है ताकि बड़े भाषा मॉडलों की पांच संकट-संबंधित श्रेणियों (तनाव, घबराहट, अकेलापन, आंतरिक विस्थापन और तनाव) में भावनात्मक रूप से आधारित प्रतिक्रियाएं उत्पन्न करने में उनकी सुसंगतता का मूल्यांकन किया जा सके। फ्रेमवर्क अंग्रेजी और यूक्रेनियाई दोनों में सहानुभूति की सटीकता, भाषाई स्वाभाविकता और संदर्भ & सांस्कृतिक आधार पर तीन तकनीकी रूप से विविध LLMs का मूल्यांकन करता है।

  • Gemini-2.5-Flash और LLaMA-3.3-70B-Instruct यूक्रेनियाई में स्थानांतरित होने पर खराब हो जाते हैं, जबकि DeepSeek-V3 तुलनात्मक रूप से स्थिर रहता है।
  • मानव और AI मूल्यांकनकर्ता सहानुभूति और स्वाभाविकता पर कमजोर तरीके से सहमत होते हैं लेकिन सांस्कृतिक आधार पर असहमत होते हैं।
  • अध्ययन तर्क देता है कि यूक्रेनियाई पाठ उत्पन्न करना यूक्रेनियाई भावनात्मक समर्थन उत्पन्न करने के बराबर नहीं है।

इन निष्कर्षों का उद्देश्य भविष्य में अधिक सांस्कृतिक रूप से अनुकूलित बेंचमार्क डिज़ाइन के विकास में सहायता करना और मानव-केंद्रित मूल्यांकन पर अधिक जोर देने को प्रोत्साहित करना है।