تم تقديم معيار SPLIT لتقييم اتساق نماذج اللغة الكبيرة (LLM) في توليد استجابات مبنية على المشاعر عبر خمس فئات مرتبطة بالأزمات: التوتر، الذعر، الوحدة، النزوح الداخلي، والتوتر. يقيّم الإطار ثلاثة نماذج LLM متنوعة تقنيًا من حيث الدقة التعاطفية، والطبيعية اللغوية، والأساس السياقي والثقافي باللغتين الإنجليزية والأوكرانية.
- تتدهور أداءات Gemini-2.5-Flash وLLaMA-3.3-70B-Instruct عند الانتقال إلى الأوكرانية، بينما يبقى DeepSeek-V3 مستقرًا نسبيًا.
- يتفق المقيّمون البشريون والذكاء الاصطناعي بشكل ضعيف على التعاطف والطبيعية، لكنهم يختلفون بشأن الأساس الثقافي.
- يجادل الدراسة بأن إنتاج نص أوكراني لا يعادل إنتاج دعم عاطفي أوكراني.
تهدف النتائج إلى مساعدة في تطوير تصاميم معايير مستقبلية أكثر تخصيصًا ثقافيًا وتشجيع تركيز أقوى على التقييم المتمحور حول الإنسان.