Benchmark SPLIT diperkenalkan untuk mengevaluasi konsistensi model bahasa besar (LLM) dalam menghasilkan respons yang berlandaskan emosi di lima kategori terkait krisis: Stres, Panik, Kesepian, Pengungsian Internal, dan Ketegangan. Kerangka kerja ini menilai tiga LLM yang secara teknis beragam mengenai akurasi empati, kealamian linguistik, dan landasan kontekstual & budaya dalam bahasa Inggris dan Ukraina.

  • Gemini-2.5-Flash dan LLaMA-3.3-70B-Instruct mengalami penurunan saat beralih ke bahasa Ukraina, sementara DeepSeek-V3 tetap relatif stabil.
  • Penilai manusia dan AI sepakat secara lemah mengenai empati dan kealamian, tetapi berbeda pendapat mengenai landasan budaya.
  • Studi ini berargumen bahwa menghasilkan teks dalam bahasa Ukraina tidak setara dengan menghasilkan dukungan emosional dalam bahasa Ukraina.

Temuan ini bertujuan untuk membantu pengembangan desain benchmark yang lebih disesuaikan secara budaya di masa depan dan mendorong penekanan yang lebih kuat pada evaluasi yang berpusat pada manusia.