Представлен бенчмарк SPLIT для оценки согласованности больших языковых моделей при генерации эмоционально обоснованных ответов по пяти категориям, связанным с кризисом: Стресс, Паника, Одиночество, Внутреннее перемещение и Напряжение. Фреймворк оценивает три технически разнообразные LLM по эмпатической точности, лингвистической естественности и контекстуальному & культурному обоснованию как на английском, так и на украинском языках.

  • Gemini-2.5-Flash и LLaMA-3.3-70B-Instruct деградируют при переходе на украинский язык, тогда как DeepSeek-V3 остается сравнительно стабильным.
  • Человеческие и ИИ-оценщики слабо согласуются в оценках эмпатии и естественности, но расходятся во мнениях по культурному обоснованию.
  • В исследовании утверждается, что генерация текста на украинском языке не эквивалентна предоставлению эмоциональной поддержки на украинском.

Результаты направлены на помощь в будущем разработке более культурно адаптированных дизайнов бенчмарков и стимулируют больший акцент на человеко-центрированной оценке.