Бенчмарк SPLIT оценивает кросс-лингвальную эмпатию и культурный контекст в ответах LLM на английском и украинском языках

Представлен бенчмарк SPLIT для оценки согласованности больших языковых моделей при генерации эмоционально обоснованных ответов по пяти категориям, связанным с кризисом: Стресс, Паника, Одиночество, Внутреннее перемещение и Напряжение. Фреймворк оценивает три технически разнообразные LLM по эмпатической точности, лингвистической естественности и контекстуальному & культурному обоснованию как на английском, так и на украинском языках.

Gemini-2.5-Flash и LLaMA-3.3-70B-Instruct деградируют при переходе на украинский язык, тогда как DeepSeek-V3 остается сравнительно стабильным.
Человеческие и ИИ-оценщики слабо согласуются в оценках эмпатии и естественности, но расходятся во мнениях по культурному обоснованию.
В исследовании утверждается, что генерация текста на украинском языке не эквивалентна предоставлению эмоциональной поддержки на украинском.

Результаты направлены на помощь в будущем разработке более культурно адаптированных дизайнов бенчмарков и стимулируют больший акцент на человеко-центрированной оценке.