El benchmark SPLIT evalúa la empatía interlingüística y el arraigo cultural en respuestas de LLM en inglés y ucraniano

Se presenta el benchmark SPLIT para evaluar la consistencia de los grandes modelos de lenguaje al generar respuestas emocionalmente fundamentadas en cinco categorías relacionadas con crisis: Estrés, Pánico, Soledad, Desplazamiento Interno y Tensión. El marco evalúa tres LLM técnicamente diversos en precisión empática, naturalidad lingüística y arraigo contextual & cultural tanto en inglés como en ucraniano.

Gemini-2.5-Flash y LLaMA-3.3-70B-Instruct degradan al transicionar al ucraniano, mientras que DeepSeek-V3 permanece comparativamente estable.
Los evaluadores humanos e IA coinciden débilmente en empatía y naturalidad pero divergen en el arraigo cultural.
El estudio argumenta que producir texto en ucraniano no es equivalente a proporcionar apoyo emocional en ucraniano.

Los hallazgos tienen como objetivo asistir en el futuro desarrollo de diseños de benchmarks más adaptados culturalmente y fomentar un mayor énfasis en la evaluación centrada en el ser humano.