Se presenta el benchmark SPLIT para evaluar la consistencia de los grandes modelos de lenguaje al generar respuestas emocionalmente fundamentadas en cinco categorías relacionadas con crisis: Estrés, Pánico, Soledad, Desplazamiento Interno y Tensión. El marco evalúa tres LLM técnicamente diversos en precisión empática, naturalidad lingüística y arraigo contextual & cultural tanto en inglés como en ucraniano.

  • Gemini-2.5-Flash y LLaMA-3.3-70B-Instruct degradan al transicionar al ucraniano, mientras que DeepSeek-V3 permanece comparativamente estable.
  • Los evaluadores humanos e IA coinciden débilmente en empatía y naturalidad pero divergen en el arraigo cultural.
  • El estudio argumenta que producir texto en ucraniano no es equivalente a proporcionar apoyo emocional en ucraniano.

Los hallazgos tienen como objetivo asistir en el futuro desarrollo de diseños de benchmarks más adaptados culturalmente y fomentar un mayor énfasis en la evaluación centrada en el ser humano.