O benchmark SPLIT é introduzido para avaliar a consistência dos grandes modelos de linguagem ao gerar respostas emocionalmente fundamentadas em cinco categorias relacionadas a crises: Estresse, Pânico, Solidão, Deslocamento Interno e Tensão. O framework avalia três LLMs tecnicamente diversos em precisão empática, naturalidade linguística e fundamentação contextual & cultural tanto em inglês quanto em ucraniano.
- Gemini-2.5-Flash e LLaMA-3.3-70B-Instruct degradam ao transicionar para o ucraniano, enquanto DeepSeek-V3 permanece comparativamente estável.
- Avaliadores humanos e de IA concordam fracamente em empatia e naturalidade, mas divergem na fundamentação cultural.
- O estudo argumenta que produzir texto em ucraniano não é equivalente a fornecer suporte emocional em ucraniano.
As descobertas visam auxiliar no futuro desenvolvimento de designs de benchmarks mais adaptados culturalmente e incentivar uma ênfase maior na avaliação centrada no ser humano.