ChLogic: Evaluación de la robustez del razonamiento lógico en expresiones chinas

ChLogic evalúa qué tan bien los modelos de lenguaje grandes mantienen el razonamiento lógico cuando las estructuras lógicas en inglés se expresan en chino. Revela una brecha persistente de rendimiento entre inglés y chino, con la traducción inversa mejorando los resultados en elementos generales pero perjudicando el rendimiento en problemas difíciles. El benchmark destaca el impacto de la realización superficial, artefactos de traducción y comportamientos específicos del modelo en el razonamiento multilingüe.