ChLogic: Проверка устойчивости логического мышления в китайских выражениях
ChLogic оценивает, насколько хорошо большие языковые модели сохраняют логическое мышление при выражении английских логических структур на китайском языке. Исследование выявляет постоянный разрыв в производительности между английским и китайским, при котором обратная трансляция улучшает результаты на общих задачах, но ухудшает результаты на сложных задачах. Бенчмарк подчёркивает влияние поверхностной реализации, артефактов перевода и специфических поведений моделей на мультиязычное мышление.