PseudoBench оценивает способность агентных систем автономного поиска обнаруживать псевдонаучные утверждения. При тестировании семи передовых агентов было выявлено почти нулевое количество отказов и лишь 27,4% устойчивости к псевдонаучным нарративам. Текущие системы часто представляют псевдонаучные идеи в научной, достоверной форме, что подчёркивает серьёзный риск для научной целостности.
PseudoBench: Оценка устойчивости агентных систем автономного поиска к псевдонаучным утверждениям
Переведено с English → Русский