PseudoBench: Оценка устойчивости агентных систем автономного поиска к псевдонаучным утверждениям

PseudoBench оценивает способность агентных систем автономного поиска обнаруживать псевдонаучные утверждения. При тестировании семи передовых агентов было выявлено почти нулевое количество отказов и лишь 27,4% устойчивости к псевдонаучным нарративам. Текущие системы часто представляют псевдонаучные идеи в научной, достоверной форме, что подчёркивает серьёзный риск для научной целостности.