NatureBench представляет бенчмарк из 90 задач, взятых из статей из журналов Nature, для оценки способности ИИ-агентов к достижению научных открытий. При протоколе, запрещающем использование веб-поиска, лучший модель превосходит предыдущие достижения только на 17,8% задач. Агенты в основном успешно решают задачи, переводя научные проблемы в задачи надзирания, а не через оригинальное научное изобретение.