NatureBench presenta una batería de 90 tareas basadas en artículos de la familia Nature para evaluar la capacidad de los agentes de codificación de IA para lograr descubrimientos científicos. Bajo un protocolo con búsqueda web deshabilitada, el mejor modelo supera el estado del arte anterior solo en el 17.8% de las tareas. Los agentes tienen éxito principalmente al traducir problemas científicos en tareas de aprendizaje supervisado, no mediante invención científica original.