ScholarQuest es un benchmark a gran escala para la búsqueda de artículos académicos agénticos, construido a partir de 1.000 temas de ciencias de la computación y cuatro intenciones de investigación. Incluye construcción escalable de respuestas y un backend de recuperación compartido, ScholarBase, que permite una evaluación reproducible. Los resultados muestran que los métodos agénticos superan a la recuperación básica, con el mejor agente logrando 0.314 Recall@100 y 0.355 Recall@All, lo que indica un margen significativo de mejora.