OpenBioRQ introduce un benchmark de 12,553 preguntas de investigación biomédica sin resolver en 12 dominios, diseñado para probar la fidelidad y la abstención de los modelos agénticos. Evalúa los modelos en un entorno de uso de herramientas sin claves de respuesta, utilizando evidencia real de seguimiento en lugar de conocimiento paramétrico, y revela un colapso agéntico significativo en las preguntas más difíciles donde las herramientas ya no se utilizan a pesar de ser críticas.
OpenBioRQ: Benchmark para la Fidelidad de la Investigación Biomédica Agéntica
Traducido del English → Español