ReproRepo: Auditorías de reproducibilidad escalables con GitHub Issues
ReproRepo introduce un marco escalable que utiliza GitHub issues para evaluar la reproducibilidad de artículos de ML. Muestra que los agentes LLM como Codex con GPT-5.5 identifican al menos un bloqueador reportado por humanos en el 90% de los 1,149 artículos de ML, destacando su capacidad para detectar fallos visibles y problemas semánticos, aunque la localización exacta sigue siendo limitada.