ReproRepo introduce un marco escalable que utiliza GitHub issues para evaluar la reproducibilidad de artículos de ML. Muestra que los agentes LLM como Codex con GPT-5.5 identifican al menos un bloqueador reportado por humanos en el 90% de los 1,149 artículos de ML, destacando su capacidad para detectar fallos visibles y problemas semánticos, aunque la localización exacta sigue siendo limitada.