arxiv arXiv cs.CL · hace 2 h · fuente: hace 10 d · research

ReproRepo: Escalando las auditorías de reproducibilidad con GitHub Issues

Traducido del English → Español

ReproRepo introduce un marco escalable que utiliza GitHub issues para evaluar la reproducibilidad de artículos de ML. Muestra que los agentes LLM como Codex con GPT-5.5 identifican al menos un bloqueador semánticamente relacionado en el 90% de los pares artículo-repositorio sin ejecutar código.

Importancia 2/3 arXiv cs.CL OpenAI Cohere Mistral AI AI agents Code generation Evaluation & benchmarks

Benchmarks

Benchmark	Modelo	Puntuación
SWE-bench Verified	Codex with GPT-5.5	90%

Leer original