ReproRepo представляет масштабируемую систему, использующую Issue GitHub для оценки воспроизводимости ML статей. Оно показывает, что агенты на основе LLM, такие как Codex с GPT-5.5, выявляют по крайней мере один блокирующий элемент, отмеченный человеком, в 90% из 1149 ML статей, подчеркивая их способность обнаруживать видимые сбои и семантические проблемы, хотя точная локализация остается ограниченной.