Бенчмарк · agentic

SWE-bench Verified

Human-verified subset of SWE-bench; resolving GitHub issues end-to-end.

50 результатов 42 моделей
0 50 100 150 200 2026-06-17 2026-06-20 2026-06-24 Codex with GPT-5.5 · 90 · 2026-06-17 Codex with GPT-5.5 · 90 · 2026-06-17 Codex with GPT-5.5 · 90 · 2026-06-17 GitHub Copilot · 80.2 · 2026-06-17 Devin · 80.2 · 2026-06-17 Cursor · 80.2 · 2026-06-17 Claude Code · 80.2 · 2026-06-17 OpenAI Codex · 80.2 · 2026-06-17 GPT-3.5 Turbo · 97 · 2026-06-17 GPT-3.5 Turbo · 97 · 2026-06-17 GPT-3.5 Turbo · 97 · 2026-06-17 Claude Opus 4.6 · 1.0 · 2026-06-17 Claude Opus 4.6 · 63 · 2026-06-23 EAGG · 56.2 · 2026-06-17 ProvenanceGuard · 0.8 · 2026-06-17 ProvenanceGuard · 0.8 · 2026-06-17 domain-specific composite tools · 90 · 2026-06-17 offline preference-based trajectory evaluation · 35 · 2026-06-17 Claude Sonnet 4.6 · 8.8 · 2026-06-17 Llama 3.1-8B · 31.7 · 2026-06-17 Qwen3-8B · 21.3 · 2026-06-17 LoopCoder-v2 · 64.4 · 2026-06-17 LoopCoder-V2 · 64.4 · 2026-06-17 GrapNet+ER · 63.2 · 2026-06-18 MLP+ER · 51.1 · 2026-06-18 GrapNet · 3.8 · 2026-06-18 Gemma-2-2B · 99.6 · 2026-06-19 Qwen2.5-1.5B · 99.6 · 2026-06-19 Llama-3.2-1B · 99.6 · 2026-06-19 Minstral-3-3B · 99.6 · 2026-06-19 Qwen3-4B · 74.3 · 2026-06-19 GatorTron · 1.0 · 2026-06-19 FineREX · 15.5 · 2026-06-19 Qwen2.5-7B-Instruct · 0.5 · 2026-06-19 router · 0.7 · 2026-06-19 router · 0.7 · 2026-06-19 baseline · 0.6 · 2026-06-19 baseline · 0.6 · 2026-06-19 DeepSeek-R1 · 52.1 · 2026-06-19 GLM 5.2 · 98 · 2026-06-20 GLM-5.2 · 0 · 2026-06-21 Qwen3.6 27B · 79.6 · 2026-06-21 three machines, two small language models, and three retrieval/in-context prompting approaches · 73.1 · 2026-06-23 Qwen 3.5 · 35 · 2026-06-23 MiniMax M2.5 · 48 · 2026-06-23 DeBERTa · 90 · 2026-06-24 rule-based · 43 · 2026-06-24 strongest large language model · 77.8 · 2026-06-24 MahaBERT-v2 · 88.7 · 2026-06-24 SHERLOC · 81.3 · 2026-06-24
Codex with GPT-5.5 GitHub Copilot Devin Cursor Claude Code OpenAI Codex GPT-3.5 Turbo Claude Opus 4.6 EAGG ProvenanceGuard domain-specific composite tools offline preference-based trajectory evaluation Claude Sonnet 4.6 Llama 3.1-8B Qwen3-8B LoopCoder-v2 LoopCoder-V2 GrapNet+ER MLP+ER GrapNet Gemma-2-2B Qwen2.5-1.5B Llama-3.2-1B Minstral-3-3B Qwen3-4B GatorTron FineREX Qwen2.5-7B-Instruct router baseline DeepSeek-R1 GLM 5.2 GLM-5.2 Qwen3.6 27B three machines, two small language models, and three retrieval/in-context prompting approaches Qwen 3.5 MiniMax M2.5 DeBERTa rule-based strongest large language model MahaBERT-v2 SHERLOC
Хронология
  1. 2026-06-24 MahaBERT-v2 88.67% L3Cube-MahaPOS: датасет маратхи и модели BERT
  2. 2026-06-24 SHERLOC 81.27% SHERLOC: структурированная локализация диагностики для агентов восстановления кода
  3. 2026-06-24 DeBERTa 90.0pts AutoSpecNER: Датасет для детализированного распознавания названий в технических характеристиках автомобилей
  4. 2026-06-24 rule-based 43.0pts AutoSpecNER: Датасет для детализированного распознавания названий в технических характеристиках автомобилей
  5. 2026-06-24 strongest large language model 77.8pts AutoSpecNER: Датасет для детализированного распознавания названий в технических характеристиках автомобилей
  6. 2026-06-23 Qwen 3.5 35.0% Оценка LLM для обнаружения уязвимостей в веб-приложениях
  7. 2026-06-23 Claude Opus 4.6 63.0% Оценка LLM для обнаружения уязвимостей в веб-приложениях
  8. 2026-06-23 MiniMax M2.5 48.0% Оценка LLM для обнаружения уязвимостей в веб-приложениях
  9. 2026-06-23 three machines, two small language models, and three retrieval/in-context prompting approaches 73.1% Налог на токены эпистемической точности в искусственном интеллекте, основанном на документах
  10. 2026-06-21 Qwen3.6 27B 79.6pts Результаты и рекомендации по обновленному бенчмарку визуальных моделей
  11. 2026-06-21 GLM-5.2 0.0% GLM-5.2 побеждает Гемини и GPT-5.4 в программировании, но является неэффективным
  12. 2026-06-20 GLM 5.2 98.0% GLM 5.2 достигает 98% максимальной интеллекта с менее чем половиной токенов
  13. 2026-06-19 DeepSeek-R1 52.1% Калибровка без понимания в обнаружении уязвимостей в LLM
  14. 2026-06-19 router 0.694null Адаптивное обучение с помощью LLM повышает вовлеченность и эффективность
  15. 2026-06-19 baseline 0.647null Адаптивное обучение с помощью LLM повышает вовлеченность и эффективность
  16. 2026-06-19 router 0.694null Адаптивное обучение с использованием ЛЛМ повышает вовлеченность и эффективность
  17. 2026-06-19 baseline 0.647null Адаптивное обучение с использованием ЛЛМ повышает вовлеченность и эффективность
  18. 2026-06-19 Qwen2.5-7B-Instruct 0.481% Обучение, извлечение или оба варианта? Прямое сравнение по статутарной цитате в отношении закона о жилищных договорах в Онтарио
  19. 2026-06-19 FineREX 15.5% FineREX: настроенная система извлечения названий и связей для знаний о незаконной транспортировке людей
  20. 2026-06-19 GatorTron 0.96null Нулевая задача агентных LLM извлекает патологию лёгких из повествований
  21. 2026-06-19 Qwen3-4B 74.27% STAGE: Генерация данных с опорой на источник для преобразования текста в JSON
  22. 2026-06-19 Gemma-2-2B 99.6% Каузальные направления активации для смягчения эмерджентной несоответственности в языковых моделях
  23. 2026-06-19 Qwen2.5-1.5B 99.6% Каузальные направления активации для смягчения эмерджентной несоответственности в языковых моделях
  24. 2026-06-19 Llama-3.2-1B 99.6% Каузальные направления активации для смягчения эмерджентной несоответственности в языковых моделях
  25. 2026-06-19 Minstral-3-3B 99.6% Каузальные направления активации для смягчения эмерджентной несоответственности в языковых моделях
  26. 2026-06-18 GrapNet+ER 63.16percent GrapNet: Программируемая динамическая архитектура нейронной графы
  27. 2026-06-18 MLP+ER 51.08percent GrapNet: Программируемая динамическая архитектура нейронной графы
  28. 2026-06-18 GrapNet 3.81pts GrapNet: Программируемая динамическая архитектура нейронной графы
  29. 2026-06-17 LoopCoder-V2 64.4% LoopCoder-V2: Модель PLT с двумя циклами достигает наилучшего соотношения выгоды и затрат
  30. 2026-06-17 LoopCoder-v2 64.4pts LoopCoder-v2 достигает оптимальной производительности при двух циклах
  31. 2026-06-17 GPT-3.5 Turbo 97.0% Нарушение ввода с помощью тройных фигурных скобок в Handlebars, позволяющее использовать разделители ролей
  32. 2026-06-17 Codex with GPT-5.5 90.0% ReproRepo: масштабируемый аудит воспроизводимости с использованием Issue GitHub
  33. 2026-06-17 ProvenanceGuard 0.802null ProvenanceGuard: проверка достоверности с учетом источника для агентов на основе LLM с использованием MCP
  34. 2026-06-17 Claude Sonnet 4.6 8.8% Географическая предвзятость в больших языковых моделях из метаданных пользователей
  35. 2026-06-17 Llama 3.1-8B 31.7% Географическая предвзятость в больших языковых моделях из метаданных пользователей
  36. 2026-06-17 Qwen3-8B 21.3% Географическая предвзятость в больших языковых моделях из метаданных пользователей
  37. 2026-06-17 GPT-3.5 Turbo 97.0% Уязвимость ввода тройных фигурных скобок в Handlebars, позволяющая внедрять роли структур
  38. 2026-06-17 Codex with GPT-5.5 90.0% ReproRepo: масштабирование аудитов воспроизводимости с использованием Issue GitHub
  39. 2026-06-17 offline preference-based trajectory evaluation 35.0% Оценка траектории на основе предпочтений для агентных систем
  40. 2026-06-17 domain-specific composite tools 90.0% T-API-совместимый цикл ReAct для оптических сетей
  41. 2026-06-17 ProvenanceGuard 0.802null ProvenanceGuard: проверка фактичности с учетом источника для агентов на основе LLM с использованием MCP
  42. 2026-06-17 EAGG 56.17% EAGG: Генерация захвата с учетом корпуса через геометрически осознанные графы условий
  43. 2026-06-17 Claude Opus 4.6 0.97% ALERCЕ запускает систему текст-в-СУЛЬ с использованием больших языковых моделей
  44. 2026-06-17 GPT-3.5 Turbo 97.0% Уязвимость ввода с помощью тройных фигурных скобок в Handlebars, позволяющая внедрять роли структуры
  45. 2026-06-17 GitHub Copilot 80.2% Сигналы Оракла в коде тестов, написанном агентами
  46. 2026-06-17 Devin 80.2% Сигналы Оракла в коде тестов, написанном агентами
  47. 2026-06-17 Cursor 80.2% Сигналы Оракла в коде тестов, написанном агентами
  48. 2026-06-17 Claude Code 80.2% Сигналы Оракла в коде тестов, написанном агентами
  49. 2026-06-17 OpenAI Codex 80.2% Сигналы Оракла в коде тестов, написанном агентами
  50. 2026-06-17 Codex with GPT-5.5 90.0% ReproRepo: масштабирование аудитов воспроизводимости с помощью Issue GitHub