Бенчмарк · agentic

SWE-bench Verified

Human-verified subset of SWE-bench; resolving GitHub issues end-to-end.

50 результатов 42 моделей

Codex with GPT-5.5 GitHub Copilot Devin Cursor Claude Code OpenAI Codex GPT-3.5 Turbo Claude Opus 4.6 EAGG ProvenanceGuard domain-specific composite tools offline preference-based trajectory evaluation Claude Sonnet 4.6 Llama 3.1-8B Qwen3-8B LoopCoder-v2 LoopCoder-V2 GrapNet+ER MLP+ER GrapNet Gemma-2-2B Qwen2.5-1.5B Llama-3.2-1B Minstral-3-3B Qwen3-4B GatorTron FineREX Qwen2.5-7B-Instruct router baseline DeepSeek-R1 GLM 5.2 GLM-5.2 Qwen3.6 27B three machines, two small language models, and three retrieval/in-context prompting approaches Qwen 3.5 MiniMax M2.5 DeBERTa rule-based strongest large language model MahaBERT-v2 SHERLOC

Хронология

2026-06-24 MahaBERT-v2 88.67% L3Cube-MahaPOS: датасет маратхи и модели BERT
2026-06-24 SHERLOC 81.27% SHERLOC: структурированная локализация диагностики для агентов восстановления кода
2026-06-24 DeBERTa 90.0pts AutoSpecNER: Датасет для детализированного распознавания названий в технических характеристиках автомобилей
2026-06-24 rule-based 43.0pts AutoSpecNER: Датасет для детализированного распознавания названий в технических характеристиках автомобилей
2026-06-24 strongest large language model 77.8pts AutoSpecNER: Датасет для детализированного распознавания названий в технических характеристиках автомобилей
2026-06-23 Qwen 3.5 35.0% Оценка LLM для обнаружения уязвимостей в веб-приложениях
2026-06-23 Claude Opus 4.6 63.0% Оценка LLM для обнаружения уязвимостей в веб-приложениях
2026-06-23 MiniMax M2.5 48.0% Оценка LLM для обнаружения уязвимостей в веб-приложениях
2026-06-23 three machines, two small language models, and three retrieval/in-context prompting approaches 73.1% Налог на токены эпистемической точности в искусственном интеллекте, основанном на документах
2026-06-21 Qwen3.6 27B 79.6pts Результаты и рекомендации по обновленному бенчмарку визуальных моделей
2026-06-21 GLM-5.2 0.0% GLM-5.2 побеждает Гемини и GPT-5.4 в программировании, но является неэффективным
2026-06-20 GLM 5.2 98.0% GLM 5.2 достигает 98% максимальной интеллекта с менее чем половиной токенов
2026-06-19 DeepSeek-R1 52.1% Калибровка без понимания в обнаружении уязвимостей в LLM
2026-06-19 router 0.694null Адаптивное обучение с помощью LLM повышает вовлеченность и эффективность
2026-06-19 baseline 0.647null Адаптивное обучение с помощью LLM повышает вовлеченность и эффективность
2026-06-19 router 0.694null Адаптивное обучение с использованием ЛЛМ повышает вовлеченность и эффективность
2026-06-19 baseline 0.647null Адаптивное обучение с использованием ЛЛМ повышает вовлеченность и эффективность
2026-06-19 Qwen2.5-7B-Instruct 0.481% Обучение, извлечение или оба варианта? Прямое сравнение по статутарной цитате в отношении закона о жилищных договорах в Онтарио
2026-06-19 FineREX 15.5% FineREX: настроенная система извлечения названий и связей для знаний о незаконной транспортировке людей
2026-06-19 GatorTron 0.96null Нулевая задача агентных LLM извлекает патологию лёгких из повествований
2026-06-19 Qwen3-4B 74.27% STAGE: Генерация данных с опорой на источник для преобразования текста в JSON
2026-06-19 Gemma-2-2B 99.6% Каузальные направления активации для смягчения эмерджентной несоответственности в языковых моделях
2026-06-19 Qwen2.5-1.5B 99.6% Каузальные направления активации для смягчения эмерджентной несоответственности в языковых моделях
2026-06-19 Llama-3.2-1B 99.6% Каузальные направления активации для смягчения эмерджентной несоответственности в языковых моделях
2026-06-19 Minstral-3-3B 99.6% Каузальные направления активации для смягчения эмерджентной несоответственности в языковых моделях
2026-06-18 GrapNet+ER 63.16percent GrapNet: Программируемая динамическая архитектура нейронной графы
2026-06-18 MLP+ER 51.08percent GrapNet: Программируемая динамическая архитектура нейронной графы
2026-06-18 GrapNet 3.81pts GrapNet: Программируемая динамическая архитектура нейронной графы
2026-06-17 LoopCoder-V2 64.4% LoopCoder-V2: Модель PLT с двумя циклами достигает наилучшего соотношения выгоды и затрат
2026-06-17 LoopCoder-v2 64.4pts LoopCoder-v2 достигает оптимальной производительности при двух циклах
2026-06-17 GPT-3.5 Turbo 97.0% Нарушение ввода с помощью тройных фигурных скобок в Handlebars, позволяющее использовать разделители ролей
2026-06-17 Codex with GPT-5.5 90.0% ReproRepo: масштабируемый аудит воспроизводимости с использованием Issue GitHub
2026-06-17 ProvenanceGuard 0.802null ProvenanceGuard: проверка достоверности с учетом источника для агентов на основе LLM с использованием MCP
2026-06-17 Claude Sonnet 4.6 8.8% Географическая предвзятость в больших языковых моделях из метаданных пользователей
2026-06-17 Llama 3.1-8B 31.7% Географическая предвзятость в больших языковых моделях из метаданных пользователей
2026-06-17 Qwen3-8B 21.3% Географическая предвзятость в больших языковых моделях из метаданных пользователей
2026-06-17 GPT-3.5 Turbo 97.0% Уязвимость ввода тройных фигурных скобок в Handlebars, позволяющая внедрять роли структур
2026-06-17 Codex with GPT-5.5 90.0% ReproRepo: масштабирование аудитов воспроизводимости с использованием Issue GitHub
2026-06-17 offline preference-based trajectory evaluation 35.0% Оценка траектории на основе предпочтений для агентных систем
2026-06-17 domain-specific composite tools 90.0% T-API-совместимый цикл ReAct для оптических сетей
2026-06-17 ProvenanceGuard 0.802null ProvenanceGuard: проверка фактичности с учетом источника для агентов на основе LLM с использованием MCP
2026-06-17 EAGG 56.17% EAGG: Генерация захвата с учетом корпуса через геометрически осознанные графы условий
2026-06-17 Claude Opus 4.6 0.97% ALERCЕ запускает систему текст-в-СУЛЬ с использованием больших языковых моделей
2026-06-17 GPT-3.5 Turbo 97.0% Уязвимость ввода с помощью тройных фигурных скобок в Handlebars, позволяющая внедрять роли структуры
2026-06-17 GitHub Copilot 80.2% Сигналы Оракла в коде тестов, написанном агентами
2026-06-17 Devin 80.2% Сигналы Оракла в коде тестов, написанном агентами
2026-06-17 Cursor 80.2% Сигналы Оракла в коде тестов, написанном агентами
2026-06-17 Claude Code 80.2% Сигналы Оракла в коде тестов, написанном агентами
2026-06-17 OpenAI Codex 80.2% Сигналы Оракла в коде тестов, написанном агентами
2026-06-17 Codex with GPT-5.5 90.0% ReproRepo: масштабирование аудитов воспроизводимости с помощью Issue GitHub