Лаборатория · Cohere
arxiv arXiv cs.CL · 6 д назад

JAMER: Датасет и бенчмарк проектного уровня кода

JAMER вводит JamSet и JamBench, первый датасет и бенчмарк проектного уровня кода для профессиональной игровой платформы. Созданный на основе 8133 проверенных проектов Game Jam, он обеспечивает детерминированную оценку и выявляет порог способности в моделях ИИ при увеличении масштаба проекта, при этом процент успешных запусков снижается с 80,4% до 5,7%.

arxiv arXiv cs.CL · 8 д назад

LegalHalluLens: аудит галлюцинаций в правовом ИИ

LegalHalluLens представляет рамку для аудита галлюцинаций ИИ в правовых контекстах, анализируя профили галлюцинаций при вводе по четырём категориям утверждений. Оно выявляет разрыв в 38-40 баллов между утверждениями о обязательствах/числовых и временных утверждениях, и показывает, что две системы с одинаковыми показателями 52% галлюцинаций могут иметь противоположные направления риска. Рамка использует Индекс направления риска и калиброванные дебатные потоки для снижения выявления фальшивых утверждений на 45% и повышения ответственности при внедрении правового ИИ.

arxiv arXiv cs.CL · 8 д назад

SkillWeaver: Составная маршрутизация навыков для агентов на основе языковых моделей

SkillWeaver вводит рамку декомпозиции-получения-составления для агентов на основе языковых моделей, формализующую проблему составной маршрутизации навыков. Он достигает точности декомпозиции на уровне 67,7% с помощью итеративной декомпозиции с учетом навыков (SAD), улучшая результат с 51,0% с p-значением менее 10^-6, и снижает использование окна контекста более чем на 99%.

arxiv arXiv cs.LG · 9 д назад

Определение поведения агентов через процедуры траекторий

Мы предлагаем метод идентификации агентов по их поведенческим отпечаткам, достигающий точности 85,7% при присвоении неизвестных траекторий правильным агентам. Используя ProcGrep, мы анализируем поведение кодирующих агентов в SWE-Bench, и находим, что модели из схожих периодов выпуска или distilled друг от друга демонстрируют более близкую поведенческую схожесть, с показателем дивергенции Дженсена-Шанна 0,25.

media AI News (smol.ai) · 4 д назад

Разрыв и прогресс открытия моделей GLM-5.2

Модель GLM-5.2 от Zhipu стала лучшей открытым весами, похвалена за свою производительность, приближенную к передовым, в повседневном использовании, с улучшением в задачах программирования и сокращением стоимости инференса на 1 млн токенов за счёт IndexShare. Она превзошла другие открытые модели в тестах по агентским задачам, достигнув 1266 Elo в тесте AA-Briefcase от Artificial Analysis, хотя только 3% задач были полностью выполнены лучшими моделями, что указывает на сохраняющиеся трудности в реальных долгосрочных агентских задачах.

arxiv arXiv cs.AI · 6 д назад

Анализ траекторий раскрывает структуру навыков, но не улучшает политики

Трехэтапный пайплайн извлекает библиотеки навыков из данных взаимодействия с интерфейсом, достигая высокой чистоты в пяти из восьми кластеров по сравнению с метками InteraSkill. Однако метод лишь слегка улучшает точность навыков-шагов на IW и не улучшает производительность на BrowseComp+ или ключевые метрики, что указывает на ограниченность переноса политики между доменами.

arxiv arXiv cs.LG · 6 д назад

Обучение больших языковых моделей для агентов с длительным жизненным циклом через перекрестную обобщение в разных областях

Новый фреймворк позволяет большим языковым моделям развивать способность "Соединить точки", что позволяет агентам с длительным жизненным циклом учиться на опыте и итеративно обновлять контекст своей среды. Фреймворк использует обучение с помощью вознаграждений с длинными последовательностями и пользовательскими задачами, чтобы стимулировать перекрестное обобщение в разных областях, демонстрируя эффективную работу вне распределения как в одной области, так и при переходах между областями.

arxiv arXiv cs.CL · 6 д назад

Нулевая задача агентных LLM извлекает патологию лёгких из повествований

Нулевая задача агентного потока, использующего открытые LLM, извлекает 13 синоптических полей Колледжа американских патологов из отчетов о патологических исследованиях лёгочной резекции. Наилучшая модель (GPT-OSS-20B) достигла значения Micro-F1 0.893, превосходя базовый уровень воспроизведения и точно отражая сложные патологические отношения без специализированного обучения.

arxiv arXiv cs.CL · 6 д назад

Стабилизация намерения инструмента в потоковом RAG

Исследование оценивает стабилизацию намерения инструмента в потоковом RAG, определяя момент, когда спекулятивные запросы на инструменты сходятся к правильным ответам. На бенчмарке CRAG 73,9% запросов позволяют значительное скрытие задержки, при этом ранняя стабилизация наблюдается в вопросах с прямым извлекаемым доказательством. Тип вопроса значительно предсказывает раннюю или позднюю стабилизацию, что позволяет определить, когда спекулятивные триггеры оказываются эффективными.

media r/LocalLLaMA · 6 д назад

North Mini Code: 4-битная квантование, поддержка Ollama и OpenRouter

Cohere Labs выпустил версию North Mini Code с квантованием на 4 бита на Hugging Face, что сократило её размер до примерно 20 ГБ для локальной работы на устройствах, таких как Mac. Модель теперь поддерживается в Ollama, локальных средах выполнения на базе llama.cpp, и через API OpenRouter, что улучшает доступность для разработчиков.

arxiv arXiv cs.AI · 7 д назад

CAPRA: Многоагентная система LLM для обратной связи по архитектуре программного обеспечения

CAPRA — это многоагентная система LLM, которая генерирует персонализированную, шаблонную обратную связь на LaTeX по доставляемым архитектурным материалам. Она использует специализированные агенты, PyMuPDF и gpt-4o для извлечения и анализа текста и диаграмм UML, при этом обеспечивается надежность за счёт фиксации доказательств и управления согласованностью. Предварительная оценка 10 отчётов студентов показала, что CAPRA выполнил 88,8% из восьми критериев и достиг среднего уровня согласия между оценщиками (kappa = 0,582), при этом каждый отчёт обрабатывался менее чем за 4 минуты.

arxiv arXiv cs.LG · 8 д назад

ReproRepo: масштабируемый аудит воспроизводимости с использованием Issue GitHub

ReproRepo представляет масштабируемую систему, использующую Issue GitHub для оценки воспроизводимости ML статей. Оно показывает, что агенты на основе LLM, такие как Codex с GPT-5.5, выявляют по крайней мере один блокирующий элемент, отмеченный человеком, в 90% из 1149 ML статей, подчеркивая их способность обнаруживать видимые сбои и семантические проблемы, хотя точная локализация остается ограниченной.

arxiv arXiv cs.CL · 8 д назад

ReproRepo: масштабирование аудитов воспроизводимости с использованием Issue GitHub

ReproRepo представляет масштабируемую архитектуру, использующую Issues GitHub для оценки воспроизводимости ML-статьй. Оно показывает, что агенты на основе LLM, такие как Codex с GPT-5.5, выявляют хотя бы один семантически связанный барьер в 90% пар статей и репозиториев без выполнения кода.

arxiv arXiv cs.AI · 8 д назад

ALERCЕ запускает систему текст-в-СУЛЬ с использованием больших языковых моделей

Астрономическая база данных ALeRCE представляет систему текст-в-СУЛЬ, использующую большие языковые модели, позволяющую генерировать исполняемые запросы SQL на естественном языке. Система была оценена на 110 парах естественного языка и SQL, и использует пошаговый подход, превосходящий базовые модели с прямым выводом. Модель Claude Opus 4.6 достигает высокой точности при выполнении простых запросов и показывает лучшую общую производительность среди всех оцененных моделей.

arxiv arXiv cs.AI · 8 д назад

ReproRepo: масштабирование аудитов воспроизводимости с помощью Issue GitHub

ReproRepo представляет масштабируемую архитектуру, использующую Issues GitHub для оценки воспроизводимости научных статей в области машинного обучения. Оно показывает, что агенты на основе языковых моделей, такие как Codex с GPT-5.5, выявляют хотя бы один барьер в 90% пар статей и репозиториев без выполнения кода, хотя точная локализация остаётся сложной задачей.

arxiv arXiv cs.CL · 8 д назад

SwiftTrans повышает эффективность перевода кода на основе ЛЛМ

SwiftTrans решает проблемы эффективности во время выполнения в переводе кода на основе ЛЛМ, вводя Multi-Perspective Exploration и Difference-Aware Selection. Фреймворк расширяет CodeNet, F2SBench и вводит SwiftBench для оценки производительности во время выполнения, демонстрируя стабильное улучшение как по правильности, так и по эффективности на различных тестовых наборах.

arxiv arXiv cs.CL · 8 д назад

GameCraft-Bench: Оценка полного генерирования игр

GameCraft-Bench представляет бенчмарк с 140 задачами Godot в 15 семействах игр для оценки способности код-агентов генерироватьPlayable игры. Оценки показывают, что лучший агент достигает лишь 41,46% успеха, что указывает на значительные трудности в создании полных, интерактивных игр с согласованной игрой и визуальной обратной связью.