Результаты
Сортировка
Сбросить
lab Claude Code Releases · 9 д назад

Официальные заметки по выпуску Claude Code v2.1.181

Claude Code v2.1.181 вводит поддержку настройки параметров конфигурации через синтаксис промпта, например /config thinking=false, добавляет поддержку событий Apple в среде macOS и улучшает поведение потокового вывода, автоматического повтора и подагентов. Также исправлены множество ошибок, связанных с запуском, обработкой файлов, копированием и отзывчивостью интерфейса на разных платформах.

lab Claude Code Releases · 10 д назад

Примечания по выпуску Claude v2.1.178

Claude v2.1.178 вводит новые правила разрешений с использованием синтаксиса Tool(param:value), улучшает загрузку рабочих процессов и навыков в вложенных директориях, а также улучшает режим автоматического выполнения и сообщения об ошибках. В выпуске исправлены критические проблемы, включая сбои, ошибки аутентификации и поведение интерфейса в Chrome и VSCode, при этом улучшены запросы на инструменты и функция отмены действий.

arxiv arXiv cs.CL · 8 д назад

Неправильная синхронизация в больших языковых моделях: количественное исследование

Новое исследование представляет VETO — бенчмарк из 2032 пар контрастных примеров, полученных из BBQ, для количественной оценки неправильной синхронизации в больших языковых моделях. В нем определяется коэффициент неправильной синхронизации (MAR) и показывает, что все проверенные большие языковые модели демонстрируют значения MAR от 4,7% до 18,9%, в то время как люди достигают 0%. Исследование показывает, что сигналы синхронизации могут усиливать эти сбои, и доказательства подавления происходят в поздних слоях моделей и появляются после тренировки по инструкциям.

arxiv arXiv cs.CL · 8 д назад

Сети с раздраженной синхронизацией превосходят трансформеры

Сети с раздраженной синхронизацией (FSN) достигают более низкой ошибки валидации, чем трансформер с RoPE-SwiGLU на уровне символов и задачах по коду на каждом эпохе. При одном миллионе параметров FSN достигает ошибки валидации 1,5953 ± 0,0014, что превосходит достигнутую ошибку трансформера 1,611. Это преимущество сохраняется до четырёх миллионов параметров, при этом продолжаются оценки на более высоких масштабах.

arxiv arXiv cs.CL · 8 д назад

Редактирование вектора выхода снижает запоминание в языковых моделях

Новая методика, называемая редактированием вектора выхода, минимально изменяет векторы выхода нейронов MLP для подавления запомненных последовательностей в больших языковых моделях, достигая до 87,9% подавления в OLMo-7B. Этот подход превосходит нулевое изменение активаций нейронов в 2,7 раза и работает на четырех моделях с параметрами от 36 до 7B, при этом эффективность растет с увеличением размера модели и демонстрирует стабильную производительность при различных архитектурах.

arxiv arXiv cs.CL · 8 д назад

HandwritingAgent: синтез ручного почерка на основе языка в SVG

HandwritingAgent синтезирует естественный ручной почерк в формате SVG без специфического обучения стилю. Он использует большой модельный рациональный процесс для генерации последовательностей линий на сетке холста, с учетом текстового ввода и образца стиля, обеспечивая эффективное, управляемое и обобщаемое генерирование почерка.

arxiv arXiv cs.CL · 8 д назад

Данные рецептура повышает долгосрочное мышление в больших языковых моделях

Центрированный на данных подход улучшает долгосрочное мышление в больших языковых моделях, используя восемь отобранных наборов данных с 14 тысячами примерами в задачах поиска, синтеза многоуровневых доказательств и мышления. При сочетании с минимальным обучением на основе результатов GRPO достигается средний рост на 7,2 до 6,4 баллов на семи бенчмарках, превосходя предыдущие наборы обучения по релевантности, и улучшает агентную производительность на 4,8 и 7,0 баллов соответственно на GAIA и BrowseComp.

arxiv arXiv cs.CL · 8 д назад

REVES: Усиленное обучение для масштабирования на этапе тестирования

REVES представляет двухэтапную итерационную структуру, которая улучшает логическое мышление больших языковых моделей за счёт последовательного редактирования и проверки. Метод достигает +6,5 баллов по сравнению с базовыми RL и +4,0 балла по сравнению с стандартным многократным обучением на LiveCodeBench, используя базовую модель размером 4B и меньшее количество итераций по сравнению с более крупными системами. Метод улучшает исправление ошибок и обобщается на задачи вне распределения, такие как n_queens и mini_sudoku.

arxiv arXiv cs.CL · 8 д назад

SenFlow: Расширенная детекция текста, сгенерированного ИИ, в гибридных документах

SenFlow представляет новую методику детекции текста, сгенерированного ИИ, в гибридных документах, моделируя зависимости между предложениями. Он достигает наилучших результатов на MOSAIC, бенчмарке из 16 000 документов из PubMed и XSum, с ростом Macro-F1 на 4,15 пунктов при переходе между доменами. SenFlow показывает, что текст, сгенерированный ИИ, по-прежнему демонстрирует зависимости между предложениями, зависящие от генератора, которые могут быть использованы детекторами на уровне предложений, несмотря на фильтрацию по перплексности.

arxiv arXiv cs.CL · 8 д назад

Разделение поиска от рассуждений в агентах на основе языковых моделей

Разделенный поисковый фундамент (DSG) отделяет функциональность поиска от моделей рассуждений, обеспечивая вендор-независимый, настраиваемый и повторно используемый поисковый фундамент. DSG достигает почти естественной точности на SimpleQA с 91% меньшими затратами на поиск и 99,4% частотой попадания в тёплую кэш-память, одновременно снижая задержку на 68% и сохраняя краткие контракты выходных данных.

arxiv arXiv cs.CL · 8 д назад

GraphPO: графовая оптимизация политики для моделей рассуждения

GraphPO вводит направленную ациклическую графовую структуру для представления рассуждений, объединяя семантически эквивалентные пути для снижения избыточного исследования. Оно присваивает эффективность и корректность к рёбрам, улучшая эффективность инференса и надзор за процессом, одновременно снижая дисперсию оценки преимуществ. Эксперименты показывают, что GraphPO превосходит методы на основе цепей и деревьев на трёх моделях языковых моделей по задачам рассуждения и агентского поиска при одинаковых объёмах токенов или ответов.

arxiv arXiv cs.AI · 8 д назад

ProfiLLM: профилирование пользователей с ориентацией на полезность для распределения заказов в промышленных сервисах такси

ProfiLLM представляет агентную систему обработки больших моделей, которая извлекает поведенческие сигналы из журналов таксопарков для формирования профилей пользователей. Она обеспечивает увеличение относительного AUC до +6,14% и рост GMV до +4,35% в симуляциях распределения заказов, при этом в реальных онлайн-экспериментах A/B наблюдается стабильное улучшение на +0,47% GMV, +0,33% показателя выполнения заказа и снижение показателя отмены заказа до +0,82%.

arxiv arXiv cs.AI · 8 д назад

Самоусловленное присвоение кредитов для RL с подтверждаемыми вознаграждениями

SC-GRPO использует разность КЛ на уровне токена из самоусловленных траекторий для взвешивания градиентов в обучении с участием вознаграждений. Он превосходит GRPO на 8,1% и DAPO на 5,9% при выполнении задач по математике, программированию и агентским задачам, демонстрируя превосходную производительность при работе с распределениями, отличающимися от обучающих, и лучшие результаты по сравнению с OPD.

arxiv arXiv cs.AI · 8 д назад

Данные рецепт улучшает долгосрочное мышление в больших языковых моделях

Центрированный на данных подход улучшает долгосрочное мышление в больших языковых моделях, используя восемь отобранных наборов данных с 14 тысячами примерами в задачах поиска, синтеза многочисленных доказательств и мышления. При сочетании с минимальным обучением на основе результатов GRPO, он достигает средних приростов на 7,2 до 6,4 баллов на семи бенчмарках, превосходя предыдущие наборы для обучения по методу RL, и улучшает агентную производительность на 4,8 и 7,0 баллов соответственно на GAIA и BrowseComp.

arxiv arXiv cs.AI · 8 д назад

Skill-MAS: Эволюционная метаскилл для автоматических систем многоагентов

Skill-MAS вводит новый подход, который разделяет сохранение опыта от параметрических обновлений, моделируя оркестрацию как эволюционную метаскилл. Он использует замкнутый процесс, включающий многотраекторные развертывания и селективное отражение, для выделения повторно используемых принципов стратегии, обеспечивая значительные улучшения производительности и устойчивую переносимость между задачами и ЛЛМ.

arxiv arXiv cs.AI · 8 д назад

WorldLines: Оценка памяти агентов с долгосрочными горизонтами в условиях пребывания

WorldLines представляет проектную метрику для долгосрочных горизонтов пребывания в домашних условиях, захватывающую расширенные следы домашней среды с диалогами, действиями и изменениями состояния. Оно обеспечивает образцы, связанные с доказательствами, для задачи оценки памяти и планирования задач в условиях пребывания, и предлагает ObsMem — рамку памяти, основанную на наблюдении, поддерживающую память, учитывающую видимость, и решения, учитывающие состояние. Эксперименты подчеркивают трудности, связанные с частичной наблюдаемостью и переводом памяти, при этом ObsMem предлагает более сильную архитектуру для таких условий.

arxiv arXiv cs.AI · 8 д назад

Навык-ориентированная дистилляция для агентов интерфейса

SGCD вводит итеративную структуру для улучшения агентов интерфейса, решая пробелы в контроле в отклоненных состояниях. Он извлекает навыки как из успешных, так и из неудачных проходов, используя их для направления продолжения политики, смешанной с экспертными траекториями. На OSWorld-Verified SGCD повышает показатели успеха трех базовых моделей с уровня 30% до более чем 50%.

arxiv arXiv cs.AI · 8 д назад

Разделение поиска от рассуждений в агентах на основе языковых моделей

Разделение поиска для фундаментальной поддержки (DSG) отделяет функциональность поиска от моделей рассуждений, позволяя использовать поисковую поддержку, независимую от поставщика, настраиваемую и повторно используемую. DSG достигает почти естественной точности на SimpleQA с 91% меньшими затратами на поиск и 99,4% частотой попадания в тёплую кэш-память, одновременно снижая задержку на 68% и сохраняя краткие контракты вывода.

arxiv arXiv cs.AI · 8 д назад

RTSGameBench: Бенчмарк для стратегического мышления в играх

RTSGameBench решает ограничения существующих бенчмарков для игр в реальном времени, предлагая разнообразные игровые сценарии, направленную диагностику компетенций и генерацию сценариев, развивающихся самостоятельно. Он оценивает модели визуально-языковых моделей в стратегическом мышлении при неопределённости, показывая, что самые передовые модели сталкиваются с трудностями при координации нескольких агентов и выполнении масштабных задач.

arxiv arXiv cs.AI · 9 д назад

ThinkDeception: Интерпретируемая многомодальная система обнаружения лжи

ThinkDeception представляет прогрессивную систему обучения с усилением, позволяющую проводить интерпретируемое обнаружение лжи на основе нескольких модальностей. Она использует аннотированный пошаговый датасет Chain of Thought и предлагает метод оптимизации политики групп относительной визуальной-аудиальной согласованности с динамическим куррикулом, повышающий качество рассуждений и превосходящую существующие методы на основных бенчмарках.