Reasoning models
arxiv arXiv cs.CL · 8 д назад

Разделение поиска от рассуждений в агентах на основе языковых моделей

Разделенный поисковый фундамент (DSG) отделяет функциональность поиска от моделей рассуждений, обеспечивая вендор-независимый, настраиваемый и повторно используемый поисковый фундамент. DSG достигает почти естественной точности на SimpleQA с 91% меньшими затратами на поиск и 99,4% частотой попадания в тёплую кэш-память, одновременно снижая задержку на 68% и сохраняя краткие контракты выходных данных.

arxiv arXiv cs.CL · 8 д назад

GraphPO: графовая оптимизация политики для моделей рассуждения

GraphPO вводит направленную ациклическую графовую структуру для представления рассуждений, объединяя семантически эквивалентные пути для снижения избыточного исследования. Оно присваивает эффективность и корректность к рёбрам, улучшая эффективность инференса и надзор за процессом, одновременно снижая дисперсию оценки преимуществ. Эксперименты показывают, что GraphPO превосходит методы на основе цепей и деревьев на трёх моделях языковых моделей по задачам рассуждения и агентского поиска при одинаковых объёмах токенов или ответов.

arxiv arXiv cs.CL · 8 д назад

Оценка деменции на основе речи с компенсацией ошибок

Исследование повышает точность оценки деменции, используя речевые характеристики из теста Германии Syndrom-Kurz. Модели объединяют оценки транскрипта и встраивания Whisper, чтобы снизить ошибки оценки и приблизить экспертные оценки, компенсируя отсутствие моторных подтестов. Подход обеспечивает сильную корреляцию с экспертными оценками и эффективно различает группы когнитивного состояния.

arxiv arXiv cs.CL · 8 д назад

CADE: Прямое встраивание временных шагов для ответов на вопросы по временным рядам

CADE вводит прямое встраивание временных шагов и контрастную синхронизацию для сохранения структуры временных рядов в языковых моделях. Сопоставляя каждый временной шаг напрямую в пространстве встраиваемых языковых моделей, он избегает барьеров токенизации и превосходит существующие базовые решения на шести задачах TSQA.

arxiv arXiv cs.CL · 8 д назад

G-IdiomAlign: Бенчмарк с использованием глагольного опорного элемента для синхронизации идиом между языками

G-IdiomAlign вводит бенчмарк, основанный на глагольных опорных элементах, используя английские глагольные опоры из Wiktionary для фиксации идиом. В нём содержатся контролируемые многократные варианты эквивалентности и протоколы глагольного контрастного генерирования, что показывает, что глагольные опоры улучшают производительность в семантической синхронизации, хотя результаты остаются скромными, что указывает на значительный потенциал для улучшения синхронизации идиом между языками.

arxiv arXiv cs.CL · 8 д назад

Регулируемое слияние моделей для многозначного мышления

Регулируемое слияние моделей (ST-Merge) вводит механизм гаттерного перекрестного внимания для адаптивного взвешивания исходных моделей во время многозначного мышления. Оно превосходит существующие базовые варианты на четырех бенчмарках многозначного мышления на 21 языке за счет динамического приоритизации моделей на основе характеристик входных данных.

arxiv arXiv cs.CL · 8 д назад

Sumi: Открытая унифицированная модель распределенной генерации языка, построенная с нуля

Sumi — это модель распределенной генерации языка с 7 миллиардами параметров, предобученная с нуля на 1,5 трлн токенов. Она конкурирует с автокоррекционными моделями на задачах знаний, логики и программирования, но демонстрирует ухудшение на тестах по общей логике, вероятно, из-за преобладания в данных образовательного контента. Веса модели, точки сохранения и полная схема обучения доступны для публичного использования.

arxiv arXiv cs.CL · 8 д назад

Ведение как координационное управление в мультиагентных командах на основе LLM

Уровневое координационное управление приносит ценность только тогда, когда начальное большинство согласия неустойчиво, задача восстанавливаема и непод руководством взаимодействие не может исправить ошибки. При проведении экспериментов по различным моделям и задачам, ни один стиль ведения не превосходит других по точности, что соответствует теории контингентности, а не указывает на неудачу подхода.

arxiv arXiv cs.CL · 8 д назад

Устранение болезни индекса за счёт физической раздельности базовой и логической составляющих

В ходе 391-сессионного проекта по сотрудничеству ИИ были выявлены "синдром индекса" — неудача, при которой симметричная сложность приводит к самоссылочным выводам, оторванным от реальности. Принцип "Панга" утверждает, что естественный язык передаёт более высокое семантическое качество по сравнению с символическими системами, а механизм "физической раздельности базовой и логической составляющих" сократил объём инструкций ИИ на 75% и устранил повторение синдрома индекса в последующих сессиях.

arxiv arXiv cs.CL · 8 д назад

Выпущен набор данных по ручному письму на урду для исследований UHTR

Набор данных по ручному письму на урду (UKHD) — это новый набор данных для оценки офлайн-рукописных строк на урду, отобранный из исторических записей катиба в настальской каллиграфии. Он оценивает модели на основе CRNN, при этом архитектура CNN-BGRU-CTC показывает наименьшие ошибки, что делает её надежной базой для распознавания ручного письма на урду.

arxiv arXiv cs.CL · 8 д назад

Кадровый фреймворк человеческой-искусственной интеллект-совместной эволюции раскрывает появление социальной интеллектуальности

Фреймворк динамик человеческой-искусственной интеллект-совместной эволюции (HACD-H) вводит единый модель для долгосрочного взаимодействия человека и ИИ, интегрируя эмоциональную адаптацию, память и личность в самоорганизующуюся социальную когнитивную систему. Результаты показывают, что социальная интеллектуальность возникает через совместную эволюцию, при этом наблюдается значительная отрицательная корреляция между социальной интеллектуальностью и социальной когнитивной энергией (r = -0,391, p < 0,001), а также прогрессивное снижение энергии в траекториях взаимодействия со временем.

arxiv arXiv cs.AI · 8 д назад

Контроль обратной связи PID для интерпретируемого управления активацией в генерации музыки

В этой статье предложена двойная система управления с использованием ортогонализации Грама-Шмидта для разделения управления темпом и продолжительностью в генерации символической музыки. С помощью изоляции скрытых направлений с помощью DiffMean и применения обратной связи PID, достигается детерминированное, независимое модулирование свойств сигнала без переобучения, что снижает концептуальное пересечение и деградацию сигнала.

arxiv arXiv cs.AI · 8 д назад

SHIFT: Уменьшение языковой предвзятости в мультяжных системах поиска информации

SHIFT — это метод обучения без обучения, который устраняет языковую предвзятость в мультяжных системах поиска информации, используя параллельные переводы для оценки относительных языковых векторов. Он корректирует языковые смещения в векторах документов во время индексирования, что улучшает производительность поиска в различных моделях и тестах.

arxiv arXiv cs.AI · 8 д назад

ProfiLLM: профилирование пользователей с ориентацией на полезность для распределения заказов в промышленных сервисах такси

ProfiLLM представляет агентную систему обработки больших моделей, которая извлекает поведенческие сигналы из журналов таксопарков для формирования профилей пользователей. Она обеспечивает увеличение относительного AUC до +6,14% и рост GMV до +4,35% в симуляциях распределения заказов, при этом в реальных онлайн-экспериментах A/B наблюдается стабильное улучшение на +0,47% GMV, +0,33% показателя выполнения заказа и снижение показателя отмены заказа до +0,82%.

arxiv arXiv cs.AI · 8 д назад

Самоусловленное присвоение кредитов для RL с подтверждаемыми вознаграждениями

SC-GRPO использует разность КЛ на уровне токена из самоусловленных траекторий для взвешивания градиентов в обучении с участием вознаграждений. Он превосходит GRPO на 8,1% и DAPO на 5,9% при выполнении задач по математике, программированию и агентским задачам, демонстрируя превосходную производительность при работе с распределениями, отличающимися от обучающих, и лучшие результаты по сравнению с OPD.

arxiv arXiv cs.AI · 8 д назад

Рескалинг MLM-головы для нейроспартого поиска

Исследование показало, что большие нормы MLM-голов в предобученных кодерах ухудшают производительность спартического поиска в SPLADE. Введение простого рескалинга MLM-головы на этапе инициализации стабилизирует обучение и улучшает производительность, достигая или превосходя BERT-SPLADE на нескольких бенчмарках.

arxiv arXiv cs.AI · 8 д назад

Фундаментальные модели обучения с усилением должны быть уже существующими

Обучение с усилением не имеет фундаментальных моделей, несмотря на то, что синтетические МДП являются возможными. Прототип показывает, что одна модель, обученная на синтетических МДП, решает табличные задачи без настройки, превосходя существующие методы в онлайн-сценариях и соответствуя им в оффлайн-сценариях.

arxiv arXiv cs.AI · 8 д назад

Созревающие марковские процессы принятия решений вводят новый фреймворк принятия решений

Созревающие марковские процессы принятия решений (MMDPs) моделируют асимметричное развитие доступности информации и действий в последовательных решениях. Они вводят принцип приоритета по истечению действия и структура-ориентированный фреймворк репетитивного обучения, который повышает эффективность обучения, особенно в сложных и масштабируемых задачах принятия решений.

arxiv arXiv cs.AI · 8 д назад

Пространство — это интеллект: нейронная семигрупповая суперпозиция для генерации римановой метрики

Интеллект встроенный в само пространство, где сцены индуцируют риманову метрику на конфигурационных многообразиях. Одна сеть Encoder-Router использует семигрупповую суперпозицию для генерации этой метрики, обеспечивая нулевую обобщаемость на неизвестных конфигурациях препятствий с большими затратами между путями без столкновений и путями, проходящими через препятствия.

arxiv arXiv cs.AI · 8 д назад

Данные рецепт улучшает долгосрочное мышление в больших языковых моделях

Центрированный на данных подход улучшает долгосрочное мышление в больших языковых моделях, используя восемь отобранных наборов данных с 14 тысячами примерами в задачах поиска, синтеза многочисленных доказательств и мышления. При сочетании с минимальным обучением на основе результатов GRPO, он достигает средних приростов на 7,2 до 6,4 баллов на семи бенчмарках, превосходя предыдущие наборы для обучения по методу RL, и улучшает агентную производительность на 4,8 и 7,0 баллов соответственно на GAIA и BrowseComp.