Reasoning models
arxiv arXiv cs.AI · 8 д назад

TRUST: Метод с учетом доверия с использованием машин tSeTlin

TRUST позволяет пользователям указывать желаемую степень уверенности при генерации объяснений с помощью контрапримеров. С помощью прямой оптимизации по целям уверенности с использованием вероятностной машины tSeTlin и байесовой оптимизации, TRUST обеспечивает более устойчивые и интерпретируемые результаты по сравнению с традиционными методами на основе границ, достигая полной устойчивости с низкими затратами и высокой уверенностью на реальных данных.

arxiv arXiv cs.AI · 8 д назад

Робот использует опыт предыдущей команды для улучшения успеха спасательных операций в условиях городской разведки

Робот, инициализированный с выбранным предыдущим паттерном совместной работы, повысил успех спасательных операций в условиях городской разведки с 25,7% до 41,3%. Это улучшение сократило среднее время выполнения задачи на 283 секунды, при этом наибольшую пользу наблюдали на начальном этапе взаимодействия, что указывает на эффективную передачу раннего знания о задаче через эпизодическую память.

arxiv arXiv cs.AI · 8 д назад

Skill-MAS: Эволюционная метаскилл для автоматических систем многоагентов

Skill-MAS вводит новый подход, который разделяет сохранение опыта от параметрических обновлений, моделируя оркестрацию как эволюционную метаскилл. Он использует замкнутый процесс, включающий многотраекторные развертывания и селективное отражение, для выделения повторно используемых принципов стратегии, обеспечивая значительные улучшения производительности и устойчивую переносимость между задачами и ЛЛМ.

arxiv arXiv cs.AI · 8 д назад

WorldLines: Оценка памяти агентов с долгосрочными горизонтами в условиях пребывания

WorldLines представляет проектную метрику для долгосрочных горизонтов пребывания в домашних условиях, захватывающую расширенные следы домашней среды с диалогами, действиями и изменениями состояния. Оно обеспечивает образцы, связанные с доказательствами, для задачи оценки памяти и планирования задач в условиях пребывания, и предлагает ObsMem — рамку памяти, основанную на наблюдении, поддерживающую память, учитывающую видимость, и решения, учитывающие состояние. Эксперименты подчеркивают трудности, связанные с частичной наблюдаемостью и переводом памяти, при этом ObsMem предлагает более сильную архитектуру для таких условий.

arxiv arXiv cs.AI · 8 д назад

ImpSH улучшает обнаружение скрытого репрессивного содержания в разных областях

ImpSH, тройной фреймворк, сопоставляет посты с подразумеваемыми утверждениями и использует контекст-ограниченные полу-жесткие отрицания для улучшения обнаружения скрытого репрессивного содержания. Оценка на IHC, SBIC и DynaHate с использованием BERT и HateBERT показывает, что ImpSH превосходит стандартные методы, основанные на надзорной супервизии, в условиях перекрёстной области, демонстрируя улучшенную обобщаемость и стабильность.

arxiv arXiv cs.AI · 8 д назад

KinemaForge: синтез URDF из последовательностей RGB-D

KinemaForge одновременно определяет форму на уровне частей, топологию соединений и параметры на основе последовательностей RGB-D с использованием кинематического ограничительного графа и дифференцируемого решателя по винтовым осям. Результаты проверяются с помощью проверяющего устройства, обеспечивающего энергетическую согласованность, что снижает ошибку осей соединений и дрейф симуляции, при этом повышает успешность замкнутого управления на 14,6 процентных пунктов по сравнению с Ditto.

arxiv arXiv cs.AI · 8 д назад

Нейронные сети с учетом сдвига домена для оценки несбалансированных масс

Предлагается нейронная сеть с учетом сдвига домена для оценки несбалансированных масс в вращающихся системах при изменяющихся условиях. Модель использует максимальное среднее отклонение для синхронизации представлений признаков между различными рабочими доменами, повышая точность предсказания при том, что поведение системы отличается от условий обучения. Результаты показывают ее эффективность в приложениях мониторинга состояния конструкций.

arxiv arXiv cs.AI · 8 д назад

BeliefDiffusion: генеративное предсказательное планирование для навигации

BeliefDiffusion объединяет диффузионные модели для многомодальных представлений вероятностей с модельным предсказательным контролем для долгосрочного планирования навигации. Оно превосходит модельные безусловные методы обучения и другие генеративные подходы по успешности навигации и эффективности пути в частично наблюдаемых средах.

arxiv arXiv cs.AI · 8 д назад

Навык-ориентированная дистилляция для агентов интерфейса

SGCD вводит итеративную структуру для улучшения агентов интерфейса, решая пробелы в контроле в отклоненных состояниях. Он извлекает навыки как из успешных, так и из неудачных проходов, используя их для направления продолжения политики, смешанной с экспертными траекториями. На OSWorld-Verified SGCD повышает показатели успеха трех базовых моделей с уровня 30% до более чем 50%.

arxiv arXiv cs.AI · 8 д назад

SAERec: Частотные предпосылки намерений через разреженные автоэнкодеры

SAERec строит частотные, интерпретируемые предпосылки намерений из текстовых корпусов с помощью разреженных автоэнкодеров для разъединения семантики, связанной с намерениями. Он извлекает как личные, так и публичные намерения пользователей, направляя рекомендации с человеко-понятными объяснениями и превосходит современные модели на публичных датасетах.

arxiv arXiv cs.AI · 8 д назад

Модели ЛЛМ испытывают трудности с отрицанием в метафорической речи

Исследование показало, что большие языковые модели испытывают трудности при интерпретации отрицания в метафорической речи. Качество работы значительно варьируется в зависимости от стиля запроса, что подчеркивает ключевое ограничение в понимании сложных языковых конструкций в текущих моделях.

arxiv arXiv cs.AI · 8 д назад

Разделение поиска от рассуждений в агентах на основе языковых моделей

Разделение поиска для фундаментальной поддержки (DSG) отделяет функциональность поиска от моделей рассуждений, позволяя использовать поисковую поддержку, независимую от поставщика, настраиваемую и повторно используемую. DSG достигает почти естественной точности на SimpleQA с 91% меньшими затратами на поиск и 99,4% частотой попадания в тёплую кэш-память, одновременно снижая задержку на 68% и сохраняя краткие контракты вывода.

arxiv arXiv cs.AI · 8 д назад

RTSGameBench: Бенчмарк для стратегического мышления в играх

RTSGameBench решает ограничения существующих бенчмарков для игр в реальном времени, предлагая разнообразные игровые сценарии, направленную диагностику компетенций и генерацию сценариев, развивающихся самостоятельно. Он оценивает модели визуально-языковых моделей в стратегическом мышлении при неопределённости, показывая, что самые передовые модели сталкиваются с трудностями при координации нескольких агентов и выполнении масштабных задач.

arxiv arXiv cs.AI · 8 д назад

CADE: Прямое встраивание временных шагов для ответов на вопросы по временным рядам

CADE вводит прямое встраивание временных шагов и контрастную синхронизацию для сохранения метрической структуры в данных временных рядов. Сопоставляя каждый временной шаг напрямую в пространство векторных представлений LLM, он избегает барьеров токенизации и превосходит существующие базовые варианты LLM по шести задачам TSQA.

arxiv arXiv cs.AI · 8 д назад

ThinkDeception: Интерпретируемая многомодальная система обнаружения лжи

ThinkDeception представляет прогрессивную систему обучения с усилением, позволяющую проводить интерпретируемое обнаружение лжи на основе нескольких модальностей. Она использует аннотированный пошаговый датасет Chain of Thought и предлагает метод оптимизации политики групп относительной визуальной-аудиальной согласованности с динамическим куррикулом, повышающий качество рассуждений и превосходящую существующие методы на основных бенчмарках.

arxiv arXiv cs.AI · 8 д назад

G-IdiomAlign: Бенчмарк с использованием глаголов-пивотов для синхронизации идиом между языками

G-IdiomAlign вводит бенчмарк с использованием глаголов-пивотов, основанных на английских глаголах из Wiktionary, для фиксации идиом. В него включены протоколы контролируемого множественного выбора эквивалентности и глагольно-сравнительного генерирования, что показывает, что глаголы улучшают результаты в семантической синхронизации на основе встраивания, хотя результаты остаются скромными, что указывает на значительный потенциал для улучшения синхронизации идиом между языками.

arxiv arXiv cs.AI · 8 д назад

ЛСТМ-Видение Трансформер улучшает предсказание ошибок прогноза HRRR

Гибридная архитектура LSTM-Видение Трансформер улучшает предсказание ошибок прогноза HRRR за счёт интеграции профилей атмосферы из профилей мезонета. Она обеспечивает улучшение предсказания ошибок осадков до двукратного, особенно в периоды активного планетарного слоя, за счёт более точного отражения эволюции ошибок конвекции и снижения деградации, связанной с планетарным слоем.

arxiv arXiv cs.AI · 8 д назад

Изменчивость в программном обеспечении, созданном с помощью ИИ: Новый подход к разработке линейки продуктов

Экспериментальный анализ 10 проектов на языках C/C++, кодированных по принципу vibe, показывает практически нулевую изменчивость в артефактах, при этом все решения принимаются на этапе генерации. В статье предлагается подход Variability by Regeneration (VbR), в котором LLM выступает в роли двигателя дифференциации, генерируя настраиваемые бинарные файлы из декларативных спецификаций, при этом диспетчер вариантов направляет запросы пользователя на соответствующий бинарный файл. Vb-Р переносит изменчивость в спецификации, а не в код, предлагая новый парадигм для инженерии систем с переменными параметрами.

arxiv arXiv cs.AI · 8 д назад

РОДС: Награда-ориентированное онлайн-синтезирование данных для агентов с многократным использованием инструментов

РОДС решает проблему истощения образцов в многократном использовании инструментов в RL с помощью вариации вознаграждения для обнаружения границ способностей. Он синтезирует новые данные в реальном времени, соответствующие структурной сложности образцов на границах, и поддерживает динамический буфер повторного использования, который эволюционирует вместе с политикой. РОДС достигает производительности, сравнимой с 17-тысячным офлайн-пайплайном, при 20 раз меньшем количестве траекторий.

arxiv arXiv cs.AI · 8 д назад

ARIADNE: Агностичное маршрутизация для выбора адаптеров на этапе инференса

ARIADNE обеспечивает динамический, без обучения выбор адаптера на этапе инференса, используя центроиды из векторных представлений данных обучения адаптеров. Он выбирает наиболее подходящий адаптер на основе близости в латентном пространстве, не требуя доступа к внутренним структурам адаптеров или дополнительного обучения, и достигает средней точности выбора 89,7% по 44 задачам в области NLP.