Все статьи
arxiv arXiv cs.AI · 13 д назад

KinemaForge: синтез URDF из последовательностей RGB-D

KinemaForge одновременно определяет форму на уровне частей, топологию соединений и параметры на основе последовательностей RGB-D с использованием кинематического ограничительного графа и дифференцируемого решателя по винтовым осям. Результаты проверяются с помощью проверяющего устройства, обеспечивающего энергетическую согласованность, что снижает ошибку осей соединений и дрейф симуляции, при этом повышает успешность замкнутого управления на 14,6 процентных пунктов по сравнению с Ditto.

arxiv arXiv cs.AI · 13 д назад

Масштабирование системы аварийного торможения с использованием огромных объемов непримечаемых данных через мета-обратную связь в semi-supervised learning

Мета-обратная связь в полуосуществленном обучении позволяет масштабировать систему аварийного торможения с использованием огромных объемов непримечаемых данных из автопарков. Устойчивый подход снижает ошибки псевдометок за счет разъединения, учитывающего шум, и псевдометки, основанные на кинематике, что повышает безопасность за счет соотношения 100:1 между положительными и ложными активациями и на 35% больше километров без аварий по сравнению с системами на основе правил.

arxiv arXiv cs.AI · 13 д назад

Xcientist: Внешняя синтезация и проверка исследований в ИИ-исследователях

Xcientist представляет исследовательскую платформу, которая внешнюю синтезацию и делает видимыми процессы мышления в ИИ-исследователях. Она сохраняет отслеживаемые, договорно-управляемые исследовательские артефакты от формулирования проблемы до проверки, решая проблему смещения утверждений и обеспечивая научную ответственность.

arxiv arXiv cs.AI · 13 д назад

Нейронные сети с учетом сдвига домена для оценки несбалансированных масс

Предлагается нейронная сеть с учетом сдвига домена для оценки несбалансированных масс в вращающихся системах при изменяющихся условиях. Модель использует максимальное среднее отклонение для синхронизации представлений признаков между различными рабочими доменами, повышая точность предсказания при том, что поведение системы отличается от условий обучения. Результаты показывают ее эффективность в приложениях мониторинга состояния конструкций.

arxiv arXiv cs.AI · 13 д назад

BeliefDiffusion: генеративное предсказательное планирование для навигации

BeliefDiffusion объединяет диффузионные модели для многомодальных представлений вероятностей с модельным предсказательным контролем для долгосрочного планирования навигации. Оно превосходит модельные безусловные методы обучения и другие генеративные подходы по успешности навигации и эффективности пути в частично наблюдаемых средах.

arxiv arXiv cs.AI · 13 д назад

Навык-ориентированная дистилляция для агентов интерфейса

SGCD вводит итеративную структуру для улучшения агентов интерфейса, решая пробелы в контроле в отклоненных состояниях. Он извлекает навыки как из успешных, так и из неудачных проходов, используя их для направления продолжения политики, смешанной с экспертными траекториями. На OSWorld-Verified SGCD повышает показатели успеха трех базовых моделей с уровня 30% до более чем 50%.

arxiv arXiv cs.AI · 13 д назад

SAERec: Частотные предпосылки намерений через разреженные автоэнкодеры

SAERec строит частотные, интерпретируемые предпосылки намерений из текстовых корпусов с помощью разреженных автоэнкодеров для разъединения семантики, связанной с намерениями. Он извлекает как личные, так и публичные намерения пользователей, направляя рекомендации с человеко-понятными объяснениями и превосходит современные модели на публичных датасетах.

arxiv arXiv cs.AI · 13 д назад

Модели ЛЛМ испытывают трудности с отрицанием в метафорической речи

Исследование показало, что большие языковые модели испытывают трудности при интерпретации отрицания в метафорической речи. Качество работы значительно варьируется в зависимости от стиля запроса, что подчеркивает ключевое ограничение в понимании сложных языковых конструкций в текущих моделях.

arxiv arXiv cs.AI · 13 д назад

TransitNet достигает точности 95,2% при поиске транзитов в условиях низкого уровня шума

TransitNet, компактная архитектура глубокого обучения с усилением внимания, достигает точности 95,2% при поиске транзитов в условиях низкого уровня шума, превосходя TLS и BLS по значениям ROC-AUC и PR-AP. Он восстанавливает 93,0% введенных транзитов размером Земли и подземной Земли, 97,4% введенных транзитов полностью охвачены оцененными окнами транзита, и успешно восстанавливает все 34 подтвержденных планет Кеплера с средней ошибкой в середине 1,24 часа.

arxiv arXiv cs.AI · 13 д назад

SciRisk-Bench: Бенчмарк, ориентированный на оценку рисков в области безопасности AI4Science

SciRisk-Bench представляет бенчмарк для оценки безопасности AI4Science, оценивающий модели по 7 дисциплинам, 31 поддисциплине и 10 рискам. Он оценивает как основные, так и научно ориентированные LLMs, чтобы выявить конкретные пробелы в распознавании и избежании рисков в высокорисковых научных контекстах.

arxiv arXiv cs.AI · 13 д назад

Разделение поиска от рассуждений в агентах на основе языковых моделей

Разделение поиска для фундаментальной поддержки (DSG) отделяет функциональность поиска от моделей рассуждений, позволяя использовать поисковую поддержку, независимую от поставщика, настраиваемую и повторно используемую. DSG достигает почти естественной точности на SimpleQA с 91% меньшими затратами на поиск и 99,4% частотой попадания в тёплую кэш-память, одновременно снижая задержку на 68% и сохраняя краткие контракты вывода.

arxiv arXiv cs.AI · 13 д назад

RTSGameBench: Бенчмарк для стратегического мышления в играх

RTSGameBench решает ограничения существующих бенчмарков для игр в реальном времени, предлагая разнообразные игровые сценарии, направленную диагностику компетенций и генерацию сценариев, развивающихся самостоятельно. Он оценивает модели визуально-языковых моделей в стратегическом мышлении при неопределённости, показывая, что самые передовые модели сталкиваются с трудностями при координации нескольких агентов и выполнении масштабных задач.

arxiv arXiv cs.AI · 13 д назад

Квантовая аугментация GAN не показывает преимуществ в МРТ мозга

Контролируемый бенчмарк не выявил значимого роста производительности за счёт квантовых генеративных моделей при аугментации МРТ мозга. Синтетические образцы, созданные квантовыми и классическими GAN-моделями, статистически не различались, и оба типа моделей демонстрировали коллапс моделей и образцы за пределами распределения, особенно при низких долях данных. Исследование заключает, что квантовая аугментация не обеспечивает значимого расширения данных и действует скорее как регуляризация.

arxiv arXiv cs.AI · 13 д назад

CAPRA: Многоагентная система LLM для обратной связи по архитектуре программного обеспечения

CAPRA — это многоагентная система LLM, которая генерирует персонализированную, шаблонную обратную связь на LaTeX по доставляемым архитектурным материалам. Она использует специализированные агенты, PyMuPDF и gpt-4o для извлечения и анализа текста и диаграмм UML, при этом обеспечивается надежность за счёт фиксации доказательств и управления согласованностью. Предварительная оценка 10 отчётов студентов показала, что CAPRA выполнил 88,8% из восьми критериев и достиг среднего уровня согласия между оценщиками (kappa = 0,582), при этом каждый отчёт обрабатывался менее чем за 4 минуты.

arxiv arXiv cs.AI · 13 д назад

CADE: Прямое встраивание временных шагов для ответов на вопросы по временным рядам

CADE вводит прямое встраивание временных шагов и контрастную синхронизацию для сохранения метрической структуры в данных временных рядов. Сопоставляя каждый временной шаг напрямую в пространство векторных представлений LLM, он избегает барьеров токенизации и превосходит существующие базовые варианты LLM по шести задачам TSQA.

arxiv arXiv cs.AI · 13 д назад

ThinkDeception: Интерпретируемая многомодальная система обнаружения лжи

ThinkDeception представляет прогрессивную систему обучения с усилением, позволяющую проводить интерпретируемое обнаружение лжи на основе нескольких модальностей. Она использует аннотированный пошаговый датасет Chain of Thought и предлагает метод оптимизации политики групп относительной визуальной-аудиальной согласованности с динамическим куррикулом, повышающий качество рассуждений и превосходящую существующие методы на основных бенчмарках.

arxiv arXiv cs.AI · 13 д назад

G-IdiomAlign: Бенчмарк с использованием глаголов-пивотов для синхронизации идиом между языками

G-IdiomAlign вводит бенчмарк с использованием глаголов-пивотов, основанных на английских глаголах из Wiktionary, для фиксации идиом. В него включены протоколы контролируемого множественного выбора эквивалентности и глагольно-сравнительного генерирования, что показывает, что глаголы улучшают результаты в семантической синхронизации на основе встраивания, хотя результаты остаются скромными, что указывает на значительный потенциал для улучшения синхронизации идиом между языками.

arxiv arXiv cs.AI · 13 д назад

TRAP: Бенчмарк для выполнения задач и устойчивости к активному извлечению приватной информации

TRAP оценивает, насколько хорошо модели выполняют задачи с использованием приватных данных без их утечки. При анализе 22 моделей все показывают не тривиальную утечку приватной информации, причем способность следовать инструкциям связана с более высокой утечкой. Структурная изоляция приватных полей предотвращает утечку, заменяя приватные поля на хеш-ключи, сохраняя точность выполнения задач без ущерба для приватности.

arxiv arXiv cs.AI · 13 д назад

Фокус: Использование GPU Spot для ускорения постобучивания DiT RL

Фокус позволяет осуществлять постобучивание DiT RL за счёт использования пустых GPU Spot, снижая расходы на 1,4–6,4 раза при достижении превосходного качества изображений. Оно использует устаревшие веса модели при исследовании и динамически перестраивает последовательную параллельность в реальном времени, обеспечивая эффективное использование GPU без нарушения обучающих цепочек.

arxiv arXiv cs.AI · 13 д назад

FoMoE преодолевает порог полных копий с помощью разделенных экспертиз слоев

FoMoE представляет систему, которая распределяет экспертизные слои между рабочими, чтобы избежать полных копий модели, снижая затраты на коммуникацию до 1,42 раза по сравнению с эффективными базовыми вариантами и до 45,44 раза по сравнению с DDP. Система достигает увеличения производительности до 1,4 раза за счёт механизма пропуска токенов и демонстрирует стабильную маршрутизацию, с прогнозируемыми преимуществами, распространяющимися на модели масштаба 100B, за счёт системного моделирования.