Research paper
arxiv arXiv cs.AI · 17 ч назад

FACTOR обеспечивает адаптивную проверку фактичности в генерации длинных текстов

FACTOR представляет модель, работающую на этапе инференса, которая адаптирует критерии проверки в зависимости от неопределённости на уровне утверждений. Она повышает фактичность и снижает стоимость проверки, распределяя усилия динамически на высокорисковые утверждения, демонстрируя эффективную и модель-независимую производительность на бенчмарке FactScore.

arxiv arXiv cs.AI · 17 ч назад

VADAOrchestra: нейросимволическая оркестрация адаптивных рабочих процессов

VADAOrchestra представляет нейросимволическую архитектуру, сочетающую оркестрацию рабочих процессов на основе языковых моделей с синтаксическим рассуждением Datalog+/- . Она обеспечивает адаптивное и объяснимое принятие решений за счёт пошагового планирования рабочих процессов и выполнения логических выводов по требованию, предоставляя подтверждаемые следы, возможность аудита и масштабируемость при работе с большими наборами данных.

media r/LocalLLaMA · 17 ч назад

Мой микро-бенчмарк: насколько хорошо LLMs имитируют поведение смачивания?

Автор проводит бенчмаркинг LLMs при имитации поведения смачивания с использованием Surface Evolver, инструмента 1992 года для моделирования жидких поверхностей. LLMs оцениваются объективно путем сравнения их сгенерированных файлов данных с эталонными реализациями, при этом результаты показывают количество прошедших тестов и стоимость токенов для каждого модели.

arxiv arXiv cs.AI · 17 ч назад

SCOPE: Самоадаптивное символическое планирование для открытых сред

SCOPE представляет рамку, которая уточняет планы действий и развивает символические модели мира в открытых средах. Она объединяет Символьный исполнительный симулятор и Самоадаптивную символическую память для повышения полноты планов, устойчивости к возмущениям и переключаемости между задачами.

arxiv arXiv cs.AI · 17 ч назад

Агент на основе больших языковых моделей для проектирования направляющих купелей на основе силикон-на-изоляции

Большая языковая модель координирует проектирование силикон-на-изоляции 2x2 направляющей купели, предлагая значения зазоров и оценивая сходимость. Проектирование подтверждается симуляцией собственных модов и FDTD на общем двухмерном эффективном индексе, что показывает стабильное смещение фазы 2,837(11) микрометра, корректируемое в замкнутом процессе. Конечное устройство достигает равномерного распределения 50/50 с коэффициентом перекрещивания 0,498, в пределах 0,0017 от целевого значения.

lab Microsoft Research Blog · 18 ч назад

Talos: автоматизированный пересмотр геномных данных для диагностики редких заболеваний

Talos — это открытый инструмент, который автоматизирует итеративный пересмотр геномных данных для выявления диагнозов редких заболеваний. Он достиг 90% восстановления диагнозов в рамках охвата при только 1,3 кандидатных вариантах на пациента, и предоставил 241 новый диагноз среди 5 000 незапланированных пациентов, при этом большинство новых находок появлялись в течение 32 дней после публикации доказательств.

arxiv arXiv cs.AI · 18 ч назад

Предварительная обработка на стороне запроса повышает точность Edge AI

Структурированный фреймворк запроса повышает точность локальных моделей языковой модели при мониторинге окружающей среды за счет преобразования исходных данных сенсоров в обогащенные текстовые представления. Оценки на датасетах внутри и снаружи помещений показывают, что точность локальных моделей увеличивается с 50,9% до 81,7% внутри помещения и с 63,7% до 79,3% снаружи, при этом поддерживается низкая задержка в размере почти 0,22 секунды в режиме без цепочки мыслей.

arxiv arXiv cs.AI · 18 ч назад

Заземленное масштабирование: детерминизм как основное ограничение в агентной ИИ

Производительность агентной ИИ экспоненциально снижается в непредсказуемых средах, при этом успешность за k шагов уменьшается как δ^k, когда детерминизм на каждом шаге δ < 1. В статье представлены рамки, связывающие детерминизм среды с успешностью задачи, верифицируемостью и эволюцией навыков, предложены Индекс уверенности поставки и пятиуровневая модель зрелости детерминизма. В статье критически переосмысляются существующие взгляды, выделяя детерминизм как ограничивающий фактор в областях вычислений, данных, воплощения и синхронизации.

arxiv arXiv cs.AI · 19 ч назад

Fed-CausalDiff: Распределённая синхронизация для федеративной моделирования действий

Fed-CausalDiff вводит федеративную причинно-диффузионную архитектуру, которая позволяет проводить моделирование действий в распределённых средах. Она разделяет эволюцию скрытого состояния на глобальные и локальные компоненты, что позволяет обеспечить распределённую синхронизацию для снижения затрат на передачу данных, при сохранении точной оценки политики и оценки эффекта на среду (ATE).

arxiv arXiv cs.AI · 19 ч назад

Кадровая устойчивая оптимизация

Кадровая устойчивая оптимизация (GRO) вводит глубокую генеративную модель для определения множеств неопределенности, захватывая нелинейные корреляции, асимметрию и мультимодальность. Пятиуровневая оценочная рамка оценивает генеративные множества неопределенности на основе нейронных сетей по точности восстановления, соответствию распределению, латентной регулярности, устойчивой значимости и вычислительной применимости, эксперименты подтверждают эффективность GRO в планировании производства и расположении объектов.

arxiv arXiv cs.AI · 20 ч назад

Концептуально-ограниченное обучение промптов для малошотного адаптирования CLIP

CCPL вводит легкую архитектуру, которая фиксирует промпты классов к замороженным концептуальным прототипам, улучшая малошотное адаптирование CLIP. Метод достигает лучшей производительности на базе и новых данных на DTD и EuroSAT по сравнению с CoOp, с устойчивыми приростами за счёт регуляризации в пространстве текста, при этом сохраняя нейтральность на OxfordPets. Метод использует выпадение концептов и управляемое объединение на этапе инференса, результаты чувствительны к семантике датасета и протоколу.

arxiv arXiv cs.AI · 20 ч назад

Контекстуально-осознанное дистиллирование и аблация для Text2DSL

Новая система Text2DSL использует контекстуально-осознанное дистиллирование с структурированным контекстом, состоящим из грамматики BNF, спецификации API и закрытого словаря идентификаторов. Исследования аблации показывают, что словарь оказывает наибольшее влияние на семантическое качество, в то время как API и BNF значительно улучшают структурную корректность, что подтверждает структурированный контекст как критический и несущий компонент.

arxiv arXiv cs.AI · 20 ч назад

Универсализация на уровне CWE в системах наблюдения за системными вызовами

Одноклассный детектор аномалий, обученный на нормальном поведении CVE, принадлежащих к одной CWE-категории, может обобщаться на неизвестные CVE в той же категории, однако эффективность варьируется в зависимости от семейства CWE. Детектор CWE-307 достигает F1 = 0,6976 при уровне ложного положительного ответа 5%, в то время как CWE-89 и CWE-434 показывают плохие результаты, с F1 ≤ 0,21. Переобучение между CVE является направленным и определяется более шириной нормального профиля источника, чем категорией CWE.

arxiv arXiv cs.AI · 20 ч назад

Text2DSL: генерация кода на языках с определённой областью применения на основе языка естественной речи

В этой статье представлено Text2DSL, новая задача генерации кода на языках с определённой областью применения из естественного языка. Используя набор данных PolkitBench из 4204 проверенных пар, показывается, что структурированный контекст — такие как грамматика BNF и спецификации API — повышает синтаксическую и структурную корректность и показатели CodeBLEU на 60% до 95% при различных моделях языковых моделей, без тонкой настройки.

media r/LocalLLaMA · 20 ч назад

Модель Unlimited-OCR от Байду переводит десятки страниц за один проход

Байду выпустил модель Unlimited-OCR, которая переводит десятки страниц за один проход с использованием механизма Reference Sliding Window Attention (R-SWA). Модель основана на DeepSeek-OCR, наследуя его кодировщик, сжатие изображений и архитектуру MoE, при этом у неё всего 500 млн активных параметров на токен. Модель достигает точности 93,92% на OmniDocBench v1.6, превосходя результаты DeepSeek-OCR на v1.5 (87,01%), хотя результаты, предоставленные поставщиком, требуют независимой проверки.

arxiv arXiv cs.AI · 21 ч назад

PaperClaw: автономные исследования с вовлечением человека на этапе уточнения

PaperClaw — это многоагентная система, которая автономно проводит исследования от выбора направления до публикации статьи. Она использует проверенный итеративный цикл предложение-тест-отражение, основанный на реальных ссылках и выполнимых результатах, и обеспечивает вовлечение человека на любом этапе. Оценка показывает, что система создаёт сильные статьи как автономно, так и при участии человека.

arxiv arXiv cs.LG · 21 ч назад

Оптимальная субсэмплинг в RKHS для задачи надзора

В этой статье предлагается схема оптимальной субсэмплинга в пространствах репродуцируемых ядерных гильбертов, основанная на асимптотическом анализе эмпирического минимума риска с пересчетом по Horvitz-Thompson. Схема, полученная через след ковариационного оператора, доказана как реализуемая с помощью подстановки и показывает хорошие результаты на синтетических и реальных данных.

arxiv arXiv cs.LG · 21 ч назад

TeaNet улучшает обучение с небольшим количеством примеров в вибрационной спектроскопии

TeaNet, усиленный с точки зрения задачи, восстанавливает спектры, случайно скрытые, для генерации усредненных образцов, сохраняющих исходные спектральные особенности при введении специфических для области вариаций. Этот подход позволяет глубоким нейронным сетям более эффективно выявлять дискриминантные волновые числа, превосходя CNN на 17% в сложных синтетических сценариях и обеспечивая улучшенную интерпретируемость в задачах обучения с небольшим количеством примеров.

arxiv arXiv cs.LG · 21 ч назад

Топологические нейронные динамики: моделирование последовательностей по нейронам

Топологические нейронные динамики (TND) вводят рамку моделирования последовательностей по нейронам, при которой каждый нейрон развивается независимо через структуру направленного графа. В задаче копирования поведения одного игрока в игре Pong TND достигает среднего значения 17,47 последовательных перехватов за круг, превосходя все базовые модели более чем в три раза.

arxiv arXiv cs.LG · 21 ч назад

NASDAQ: Усреднённая динамика наблюдений с усилением Q-обучения

NASDAQ решает проблемы низкомерных наблюдений в обучении с усилением, нормализуя пространства наблюдений для балансировки потерь реконструкции. Оно интегрирует обучение оценок с краткосрочной оценкой и предсказанием следующего наблюдения, достигая конкурентоспособных или превосходных результатов с меньшим временем обучения в различных областях.