Research paper
arxiv arXiv cs.AI · 15 ч назад

Саморазвивающаяся когнитивная структура для встроенной научной интеллектуальности

В статье предлагается саморазвивающаяся когнитивная структура, использующая каскадную модель мира для обеспечения того, что встроенные системы непрерывно уточняют свои внутренние модели через взаимодействие. Она интегрирует каскадное моделирование, рассуждение на основе вмешательства и непрерывное уточнение, переосмысливая встроенное взаимодействие как эпистемический процесс для открытия причин и приобретения знаний. Структура поддерживает переход от предиктивной к эпистемической интеллектуальности, включая новый бенчмарк для оценки саморазвивающейся встроенной научной интеллектуальности.

arxiv arXiv cs.AI · 15 ч назад

Разнообразие персонажей в историях, сгенерированных лингвистическими моделями

Этуд сравнивает персонажей в историях, сгенерированных лингвистическими моделями и написанных людьми, с использованием нарратологических параметров. Исследование показывает, что хотя лингвистические модели создают персонажей с похожими базовыми характеристиками, они не обладают разнообразием в сложных характеристиках персонажей, таких как стилизация и целостность. Исследование подчеркивает ключевые различия в глубине и разнообразии персонажей между историями, созданными людьми и машинами.

arxiv arXiv cs.AI · 16 ч назад

PRIME: Оценка разрешения запросов в противоречивых инструкциях

PRIME вводит рамку для анализа того, как большие языковые модели обрабатывают противоречивые инструкции, генерируя калиброванные противоречия в длине ответа, формате и логике. Исследование показывает, что тип противоречия оказывает большее влияние на поведение модели, чем размер модели, выявляя различные режимы сбоев в зависимости от категорий противоречий. Результаты подчёркивают необходимость осознания противоречий и указывают на то, что проверка соблюдения инструкций не может быть надёжно проведена на изолированных тестах.

arxiv arXiv cs.AI · 16 ч назад

FACTOR обеспечивает адаптивную проверку фактичности в генерации длинных текстов

FACTOR представляет модель, работающую на этапе инференса, которая адаптирует критерии проверки в зависимости от неопределённости на уровне утверждений. Она повышает фактичность и снижает стоимость проверки, распределяя усилия динамически на высокорисковые утверждения, демонстрируя эффективную и модель-независимую производительность на бенчмарке FactScore.

arxiv arXiv cs.AI · 16 ч назад

VADAOrchestra: нейросимволическая оркестрация адаптивных рабочих процессов

VADAOrchestra представляет нейросимволическую архитектуру, сочетающую оркестрацию рабочих процессов на основе языковых моделей с синтаксическим рассуждением Datalog+/- . Она обеспечивает адаптивное и объяснимое принятие решений за счёт пошагового планирования рабочих процессов и выполнения логических выводов по требованию, предоставляя подтверждаемые следы, возможность аудита и масштабируемость при работе с большими наборами данных.

media r/LocalLLaMA · 16 ч назад

Мой микро-бенчмарк: насколько хорошо LLMs имитируют поведение смачивания?

Автор проводит бенчмаркинг LLMs при имитации поведения смачивания с использованием Surface Evolver, инструмента 1992 года для моделирования жидких поверхностей. LLMs оцениваются объективно путем сравнения их сгенерированных файлов данных с эталонными реализациями, при этом результаты показывают количество прошедших тестов и стоимость токенов для каждого модели.

arxiv arXiv cs.AI · 16 ч назад

SCOPE: Самоадаптивное символическое планирование для открытых сред

SCOPE представляет рамку, которая уточняет планы действий и развивает символические модели мира в открытых средах. Она объединяет Символьный исполнительный симулятор и Самоадаптивную символическую память для повышения полноты планов, устойчивости к возмущениям и переключаемости между задачами.

arxiv arXiv cs.AI · 16 ч назад

Агент на основе больших языковых моделей для проектирования направляющих купелей на основе силикон-на-изоляции

Большая языковая модель координирует проектирование силикон-на-изоляции 2x2 направляющей купели, предлагая значения зазоров и оценивая сходимость. Проектирование подтверждается симуляцией собственных модов и FDTD на общем двухмерном эффективном индексе, что показывает стабильное смещение фазы 2,837(11) микрометра, корректируемое в замкнутом процессе. Конечное устройство достигает равномерного распределения 50/50 с коэффициентом перекрещивания 0,498, в пределах 0,0017 от целевого значения.

lab Microsoft Research Blog · 17 ч назад

Talos: автоматизированный пересмотр геномных данных для диагностики редких заболеваний

Talos — это открытый инструмент, который автоматизирует итеративный пересмотр геномных данных для выявления диагнозов редких заболеваний. Он достиг 90% восстановления диагнозов в рамках охвата при только 1,3 кандидатных вариантах на пациента, и предоставил 241 новый диагноз среди 5 000 незапланированных пациентов, при этом большинство новых находок появлялись в течение 32 дней после публикации доказательств.

arxiv arXiv cs.AI · 17 ч назад

Предварительная обработка на стороне запроса повышает точность Edge AI

Структурированный фреймворк запроса повышает точность локальных моделей языковой модели при мониторинге окружающей среды за счет преобразования исходных данных сенсоров в обогащенные текстовые представления. Оценки на датасетах внутри и снаружи помещений показывают, что точность локальных моделей увеличивается с 50,9% до 81,7% внутри помещения и с 63,7% до 79,3% снаружи, при этом поддерживается низкая задержка в размере почти 0,22 секунды в режиме без цепочки мыслей.

arxiv arXiv cs.AI · 17 ч назад

Заземленное масштабирование: детерминизм как основное ограничение в агентной ИИ

Производительность агентной ИИ экспоненциально снижается в непредсказуемых средах, при этом успешность за k шагов уменьшается как δ^k, когда детерминизм на каждом шаге δ < 1. В статье представлены рамки, связывающие детерминизм среды с успешностью задачи, верифицируемостью и эволюцией навыков, предложены Индекс уверенности поставки и пятиуровневая модель зрелости детерминизма. В статье критически переосмысляются существующие взгляды, выделяя детерминизм как ограничивающий фактор в областях вычислений, данных, воплощения и синхронизации.

arxiv arXiv cs.AI · 17 ч назад

Fed-CausalDiff: Распределённая синхронизация для федеративной моделирования действий

Fed-CausalDiff вводит федеративную причинно-диффузионную архитектуру, которая позволяет проводить моделирование действий в распределённых средах. Она разделяет эволюцию скрытого состояния на глобальные и локальные компоненты, что позволяет обеспечить распределённую синхронизацию для снижения затрат на передачу данных, при сохранении точной оценки политики и оценки эффекта на среду (ATE).

arxiv arXiv cs.AI · 18 ч назад

Кадровая устойчивая оптимизация

Кадровая устойчивая оптимизация (GRO) вводит глубокую генеративную модель для определения множеств неопределенности, захватывая нелинейные корреляции, асимметрию и мультимодальность. Пятиуровневая оценочная рамка оценивает генеративные множества неопределенности на основе нейронных сетей по точности восстановления, соответствию распределению, латентной регулярности, устойчивой значимости и вычислительной применимости, эксперименты подтверждают эффективность GRO в планировании производства и расположении объектов.

arxiv arXiv cs.AI · 19 ч назад

Концептуально-ограниченное обучение промптов для малошотного адаптирования CLIP

CCPL вводит легкую архитектуру, которая фиксирует промпты классов к замороженным концептуальным прототипам, улучшая малошотное адаптирование CLIP. Метод достигает лучшей производительности на базе и новых данных на DTD и EuroSAT по сравнению с CoOp, с устойчивыми приростами за счёт регуляризации в пространстве текста, при этом сохраняя нейтральность на OxfordPets. Метод использует выпадение концептов и управляемое объединение на этапе инференса, результаты чувствительны к семантике датасета и протоколу.

arxiv arXiv cs.AI · 19 ч назад

Контекстуально-осознанное дистиллирование и аблация для Text2DSL

Новая система Text2DSL использует контекстуально-осознанное дистиллирование с структурированным контекстом, состоящим из грамматики BNF, спецификации API и закрытого словаря идентификаторов. Исследования аблации показывают, что словарь оказывает наибольшее влияние на семантическое качество, в то время как API и BNF значительно улучшают структурную корректность, что подтверждает структурированный контекст как критический и несущий компонент.

arxiv arXiv cs.AI · 19 ч назад

Универсализация на уровне CWE в системах наблюдения за системными вызовами

Одноклассный детектор аномалий, обученный на нормальном поведении CVE, принадлежащих к одной CWE-категории, может обобщаться на неизвестные CVE в той же категории, однако эффективность варьируется в зависимости от семейства CWE. Детектор CWE-307 достигает F1 = 0,6976 при уровне ложного положительного ответа 5%, в то время как CWE-89 и CWE-434 показывают плохие результаты, с F1 ≤ 0,21. Переобучение между CVE является направленным и определяется более шириной нормального профиля источника, чем категорией CWE.

arxiv arXiv cs.AI · 19 ч назад

Text2DSL: генерация кода на языках с определённой областью применения на основе языка естественной речи

В этой статье представлено Text2DSL, новая задача генерации кода на языках с определённой областью применения из естественного языка. Используя набор данных PolkitBench из 4204 проверенных пар, показывается, что структурированный контекст — такие как грамматика BNF и спецификации API — повышает синтаксическую и структурную корректность и показатели CodeBLEU на 60% до 95% при различных моделях языковых моделей, без тонкой настройки.

media r/LocalLLaMA · 19 ч назад

Модель Unlimited-OCR от Байду переводит десятки страниц за один проход

Байду выпустил модель Unlimited-OCR, которая переводит десятки страниц за один проход с использованием механизма Reference Sliding Window Attention (R-SWA). Модель основана на DeepSeek-OCR, наследуя его кодировщик, сжатие изображений и архитектуру MoE, при этом у неё всего 500 млн активных параметров на токен. Модель достигает точности 93,92% на OmniDocBench v1.6, превосходя результаты DeepSeek-OCR на v1.5 (87,01%), хотя результаты, предоставленные поставщиком, требуют независимой проверки.

arxiv arXiv cs.AI · 20 ч назад

PaperClaw: автономные исследования с вовлечением человека на этапе уточнения

PaperClaw — это многоагентная система, которая автономно проводит исследования от выбора направления до публикации статьи. Она использует проверенный итеративный цикл предложение-тест-отражение, основанный на реальных ссылках и выполнимых результатах, и обеспечивает вовлечение человека на любом этапе. Оценка показывает, что система создаёт сильные статьи как автономно, так и при участии человека.

arxiv arXiv cs.LG · 20 ч назад

Оптимальная субсэмплинг в RKHS для задачи надзора

В этой статье предлагается схема оптимальной субсэмплинга в пространствах репродуцируемых ядерных гильбертов, основанная на асимптотическом анализе эмпирического минимума риска с пересчетом по Horvitz-Thompson. Схема, полученная через след ковариационного оператора, доказана как реализуемая с помощью подстановки и показывает хорошие результаты на синтетических и реальных данных.