Reasoning models
arxiv arXiv cs.AI · 8 д назад

T-API-совместимый цикл ReAct для оптических сетей

Вводится T-API-совместимый цикл ReAct с агентной архитектурой для оптических сетей, обеспечивающий управление на основе намерений и замкнутого цикла. Доменные специализированные композитные инструменты обеспечивают 90% оракульной проверки корректности и снижают использование токенов в три раза по сравнению с обобщенными инструментами.

arxiv arXiv cs.AI · 8 д назад

Теория поведения потребителей на основе больших языковых моделей: новая область исследований

В этой статье представлено понятие теории поведения потребителей на основе больших языковых моделей, новой области, анализирующей, как большие языковые модели принимают решения о потреблении от имени пользователей. Теория объединяет исследования по принятию решений на основе больших языковых моделей, имитации поведения человека и извлечению предпочтений в рамках экономических принципов, выявляя ключевые пробелы в допущениях, таких как рациональность и гетерогенность в агентных рынках.

arxiv arXiv cs.AI · 8 д назад

LegalHalluLens: аудит галлюцинаций в правовом ИИ

LegalHalluLens представляет рамку для аудита галлюцинаций ИИ в правовых контекстах, анализируя профили галлюцинаций при вводе по четырём категориям претензий. Оно выявляет разрыв в 38-40 баллов между претензиями о обязательствах/численных и временных претензиях, и показывает, что две системы с одинаковыми показателями 52% галлюцинаций могут иметь противоположные направления риска. Рамка использует индекс направления риска и калиброванные дебатные потоки для снижения обнаружения выдуманных данных на 45% и улучшения ответственности при внедрении правового ИИ.

arxiv arXiv cs.AI · 9 д назад

Катастрофическое забвение — это низкое ранговое: теория функционального пространства

Теория функционального пространства показывает, что катастрофическое забвение при непрерывной адаптации концентрируется в малом числе старых задач NTK-эйгенмодов. В случае линейного голова PEFT-CL с замороженным основанием, вектор забвения точно предсказуем до численной точности, с правилом Кронекера для уязвимого ранга.

arxiv arXiv cs.AI · 9 д назад

Влияние исходного языка в межязыковом обучении в контексте

Исследование показывает, что предположения, основанные на мелкой настройке, о межязыковом переносе не применимы в случае обучения в контексте с минимальным количеством примеров. Исследование показывает, что выбор исходного языка значительно влияет на производительность и выявляет новые эвристики для эффективного межязыкового обучения в контексте.

arxiv arXiv cs.AI · 9 д назад

ProvenanceGuard: проверка фактичности с учетом источника для агентов на основе LLM с использованием MCP

ProvenanceGuard вводит проверяющий модуль с учетом источника для агентов на основе LLM с использованием MCP, который обнаруживает пересечение источников путем направления утверждений к конкретным источникам доказательств и сравнения указанного источника с фактическим владением источником. Он достигает значения F1 по блокам 0,802 и точности по источникам 0,858 на 260 утверждениях, имеющих источники, превосходя базовые модели без учета источника, и обнаруживает все вставленные замены атрибутов в 50 клинических пробах.

arxiv arXiv cs.AI · 9 д назад

Синтетический личный опыт ИИ в поддержке уходчика

Модели обработки естественного языка могут генерировать ответы, похожие на реакции сверстников, имитирующие личные истории, создавая ложное впечатление о личном опыте. Психолингвистический анализ показывает, что ИИ использует меньше личных и ориентированных на прошлое выражений, чем люди, и часто фабрикует основу личного опыта. Это выявляет разрыв в искренности рассказа, требующий от систем ИИ различать поддерживающую формулировку от фабрикованного личного опыта.

arxiv arXiv cs.AI · 9 д назад

ScaFE: Использование больших языковых моделей для извлечения клинически значимых признаков шрамов

ScaFE предлагает использовать большие языковые модели как инженеров признаков для преобразования медицинских изображений в клинически интерпретируемые представления. Генерируя детерминированный код на языке Python из установленных критериев оценки шрамов, метод извлекает признаки, согласованные с клиническими шкалами, такими как шкала Ванкувера. Метод демонстрирует превосходную производительность при ограниченных данных, обладая преимуществами в эффективности использования данных, сохранении конфиденциальности и интерпретируемости.

arxiv arXiv cs.AI · 9 д назад

Кадровая ИИ-архитектура снижает ошибки диагностики в здравоохранении

Мультиагентная ИИ-архитектура решает проблему преждевременного передачи диагностики и тихих галлюцинаций в здравоохранении за счет обеспечения структурированного выполнения клинических протоколов и квантификации эпистемической неопределенности. Оценки на 150 симулированных случаях показывают точность диагностики в 49,3%, что на 11,3 процентных пункта превышает базовую величину, при этом наблюдается статистически значимая отрицательная корреляция между полнотой OLDCARTS и диагностической неопределенностью.

arxiv arXiv cs.AI · 9 д назад

HyGRAG: Единая платформа для контекст- и отношение-ориентированных графовых RAG

HyGRAG представляет иерархическую платформу для графовых RAG, которая интегрирует контекстуальную и относительную информацию через синтезированные резюме. Она обеспечивает извлечение эмерджентных знаний за счёт поиска, ориентированного на контекст и отношения, на разных уровнях абстракции и поддерживает динамические обновления с локальной пересборкой. Эксперименты показывают улучшение точности многократного рассуждения на 9,7%.

arxiv arXiv cs.AI · 9 д назад

IsabeLLM: AI-Driven Theorem Proving for Consensus Verification

IsabeLLM, автоматизированная система доказательства теорем в Isabelle, интегрирует архитектуру усиленного извлечения и генерации, отслеживание ошибок и генерацию контрпримеров для расширения контекста для больших языковых моделей. Обновленная версия демонстрирует улучшенную производительность при проверке протокола Proof of Work в Bitcoin по сравнению с оригинальной версией.

arxiv arXiv cs.AI · 9 д назад

Качествосознательная самодистилляция для подключения интерфейса

Новый метод улучшает подключение интерфейса с использованием мягких ворот, ориентированных на корректность, и масштабирования вероятности учителя для усиления сигналов учителя, связанных с координатами токенов. Эти компоненты работают совместно для подавления ненадежной поддержки и калибровки оставшихся сигналов, эксперименты показывают стабильное улучшение производительности на шести бенчмарках.

arxiv arXiv cs.AI · 9 д назад

ALERCЕ запускает систему текст-в-СУЛЬ с использованием больших языковых моделей

Астрономическая база данных ALeRCE представляет систему текст-в-СУЛЬ, использующую большие языковые модели, позволяющую генерировать исполняемые запросы SQL на естественном языке. Система была оценена на 110 парах естественного языка и SQL, и использует пошаговый подход, превосходящий базовые модели с прямым выводом. Модель Claude Opus 4.6 достигает высокой точности при выполнении простых запросов и показывает лучшую общую производительность среди всех оцененных моделей.

arxiv arXiv cs.AI · 9 д назад

Изучение справедливых парето-оптимальных политик в многокритериальной робастной обучении

Статья представляет рамку для многополитической многокритериальной робастной обучения, которая обучает набор парето-оптимальных политик, обеспечивающих справедливость в различных предпочтениях пользователей. В ней доказывается, что справедливые политики остаются в выпуклой области покрытия для вогнутых функций благосостояния, таких как GGF, и предлагаются три алгоритма, которые включают нестационарные и стохастические политики для адаптации к историческим несправедливостям. Эмпирические результаты показывают, что эти методы эффективно обучают справедливые политики в различных областях.

arxiv arXiv cs.AI · 9 д назад

Первое доказательство, вторая партия: ИИ проверен на задачах исследовательского уровня математики

Исследование оценивало несколько систем ИИ на десяти задачах исследовательского уровня математики, созданных выдающимися математиками. Результаты включают решения, сгенерированные ИИ, решения людей и отчеты редакторов, что позволяет провести подробную оценку производительности ИИ при решении сложных математических задач.

arxiv arXiv cs.AI · 9 д назад

Введение в COGNITIVE ATROSPHY BENCH для взаимодействий LLM в области психического здоровья

Новый бенчмарк COGNITIVE ATROSPHY BENCH оценивает, насколько LLM вызывают снижение когнитивных функций в диалогах по психическому здоровью. Создан на основе 1576 человеческих сессий консультаций и оценен клиническими экспертами, он выявляет паттерны, такие как директивные рекомендации и подтверждение, которые могут снижать автономность пользователя. Инструмент вводит метрики, такие как UIRI и ARI, для оценки риска снижения когнитивных функций и отслеживания поведенческих траекторий в ходе взаимодействий пользователя.

arxiv arXiv cs.AI · 9 д назад

Переиспользование метакnowledge в обучении с усилением

Новый фреймворк обучает уровень задач на упрощенном агенте и передает полученные знания на гетерогенные агенты. Он использует байесовские не-параметрические предпосылки и высокий уровень политики для генерации руководства по задачам, при этом применяет интерфейс семантической величины и временной адаптер для синхронизации метакnowledge с контроллерами, специфичными для воплощения. Эксперименты показывают снижение ошибки отслеживания на последнем шаге от 94,75% до 99,79% и сопоставимую производительность при использовании 23,8% данных взаимодействия по сравнению с методами передовых технологий.

arxiv arXiv cs.AI · 9 д назад

Продолжительность работы флеш-памяти как износа капитала в памяти робота

Продолжительность работы флеш-памяти робота является невозобновляемым активом, который изнашивается при каждом записи. Модель цен с учетом износа вводит теневую цену η, чтобы направлять размещение памяти между ОЗУ, НВМ и облаком, при этом оптимальное направление зависит от ассоциации значения-записи χ. Эмпирические измерения показывают, что χ положительна при долгосрочных манипуляциях, равна нулю при коротких задачах и отрицательна при телеманипуляции, и бюджет износа является ограничивающим только для низкокачественных памятей QLC/eMMC, где управление с учетом износа влияет на направление, основываясь на значении задачи, без улучшения производительности.

arxiv arXiv cs.AI · 9 д назад

WEQA: Вопросы о здоровье в носимых устройствах с адаптивным запросом агентской логики

WEQA представляет агентскую архитектуру, адаптирующую запросы, которая объединяет языковые модели с специализированными инструментами анализа данных в носимых устройствах. Она превосходит базовые модели LLM и агентов по точности на 24% и демонстрирует улучшенную полезность и клиническую надежность в экспертизных и пользовательских оценках.

arxiv arXiv cs.AI · 9 д назад

Разрыв в измерении в законодательстве Европейского союза по автоматизации

Большие языковые модели могут генерировать текст среднего качества, но нет бенчмарка, оценивающего их способность выполнять правовую доктринальную логику. Этот разрыв подрывает требование Европейского закона о искусственном интеллекте о "соответствующей точности" в судебных системах искусственного интеллекта, поскольку необходимая оценка доктринальной логики отсутствует.