Reasoning models
arxiv arXiv cs.AI · 8 д назад

Синтетический личный опыт ИИ в поддержке уходчика

Модели обработки естественного языка могут генерировать ответы, похожие на реакции сверстников, имитирующие личные истории, создавая ложное впечатление о личном опыте. Психолингвистический анализ показывает, что ИИ использует меньше личных и ориентированных на прошлое выражений, чем люди, и часто фабрикует основу личного опыта. Это выявляет разрыв в искренности рассказа, требующий от систем ИИ различать поддерживающую формулировку от фабрикованного личного опыта.

arxiv arXiv cs.AI · 8 д назад

ScaFE: Использование больших языковых моделей для извлечения клинически значимых признаков шрамов

ScaFE предлагает использовать большие языковые модели как инженеров признаков для преобразования медицинских изображений в клинически интерпретируемые представления. Генерируя детерминированный код на языке Python из установленных критериев оценки шрамов, метод извлекает признаки, согласованные с клиническими шкалами, такими как шкала Ванкувера. Метод демонстрирует превосходную производительность при ограниченных данных, обладая преимуществами в эффективности использования данных, сохранении конфиденциальности и интерпретируемости.

arxiv arXiv cs.AI · 8 д назад

Кадровая ИИ-архитектура снижает ошибки диагностики в здравоохранении

Мультиагентная ИИ-архитектура решает проблему преждевременного передачи диагностики и тихих галлюцинаций в здравоохранении за счет обеспечения структурированного выполнения клинических протоколов и квантификации эпистемической неопределенности. Оценки на 150 симулированных случаях показывают точность диагностики в 49,3%, что на 11,3 процентных пункта превышает базовую величину, при этом наблюдается статистически значимая отрицательная корреляция между полнотой OLDCARTS и диагностической неопределенностью.

arxiv arXiv cs.AI · 8 д назад

HyGRAG: Единая платформа для контекст- и отношение-ориентированных графовых RAG

HyGRAG представляет иерархическую платформу для графовых RAG, которая интегрирует контекстуальную и относительную информацию через синтезированные резюме. Она обеспечивает извлечение эмерджентных знаний за счёт поиска, ориентированного на контекст и отношения, на разных уровнях абстракции и поддерживает динамические обновления с локальной пересборкой. Эксперименты показывают улучшение точности многократного рассуждения на 9,7%.

arxiv arXiv cs.AI · 8 д назад

IsabeLLM: AI-Driven Theorem Proving for Consensus Verification

IsabeLLM, автоматизированная система доказательства теорем в Isabelle, интегрирует архитектуру усиленного извлечения и генерации, отслеживание ошибок и генерацию контрпримеров для расширения контекста для больших языковых моделей. Обновленная версия демонстрирует улучшенную производительность при проверке протокола Proof of Work в Bitcoin по сравнению с оригинальной версией.

arxiv arXiv cs.AI · 8 д назад

Качествосознательная самодистилляция для подключения интерфейса

Новый метод улучшает подключение интерфейса с использованием мягких ворот, ориентированных на корректность, и масштабирования вероятности учителя для усиления сигналов учителя, связанных с координатами токенов. Эти компоненты работают совместно для подавления ненадежной поддержки и калибровки оставшихся сигналов, эксперименты показывают стабильное улучшение производительности на шести бенчмарках.

arxiv arXiv cs.AI · 8 д назад

ALERCЕ запускает систему текст-в-СУЛЬ с использованием больших языковых моделей

Астрономическая база данных ALeRCE представляет систему текст-в-СУЛЬ, использующую большие языковые модели, позволяющую генерировать исполняемые запросы SQL на естественном языке. Система была оценена на 110 парах естественного языка и SQL, и использует пошаговый подход, превосходящий базовые модели с прямым выводом. Модель Claude Opus 4.6 достигает высокой точности при выполнении простых запросов и показывает лучшую общую производительность среди всех оцененных моделей.

arxiv arXiv cs.AI · 8 д назад

Изучение справедливых парето-оптимальных политик в многокритериальной робастной обучении

Статья представляет рамку для многополитической многокритериальной робастной обучения, которая обучает набор парето-оптимальных политик, обеспечивающих справедливость в различных предпочтениях пользователей. В ней доказывается, что справедливые политики остаются в выпуклой области покрытия для вогнутых функций благосостояния, таких как GGF, и предлагаются три алгоритма, которые включают нестационарные и стохастические политики для адаптации к историческим несправедливостям. Эмпирические результаты показывают, что эти методы эффективно обучают справедливые политики в различных областях.

arxiv arXiv cs.AI · 8 д назад

Первое доказательство, вторая партия: ИИ проверен на задачах исследовательского уровня математики

Исследование оценивало несколько систем ИИ на десяти задачах исследовательского уровня математики, созданных выдающимися математиками. Результаты включают решения, сгенерированные ИИ, решения людей и отчеты редакторов, что позволяет провести подробную оценку производительности ИИ при решении сложных математических задач.

arxiv arXiv cs.AI · 8 д назад

Введение в COGNITIVE ATROSPHY BENCH для взаимодействий LLM в области психического здоровья

Новый бенчмарк COGNITIVE ATROSPHY BENCH оценивает, насколько LLM вызывают снижение когнитивных функций в диалогах по психическому здоровью. Создан на основе 1576 человеческих сессий консультаций и оценен клиническими экспертами, он выявляет паттерны, такие как директивные рекомендации и подтверждение, которые могут снижать автономность пользователя. Инструмент вводит метрики, такие как UIRI и ARI, для оценки риска снижения когнитивных функций и отслеживания поведенческих траекторий в ходе взаимодействий пользователя.

arxiv arXiv cs.AI · 8 д назад

Переиспользование метакnowledge в обучении с усилением

Новый фреймворк обучает уровень задач на упрощенном агенте и передает полученные знания на гетерогенные агенты. Он использует байесовские не-параметрические предпосылки и высокий уровень политики для генерации руководства по задачам, при этом применяет интерфейс семантической величины и временной адаптер для синхронизации метакnowledge с контроллерами, специфичными для воплощения. Эксперименты показывают снижение ошибки отслеживания на последнем шаге от 94,75% до 99,79% и сопоставимую производительность при использовании 23,8% данных взаимодействия по сравнению с методами передовых технологий.

arxiv arXiv cs.AI · 8 д назад

Продолжительность работы флеш-памяти как износа капитала в памяти робота

Продолжительность работы флеш-памяти робота является невозобновляемым активом, который изнашивается при каждом записи. Модель цен с учетом износа вводит теневую цену η, чтобы направлять размещение памяти между ОЗУ, НВМ и облаком, при этом оптимальное направление зависит от ассоциации значения-записи χ. Эмпирические измерения показывают, что χ положительна при долгосрочных манипуляциях, равна нулю при коротких задачах и отрицательна при телеманипуляции, и бюджет износа является ограничивающим только для низкокачественных памятей QLC/eMMC, где управление с учетом износа влияет на направление, основываясь на значении задачи, без улучшения производительности.

arxiv arXiv cs.AI · 8 д назад

WEQA: Вопросы о здоровье в носимых устройствах с адаптивным запросом агентской логики

WEQA представляет агентскую архитектуру, адаптирующую запросы, которая объединяет языковые модели с специализированными инструментами анализа данных в носимых устройствах. Она превосходит базовые модели LLM и агентов по точности на 24% и демонстрирует улучшенную полезность и клиническую надежность в экспертизных и пользовательских оценках.

arxiv arXiv cs.AI · 8 д назад

Разрыв в измерении в законодательстве Европейского союза по автоматизации

Большие языковые модели могут генерировать текст среднего качества, но нет бенчмарка, оценивающего их способность выполнять правовую доктринальную логику. Этот разрыв подрывает требование Европейского закона о искусственном интеллекте о "соответствующей точности" в судебных системах искусственного интеллекта, поскольку необходимая оценка доктринальной логики отсутствует.

arxiv arXiv cs.AI · 8 д назад

LEADS: агентское открытие гибридных моделей для кардиальной электрофизиологии

LEADS предлагает рамку, использующую агента LLM для открытия гибридных моделей кардиальной электрофизиологии через итеративный цикл рассуждения и действий. Он формулирует доменную знания как структурированное пространство действий, что позволяет создавать физически обоснованные, интерпретируемые и численно стабильные модели, превосходя как человечески спроектированные, так и другие подходы на основе LLM на синтетических и реальных кардиальных данных.

arxiv arXiv cs.AI · 8 д назад

ReAge3D: Реалистичное 3D-преобразование возраста лиц с сохранением видов

ReAge3D представляет рамку для реалистичного и сохраняющего идентичность 3D преобразования возраста лиц. Оно использует 2D модель диффузии и центр-на-внешнюю редактирование для обеспечения согласованности во всех видах, сохраняя мелкие детали, связанные с возрастом, через маскированную диффузию и реконструкцию вида.

arxiv arXiv cs.AI · 8 д назад

Колмогоровская регрессия для устойчивых диффузионных политик

Обратное уравнение Колмогорова поднимает диффузионные политики в пространство Камерона-Мартин, заменяя стохастическую сопоставимость на детерминированное дифференциальное уравнение. Этот подход достигает границ сходимости, связанных с эффективным рангом ядра, улучшает регулярность траектории и включает детектор сбоев без вознаграждений, показывая на 17% больший результат и на 67,6% меньшее дрейф на PushT, а также на 28,4% меньшую RMSE с идеальным обнаружением узкого места на производственной линии. Теория гамильтон-якоби снижает количество сбоев в симуляциях на 96%.

arxiv arXiv cs.AI · 8 д назад

DRFLOW: Бенчмарк для предсказания персонализированных рабочих процессов

DRFLOW вводит бенчмарк для оценки способности агентов предсказывать персонализированные рабочие процессы на основе разнородных источников. В нём содержится 100 задач в пяти областях, основанных на 3900 источниках и включающих 1246 ссылок на рабочие процессы. DRFLOW-Agent достигает улучшения F1 до 10,02% по сравнению с базовыми моделями, однако остаются значительные трудности в точном предсказании рабочих процессов.

arxiv arXiv cs.AI · 8 д назад

Внешний выпуск данных по заявкам Стэнфорда

Стэнфорд представляет SEFD, открытую, лаи-точную реконструкцию заявлений SEC в формате MultiMarkdown. Данный набор данных SEFD-v1 объемом 152 миллиарда токенов позволяет проводить финансовые моделирования и включает бенчмарки для прогнозирования и транскрипции таблиц, при этом пересечения с Common Crawl составляют менее 0,1%.

arxiv arXiv cs.AI · 8 д назад

RubricsTree: масштабируемая система оценки для персональных агентов здравоохранения

RubricsTree вводит иерархическую классификацию более 100 клинически подтвержденных булевых рубрик, эволюционировавших из 4 000 реальных запросов пользователей при помощи ручной коррекции. Оно позволяет масштабируемо оценивать персональные агенты здравоохранения с учетом экспертных критериев, динамически направляя запросы в соответствующие рубрики и превосходит базовые методы по степени синхронизации, обнаружению деградации контекста и обеспечивает рост производительности моделей до 66% на HealthBench.