Reasoning models
arxiv arXiv cs.AI · 8 д назад

DRFLOW: Бенчмарк для предсказания персонализированных рабочих процессов

DRFLOW вводит бенчмарк для оценки способности агентов предсказывать персонализированные рабочие процессы на основе разнородных источников. В нём содержится 100 задач в пяти областях, основанных на 3900 источниках и включающих 1246 ссылок на рабочие процессы. DRFLOW-Agent достигает улучшения F1 до 10,02% по сравнению с базовыми моделями, однако остаются значительные трудности в точном предсказании рабочих процессов.

arxiv arXiv cs.AI · 8 д назад

Внешний выпуск данных по заявкам Стэнфорда

Стэнфорд представляет SEFD, открытую, лаи-точную реконструкцию заявлений SEC в формате MultiMarkdown. Данный набор данных SEFD-v1 объемом 152 миллиарда токенов позволяет проводить финансовые моделирования и включает бенчмарки для прогнозирования и транскрипции таблиц, при этом пересечения с Common Crawl составляют менее 0,1%.

arxiv arXiv cs.AI · 8 д назад

RubricsTree: масштабируемая система оценки для персональных агентов здравоохранения

RubricsTree вводит иерархическую классификацию более 100 клинически подтвержденных булевых рубрик, эволюционировавших из 4 000 реальных запросов пользователей при помощи ручной коррекции. Оно позволяет масштабируемо оценивать персональные агенты здравоохранения с учетом экспертных критериев, динамически направляя запросы в соответствующие рубрики и превосходит базовые методы по степени синхронизации, обнаружению деградации контекста и обеспечивает рост производительности моделей до 66% на HealthBench.

arxiv arXiv cs.AI · 8 д назад

FPRM: модель с адаптивным вычислением на основе фиксированной точки

FPRM — это модель на основе трансформера, которая использует фиксированную точку сходимости как механизм остановки в циклической архитектуре. Она адаптирует вычисления в зависимости от сложности задачи, используя фиксированную точку рассуждения, и превосходит базовые модели на задачах Sudoku, Maze, отслеживания состояния и ARC-AGI.

arxiv arXiv cs.AI · 8 д назад

Модели циклического мира обеспечивают эффективность на 100x

Модели циклического мира (LoopWM) вводят архитектуру на основе циклов, которая последовательно уточняет скрытые состояния среды с использованием трансформатора с общей параметризацией. Этот подход обеспечивает эффективность параметров до 100x по сравнению с традиционными моделями мира, адаптируя глубину вычислений под сложность каждой предсказываемой величины.

arxiv arXiv cs.AI · 8 д назад

Обучение политики красного агента на основе наблюдений для нейросимволических киберагентов

Предлагается метод обучения политики с использованием имитационного обучения для предсказания действий красного агента в частично наблюдаемых киберсредах. Метод обучает политики красного агента на основе наблюдений за сетями и действий защитника, что позволяет нейросимволическим кибер-агентам точно предсказывать атаки и адаптировать защиту в различных симулированных сценариях.

arxiv arXiv cs.AI · 8 д назад

EvolveNav: Саморазвивающаяся память для навигации без обучения

EvolveNav представляет саморазвивающуюся архитектуру для навигации без обучения объекта-цели, которая улучшается в процессе тестирования. Используя правило памяти, полученное из предыдущих траекторий, и стратегию поиска на основе уверенности для выбора эффективных действий, метод снижает избыточное исследование. Метод достигает на 10,1% более высокого показателя успеха по сравнению с существующими базовыми моделями, при меньшем количестве избыточных шагов.

arxiv arXiv cs.CL · 8 д назад

Отрицательная фильтрация токенов для стабильного одноразового обучения RL

Новый подход, называемый отрицательной фильтрацией токенов, обеспечивает стабильное одноразовое обучение RL за счёт предотвращения ложных штрафов на отрицательных образцах. Метод улучшает производительность на агентских задачах по сравнению с групповыми методами RL, при этом соответствует групповым методам по задачам логического мышления.

arxiv arXiv cs.CL · 8 д назад

Мягкое подсказывание для соблюдения языка в мультимодальных LLM

Предлагается подход мягких подсказок для улучшения соблюдения языка в мультимодальных LLM без строгих ограничений на выход. Метод вводит новый метрику для количественной оценки нарушений языка и оценивает три стратегии: нулевой подсказки, надзирательной настройки и рассуждения цепочкой мыслей. Результаты показывают эффективность в снижении нарушений языка при сохранении производительности ASR на разных языках, с рассмотрением компромиссов при различных ограничениях вычислительных ресурсов.

arxiv arXiv cs.CL · 8 д назад

Могут ли языковые модели обнаружить ноль?

Языковые модели размера GPT-2 не могут независимо обнаружить ноль в процессе тестирования, независимо от предобучения. Однако производительность значительно улучшается при обучении на десятках до сотен примеров нуля, а предобучение на языке снижает количество необходимых примеров примерно на 50%.

arxiv arXiv cs.CL · 8 д назад

Производительность Word2Vec в минимальной лексике Toki Pona

Этуд оценивает способность Word2Vec к выявлению семантических связей в языке Toki Pona, который содержит только 130 слов. Используя 1,4 миллиона предложений, исследование показывает, что неосновные токены не нарушают структуру векторов и, возможно, действительно приближают схожие слова в пространстве векторов. Результаты показывают, что эффективность Word2Vec зависит больше от распределительных паттернов, чем от размера лексико-семантического словаря, даже при экстремальной лексической сокращении.

arxiv arXiv cs.CL · 8 д назад

SpeechDx: Многоцелевой бенчмарк для клинической речевой ИИ

SpeechDx представляет масштабный бенчмарк, включающий 12 датасетов и 27 задач по различным медицинским состояниям. Он оценивает модели по стадиям речевого производства и показывает, что масштабные модели показывают наилучшие результаты, в то время как специализированные модели демонстрируют ограниченную обобщаемость на различных клинических условиях.

arxiv arXiv cs.CL · 8 д назад

Истории, сгенерированные LLM, показывают низкую разнообразие

Большие языковые модели генерируют рассказы, которые более схожи между собой, чем рассказы, написанные людьми. Передовые модели сходятся к общей, универсальной структуре рассказа, не демонстрируя разнообразия, присутствующего в рассказах, написанных людьми. Общие техники, такие как отрицательное подавление и масштабирование температуры, не значительно снижают эту однородность.

arxiv arXiv cs.CL · 8 д назад

Операционизация онтологии для непереводимых случаев в NLP

Вводится новая онтология и таксономия компенсационных стратегий для непереводимых случаев, что позволяет проводить контролируемый анализ машинного перевода. Мультимедийный набор данных соединяет непереводимые предложения с переводами, основанными на стратегиях, демонстрируя предпочтение человека к выводам, включающим объяснительный контекст, что называется стратегией аннотации компенсации.

arxiv arXiv cs.CL · 8 д назад

Явное против скрытого подсказки в LVLMs для отсылки к коммуникации

Два исследования показывают противоречивые результаты по способности LVLMs координировать эффективные отсылки. Явное подсказывание позволяет моделям достигать эффективной коммуникации, но скрытое подсказывание не вызывает этого поведения, что выявляет фундаментальные различия в человеческой-ИИ коммуникации.

arxiv arXiv cs.CL · 8 д назад

Визуальные данные лгут, согласованность говорит: разъединение пространственной внимательности от надежности в визуально-языковых моделях

Исследование подвергает сомнению предположение о том, что визуальные сигналы внимания отражают надежность в визуально-языковых моделях. Оно показывает почти нулевую корреляцию между пространственной внимательностью и точностью, демонстрируя, что согласованность по всем путям рассуждения является более сильным предиктором истины. Надежность лучше объясняется динамикой генерации и распределения внутренних состояний, а не визуальными паттернами внимания.

arxiv arXiv cs.CL · 8 д назад

NarrativeWorldBench и N-VSSM для длительных аудиодраматических сценариев

NarrativeWorldBench оценивает 21 LLM по девяти метрикам структуры сюжета на горизонтах от 10 до 200 эпизодов, с поддержкой межязыковых вариантов на хинди, тамильском, телугу и маратхи. N-VSSM, скрытая модель мира, использующая Mamba-2, достигает значения F1 по сюжетным точкам не менее 0,84 на всех горизонтах при вычислительной нагрузке в четыре раза ниже, чем у моделей с закрытым фронтом, и превосходит Claude Opus 4.5 по долгосрочной последовательности и управляемости в исследовании профессионального писателя.

arxiv arXiv cs.CL · 8 д назад

MODE-RAG: Оценка и сокращение халлюцинаций в M-RAG

MODE-RAG предлагает многоконтрольную систему, использующую вариационную свободную энергию для динамического управления вмешательствами и снижения халлюцинаций между модальностями в системах расширенного генерирования на основе извлечения. Система интегрирует поиск дерева Монте-Карло и возмущения логитов для решения проблем причинных фальшивок и сycопхантичности, при этом специализированные агенты обеспечивают проверку фактической достоверности и стабильность форматирования. Оценка осуществляется с помощью ModeVent, подмножества MultiVent, что позволяет системе значительно повысить устойчивость к логическим фальшивкам.

arxiv arXiv cs.CL · 8 д назад

AIPatient Arena: оценка LLM в клинических рабочих процессах на основе данных ЭРВ

AIPatient Arena оценивает большие языковые модели в полных клинических консультациях с использованием пациентспецифических знаний, основанных на ЭРВ. Он оценивает LLM по восьми клинических компетенциям, выявляя сильную производительность в навыках интервью, этике и ясности объяснений, но устойчивые слабости в обработке неопределённости, охвате информации и диагностическом мышлении, а также процессы сбоев, такие как повторяющиеся вопросы и пропуск истории.

arxiv arXiv cs.CL · 8 д назад

STATEWITNESS: Объяснитель активации для аудита лжи в LLMs

STATEWITNESS представляет объяснитель активации, который аудит ложь в логических LLMs, читая скрытые состояния и генерируя ответы на естественном языке или структурированные отчёты. Он достигает среднего AUROC в 0,916, превосходя существующие чёрные коробки мониторов и объяснители активации на 11,6% и 25,0% соответственно, и предоставляет отслеживание на уровне запроса, схемы и доказательств для проверки человеком.