Reasoning models
arxiv arXiv cs.CL · 8 д назад

Кадр EARS повышает надежность многоагентных систем

EARS вводит объяснительное воздержание в подагентов для повышения надежности в масштабных многоагентных системах. Поставляя практические обоснования сбоев координаторам, EARS повышает общий показатель успешных ответов с 68,5% до 78,9% в производственной помощнике по электронной коммерции.

arxiv arXiv cs.CL · 8 д назад

ForecastBench-Sim: бенчмарк прогнозирования в имитационном мире

ForecastBench-Sim — это бенчмарк прогнозирования в имитационном мире, использующий симуляции игры Freeciv. Он позволяет осуществлять непрерывные или бинарные прогнозы на любых горизонтах, с мирами с вмешательством для вопросов причинности и редких событий, и обеспечивает немедленную, разрешимую обратную связь для оценки вероятностного мышления в динамических средах.

arxiv arXiv cs.CL · 8 д назад

Сети с раздраженной синхронизацией превосходят трансформеры

Сети с раздраженной синхронизацией (FSN) достигают более низкой ошибки валидации, чем трансформер с RoPE-SwiGLU на уровне символов и задачах по коду на каждом эпохе. При одном миллионе параметров FSN достигает ошибки валидации 1,5953 ± 0,0014, что превосходит достигнутую ошибку трансформера 1,611. Это преимущество сохраняется до четырёх миллионов параметров, при этом продолжаются оценки на более высоких масштабах.

arxiv arXiv cs.CL · 8 д назад

TW-LegalBench: Оценка ЛЛМ на тайваньском праве

TW-LegalBench представляет бенчмарк, использующий публичный правовой корпус Тайваня для оценки производительности крупных языковых моделей в области тайваньского права. В нём содержится более 16 000 вопросов с выбором ответа, 117 открытых вопросов с критериями оценки и более 14 000 примеров предсказания решений. Оценка показывает, что лучшие модели превышают порог сдачи аттестации юриста (11%), но не достигают уровня судьи или прокурора (1–2%), и испытывают трудности при точном цитировании правовых статей в предсказаниях наказаний.

arxiv arXiv cs.CL · 8 д назад

LLMs не справляются с выявлением различий между элементами в оценках чтения

Исследование показывает, что большие языковые модели не способны надёжно измерять различие между элементами в оценках чтения. Хотя некоторые модели демонстрируют слабую согласованность с человеческими калиброванными оценками — в диапазоне от 0,152 до 0-241 — текущие LLMs не достаточно отражают, как оценочные элементы различают студентов разных уровней подготовки.

arxiv arXiv cs.CL · 8 д назад

Редактирование вектора выхода снижает запоминание в языковых моделях

Новая методика, называемая редактированием вектора выхода, минимально изменяет векторы выхода нейронов MLP для подавления запомненных последовательностей в больших языковых моделях, достигая до 87,9% подавления в OLMo-7B. Этот подход превосходит нулевое изменение активаций нейронов в 2,7 раза и работает на четырех моделях с параметрами от 36 до 7B, при этом эффективность растет с увеличением размера модели и демонстрирует стабильную производительность при различных архитектурах.

arxiv arXiv cs.CL · 8 д назад

SAMA: Единая платформа для расширения мультимодальных данных в условиях низкой ресурсности

SAMA представляет единую платформу, генерирующую синтетические данные высокого качества и ориентированные на задачу, путем синхронизации семантических опор между модальностями. Используется коллаборативная мультимодальная модель с несколькими экспертами, с общей и задачеспецифической адаптацией, и применяется механизм диффузии с сохранением опор для синтеза изображений, обеспечивая семантическую согласованность при разнообразии визуальных контекстов. Широкие эксперименты показывают, что SAMA превосходит самые современные методы по MNER, MRE и MEE при низком уровне ресурсов.

arxiv arXiv cs.CL · 8 д назад

DICE улучшает поиск в длинных документах с агрегацией доказательств по кускам

DICE, метод без обучения, разделяет длинные документы на куски, кодирует их независимо и агрегирует результаты в один вектор. Он снижает индекс размытия доказательств в 92,8% случаев на LongEmbed, что значительно улучшает производительность поиска для фрагментов длиной более 4k токенов при четырёх основах.

arxiv arXiv cs.CL · 8 д назад

RedactionBench: Бенчмарк для контекстуальной приватности в ИИ

RedactionBench представляет ручно аннотированный бенчмарк из 200 различных документов из 11 областей для оценки приватности при удалении данных. В нем используется R-Score — метрика на уровне символов, которая равнозначно рассматривает семантически схожие варианты удаления и снижает смещение, вызванное выбором форматирования. Результаты человеческих оценок показывают значительное несогласие по вопросам контекстуального удаления (47,7% консенсуса), что подчёркивает субъективный характер приватности и обусловливает необходимость стандартизированных, контекстуально-ориентированных бенчмарков.

arxiv arXiv cs.CL · 8 д назад

HandwritingAgent: синтез ручного почерка на основе языка в SVG

HandwritingAgent синтезирует естественный ручной почерк в формате SVG без специфического обучения стилю. Он использует большой модельный рациональный процесс для генерации последовательностей линий на сетке холста, с учетом текстового ввода и образца стиля, обеспечивая эффективное, управляемое и обобщаемое генерирование почерка.

arxiv arXiv cs.CL · 8 д назад

Метрики на основе больших языковых моделей улучшают оценку клинической значимости в рентгенологии

Исследование представляет лёгкие, интерпретируемые метрики, которые четко выделяют клинически значимые ошибки от безвредных вариаций в рентгенологических отчётах. Эти метрики превосходят большие медицинские языковые модели и конкурируют с проприетарными моделями, при этом однократная тренировка доказана эффективной для развертывания с учётом стоимости. В двухэтапной настройке производительность не улучшается стабильно и смещается фокус с обнаружения ошибок на устойчивость.

arxiv arXiv cs.CL · 8 д назад

Данные рецептура повышает долгосрочное мышление в больших языковых моделях

Центрированный на данных подход улучшает долгосрочное мышление в больших языковых моделях, используя восемь отобранных наборов данных с 14 тысячами примерами в задачах поиска, синтеза многоуровневых доказательств и мышления. При сочетании с минимальным обучением на основе результатов GRPO достигается средний рост на 7,2 до 6,4 баллов на семи бенчмарках, превосходя предыдущие наборы обучения по релевантности, и улучшает агентную производительность на 4,8 и 7,0 баллов соответственно на GAIA и BrowseComp.

arxiv arXiv cs.CL · 8 д назад

ScholarSum: суммаризация студент-учитель через логическое обоснование знаний

ScholarSum представляет иерархическую систему знаний, имитирующую процесс студента-учителя для научной суммаризации. Он генерирует гладкие и фактически корректные суммаризации, сначала структурируя документы в семантические единицы, а затем улучшая черновые варианты с помощью поиска доказательств и итеративного ревью, осуществляемого компонентом, имитирующим учительскую роль. Эксперименты показывают, что ScholarSum превосходит существующие методы по полноте и фактической достоверности.

arxiv arXiv cs.CL · 8 д назад

ImpSH улучшает обнаружение скрытого религиозного спектра в разных областях

ImpSH, тройной подход, сопоставляет посты с подразумеваемыми утверждениями и использует контекст-ограниченные полу-жесткие отрицания для улучшения обнаружения скрытого религиозного спектра. Оценки на IHC, SBIC и DynaHate показывают, что ImpSH превосходит стандартные методы поддержки супервизированного контрастного обучения в условиях перекрёстной области, обеспечивая более стабильные представления и снижая количество ложных отрицаний при сдвигах областей.

arxiv arXiv cs.CL · 8 д назад

Дистилляция с синтетическими данными для анализа финансового настроения

Фреймворк передает знания от крупных инструкционно настроенных моделей к компактным моделям с помощью синтетических данных, сгенерированных с помощью структурированного малошагового запроса. Выбор семян на основе кластеризации обеспечивает более репрезентативные синтетические примеры по сравнению с случайным выбором, позволяя компактным моделям достигать высокой производительности при минимальном количестве ручной метки. На сложных, шумных финансовых текстах учащая модель превосходит учителя, при этом оставаясь конкурентоспособной на официальных текстах.

arxiv arXiv cs.CL · 8 д назад

Рубрик-ориентированные контрфактные рекомендации для медицинской коммуникации

Новая система использует языковые модели для рекомендации минимальных и интерпретируемых изменений в характеристиках коммуникации между пациентом и врачом, таких как тон и персонализация. Эти изменения увеличивают прогнозируемую положительную обратную связь в среднем на 6,41%, и являются неотрицательными для 93,31% случаев, не изменяя медицинского содержимого.

arxiv arXiv cs.CL · 8 д назад

RPCL улучшает извлечение пар эмоций-причин

RPCL, рамка обучения только на тренировке, повышает уверенность в парах при извлечении пар эмоций-причин за счёт обеспечения дискриминативных и стабильных границ уверенности. Он превосходит базовую модель по ECF, MECAD и MEC4 на 2,58–2,83 процентных пункта в F1 по парам и улучшает среднее значение Pair AUPRC по наборам данных, при этом обеспечивая более выраженную разницу между истинными парами и трудными отрицательными примерами.

arxiv arXiv cs.CL · 8 д назад

REVES: Усиленное обучение для масштабирования на этапе тестирования

REVES представляет двухэтапную итерационную структуру, которая улучшает логическое мышление больших языковых моделей за счёт последовательного редактирования и проверки. Метод достигает +6,5 баллов по сравнению с базовыми RL и +4,0 балла по сравнению с стандартным многократным обучением на LiveCodeBench, используя базовую модель размером 4B и меньшее количество итераций по сравнению с более крупными системами. Метод улучшает исправление ошибок и обобщается на задачи вне распределения, такие как n_queens и mini_sudoku.

arxiv arXiv cs.CL · 8 д назад

LLMs сталкиваются с отрицанием в метафорической речи

Исследование показывает, что большие языковые модели испытывают трудности при интерпретации отрицания в метафорической речи. Качество работы значительно варьируется в зависимости от стиля запроса, что подчеркивает ключевое ограничение в понимании сложных языковых конструкций в текущих моделях.