Reasoning models
arxiv arXiv cs.CL · 7 д назад

AgentFinVQA: аудитируемый, локальный вопрос-ответ по финансовым графикам

AgentFinVQA представляет многоагентную систему для вопросов по финансовым графикам, обеспечивающую аудитируемость и возможность развертывания на локальной инфраструктуре без значительного снижения точности. Она превосходит базовые модели на +7,68 pp при использовании проприетарного ядра и на +4,84 pp с открытыми весами Qwen3.6-27B-FP8, при этом обеспечивая сигнал уверенности через вывод верификатора, что улучшает маршрутизацию ручного обзора.

arxiv arXiv cs.CL · 7 д назад

CombEval: бенчмарк для подсчёта комбинаторных задач в LLMs

CombEval — это динамический бенчмарк, который генерирует задачи подсчёта на естественном языке с проверенными ответами с использованием типизированных спецификаций Cofola. Он оценивает 11 больших языковых моделей и выявляет устойчивые сбои при обработке упорядоченных объектов, неотличимых элементов, позиционных ограничений и вложенных зависимостей, причём ошибки связаны с интерпретацией ограничений и принципов подсчёта.

arxiv arXiv cs.CL · 7 д назад

Селективная проверка для рассуждений с учетом бюджета

Sevra, управляющий слой контроллера, селективно проверяет ответы для повышения точности и снижения использования токенов. На \mathfive оно достигает точности 76,3% с 26,8% меньшим количеством токенов после генерации и вдвое меньшим количеством вредоносных ошибок, при этом на \gsm оно проверяет только 3,0% примеров, повышая точность до 94,5% и сокращая использование токенов проверки на 91,2%. Исследование показывает, что длина начального решения и необходимость в явном контроле определяют оптимальную стратегию проверки.

arxiv arXiv cs.CL · 7 д назад

Семантические кластеры — предобучение Тетслин-машины для интерпретируемости

Новый подход предобучает Тетслин-машину с использованием семантических кластеров из моделей языка, избегая векторных представлений. Метод группирует текстовые образцы в связные кластеры с помощью K-средних или Top2Vec, затем использует пары кластер-образец для обучения неотрицательной Тетслин-машины с обратной связью типа I. Результаты показывают превосходную производительность на пяти наборах данных, соответствующую точности на уровне BERT, при сохранении полной интерпретируемости.

arxiv arXiv cs.CL · 7 д назад

Credence: семантические метрики и анализ сходимости для разбиения утверждений

Credence вводит Semantic-F1, метрику косинусной схожести на основе BGE-large, которая повышает точность разбиения утверждений по сравнению с Jaccard на 15-32 процентных пункта. В работе доказаны теоремы сходимости для восстановления по правилам и на основе LLM: восстановление по правилам является конечным и монотонным, в то время как восстановление на основе LLM требует механизмов раннего выхода. Оценки в социальных медиа, энциклопедических и новостных областях показывают EPR от 0,94 до 1,00, при этом восстановление по правилам снижает нарушения атомарности на 47-100% без потери точности.

arxiv arXiv cs.CL · 7 д назад

Закон контроля окна для управления одним нейроном в языковых моделях

Новый фреймворк определяет, в каких случаях вмешательства в отдельный нейрон согласованно контролируют поведение модели без коллапса выводов. Окно контроля, основанное на сопоставлении и отношениях норм, предсказывает триггеры поведения и верхние пределы коллапса с использованием данных прямого прохода, с высокой точностью на отложенных нейронах. При отказе контроль типизируется: согласованное обходное поведение происходит без содержательных действий, в то время как истинное достижение действий проявляется только в определенных случаях и на поздних стадиях развертывания.

arxiv arXiv cs.CL · 7 д назад

AtomMem: Простая и эффективная система памяти для агентов LLM

AtomMem представляет систему памяти, которая хранит высокочастотные атомарные факты из длительных взаимодействий. Она использует иерархические структуры событий и временные профили для отслеживания согласованных эпизодических контекстов и изменяющихся пользовательских характеристик, обеспечивая стабильное и эффективное эволюционирование памяти. Эксперименты на бенчмарке LoCoMo показывают, что AtomMem достигает наилучших результатов в задачах логического мышления.

arxiv arXiv cs.CL · 7 д назад

Нулевая задача агентных LLM извлекает патологию лёгких из повествований

Нулевая задача агентного потока, использующего открытые LLM, извлекает 13 синоптических полей Колледжа американских патологов из отчетов о патологических исследованиях лёгочной резекции. Наилучшая модель (GPT-OSS-20B) достигла значения Micro-F1 0.893, превосходя базовый уровень воспроизведения и точно отражая сложные патологические отношения без специализированного обучения.

arxiv arXiv cs.CL · 7 д назад

LLMs могут обрабатывать непрочитываемый текст с высокой семантической точностью

Большие языковые модели могут поддерживать 99,5% семантической точности при обработке сжатых, непрочитываемых текстовых форм, называемых BabelTele, даже если текст сокращен до 27,9% от его исходной длины. Эти модельные представления показывают сильную производительность в переносе между моделями, в памяти агента и в коммуникации между агентами, что указывает на то, что читаемость для человека не является необходимой для восстановления семантики в LLMs.

arxiv arXiv cs.CL · 7 д назад

AI-Driven Deliberation: Scaling Inclusivity and Empowering Marginalised Groups

Large Language Models могут масштабировать демократическую дискуссию, обеспечивая конструкцию аргументации и снижая лингвистические предвзятости. В главе используется системно-функциональная лингвистика для анализа того, как социально-демографические и коммуникативные вариации влияют на участие, подчеркивая потенциал ИИ в преодолении исключающих норм, при этом предостерегая от чрезмерного или недостаточного утверждения его возможностей. Поднимается необходимость этических мер и дальнейших исследований для обеспечения равного участия с помощью ИИ.

arxiv arXiv cs.CL · 7 д назад

Легкая оценка произношения с помощью несвязанного спектрального сюрприза речевых токенов

Новый подход оценивает произношение только на основе исходных речевых данных, без помеченных ошибок. Он использует сюрприз речевых токенов и выравнивание по транскрипции для обнаружения отклонений от фонетических правил, достигая результатов, близких к результатам обученных методов, на нескольких наборах данных.

arxiv arXiv cs.CL · 7 д назад

GEMS: Геометрические ограничения обеспечивают мульти-семантическую суперпозицию в LLMs

GEMS обеспечивает обучение-бесподобную суперпозицию нескольких семантических направлений в LLMs за счёт устранения распределительной дисперсии и направляющего интерференции с помощью геометрических ограничений. На GSM8K оно сохраняет точность на уровне 98% при трёх неподходящих математических направлениях, в то время как неограниченное сложение падает до 4%; на Wikitext-2 оно повышает PPL всего на 2,2%.

arxiv arXiv cs.CL · 7 д назад

Обучение больших языковых моделей для агентов с длительным жизненным циклом через перекрестную обобщение в разных областях

Новый фреймворк позволяет больших языковых моделей учиться "Соедините точки" с использованием обучения с подкреплением и длинных последовательностей развертывания. Метод включает специализированные задачи и среды, способствующие развитию мета-способностей, демонстрируя сильное перекрестное обобщение и эффективность в условиях, отличающихся от распределения. Реализации доступны по адресу https://github.com/agentscope-ai/Trinity-RFT/tree/research/cod/examples/research_cod.

arxiv arXiv cs.CL · 7 д назад

Обнаружение речи на уровне сегментов для выявления когнитивных нарушений

Новый фреймворк использует автоэнкодер с обучением на основе контрастов для анализа речи на уровне сегментов на китайском языке с целью выявления когнитивных нарушений. Он обеспечивает стабильную и конкурентную производительность на четырех наборах данных, с существенным улучшением в классификации на три класса, особенно при ограниченном количестве помеченных данных.

arxiv arXiv cs.CL · 7 д назад

Информационный анализ эффективного надзора в скрытой цепочке мыслей

Эта работа выявляет двойное упадание в скрытой логике: ослабление градиента и дрейф представлений. Предлагается Траекториальный и Пространственный надзор, показывая, что генеративное восстановление сохраняет информационную емкость лучше, чем геометрическое сжатие. Единый скрытый анализ измеряет взаимную информацию между скрытыми траекториями и шагами мышления, выявляя связь между информацией и производительностью в точности мышления.

arxiv arXiv cs.CL · 7 д назад

IHUBERT: Монолингвальный предобученный модель на персидском языке с семантической дедупликацией

IHUBERT — это монолингвальный предобученный языковой модель на персидском языке, обученная на отобранных подмножестве объемом 45 ГБ из коллекции Sepahr-Danesh. Модель использует векторную семантическую дедупликацию и пайплайн предобучения с балансировкой по доменам для улучшения качества корпуса и снижения дублирования, достигая лучших результатов в извлечении ответов на вопросы и хороших результатов в распознавании сущностей и классификации тем, хотя распознавание связей остается сложной задачей.

arxiv arXiv cs.CL · 7 д назад

Отсутствие самопредпочтения при редактировании моделей при настоящем авторстве

Проверка на четырех моделях IFEval показывает отсутствие обнаружимого самопредпочтения в больших языковых моделях при редактировании собственного текста. Авторы отклоняют проверенные хорошие правки с теми же показателями, что и свежие модели, с разницей в -5,1 процентных пункта (95% доверительный интервал [-12,9; +2,7]). Когда авторы отклоняют исправления, 97% причин связаны с обнаружением недостатков, а не с предпочтения.

arxiv arXiv cs.CL · 7 д назад

HydraHead: гибридное внимание на уровне головок для производительности при длинных контекстах

HydraHead вводит гибридное объединение полного и линейного внимания на уровне головок, используя интерпретируемость для выбора головок, критичных для поиска, и объединяя выходы через модуль с нормализацией масштаба. Обученный на 15 миллиардов токенов, он обеспечивает более чем 69% улучшения по сравнению с базовой моделью при длине контекста 512K, превосходя гибридные модели на уровне слоев и приближаясь к производительности Qwen3.5 на задачах с длинными контекстами.

arxiv arXiv cs.CL · 7 д назад

Адаптивное обучение с помощью LLM повышает вовлеченность и эффективность

Новая адаптивная система обучения с помощью LLM использует поддержку тематических запросов для повышения вовлеченности студентов. Она превосходит статические модели в симуляциях и реальных тестах A/B, снижая количество взаимодействий на 3 шага и увеличивая конверсию упражнений, особенно при использовании стохастического роутера, достигая 28,1%.

arxiv arXiv cs.CL · 7 д назад

Качество эссе в больших языковых моделях обнаруживается в линейно доступных формах

Исследование показало, что информация о качестве эссе в больших языковых моделях закодирована в линейно доступных формах их скрытых представлений. Эти представления формируются по слоям, остаются стабильными при разных запросах и демонстрируют частичную переносимость при различных запросах на эссе, при этом более длинные эссе всё больше зависят от более глубоких слоёв модели. Исследование выявило конкретные "нейроны оценки эссе", активация которых сильно коррелирует с оценками и может быть изменена при целенаправленных вмешательствах.