Все статьи
arxiv arXiv cs.CL · 1 д назад

Можно ли надёжно проверять рубрики с помощью LLM-as-a-Judge в агентных сценариях?

В данном исследовании изучается надёжность использования больших языковых моделей в качестве судей для проверки рубрик в сложных агентных сценариях, и предлагается RuVerBench — первый бенчмарк для этой цели. Исследование оценивает передовые модели на задачах глубокого исследования и программирования, показывая, что хотя производительность высока, значительный шум сохраняется при проверке.

arxiv arXiv cs.CL · 1 д назад

К физическим интуициям динамики выравнивания: исследование на примере кристаллизации случайности

В данной статье предлагается использовать теорию термодинамических фазовых переходов для понимания динамики выравнивания языковых моделей в процессе постобучения, в частности, через призму кристаллизации материалов. Авторы утверждают, что эта физическая парадигма обеспечивает обоснованный словарь для рассуждений о том, как изменяются модели и откуда берется структура, индуцированная выравниванием.

arxiv arXiv cs.CL · 1 д назад

ParametricSkills: Преобразование текстовых навыков в адаптеры LoRA

Авторы предлагают ParametricSkills — фреймворк, который преобразует навыки в свободной форме в параметры во время тестирования путем обучения гиперсети для генерации адаптеров LoRA. Этот подход позволяет использовать навыки без учета контекста, решая проблему соблюдения инструкций в сложных сценариях.

arxiv arXiv cs.CL · 1 д назад

Маленькие модели, большие достижения: исследование компактных языковых моделей

В данном исследовании изучается производительность малых языковых моделей на этапе генерации в системе Retrieval-Augmented Generation (RAG). Исследование оценивает эти модели с использованием разнообразных открытых и проприетарных наборов данных для проверки их эффективности в различных предметных областях.

arxiv arXiv cs.CL · 2 д назад

LatentRevise: Обучение на основе нулевых попаданий в рассуждениях

В статье представлен LatentRevise — метод латентной ревизии первого порядка, предназначенный для восстановления обучающих сигналов в обучении с подкреплением по верифицируемым наградам (RLVR) для запросов, где правильные траектории редко выбираются. Оптимизируя входные эмбеддинги префикса рассуждений на основе неудачных выборок и эталонных ответов, метод генерирует полезные данные из ранее непродуктивных попыток.

arxiv arXiv cs.CL · 2 д назад

Знайте перед тем, как извлекать: Калиброванное распределение бюджета на извлечение для генерации с дополнением извлечением

В этой статье представлен адаптивный фреймворк RAG, который распределяет бюджеты на извлечение, калибруя сигналы логарифмической вероятности последовательности и неопределенности префикс-логитов в вероятности правильности. Система решает, отвечать ли без внешних знаний (closed-book), извлекать компактный контекст (k=1), извлекать полный контекст (k=5) или воздержаться от ответа, основываясь на этих калиброванных вероятностях.

arxiv arXiv cs.CL · 2 д назад

IHDec: Контрастивное декодирование с управлением расхождением для защиты иерархий инструкций в многошаговых диалогах

IHDec решает проблему потери Large Language Models иерархии инструкций в контексте многошаговых взаимодействий, используя расхождение Йенсена-Шеннона для обнаружения и исправления инверсий влияния ролей. Этот метод без дообучения динамически подавляет подчинённые роли, которые перехватывают управление у вышестоящих директив во время генерации токенов.

arxiv arXiv cs.CL · 2 д назад

Измеряем ли мы стратегию или формулировку? Разрыв между поверхностным и стратегическим разнообразием в математических рассуждениях LLM

В данном исследовании предлагается концепция стратегического разнообразия для устранения разрыва между поверхностными вариациями и реальными стратегическими различиями в математических рассуждениях больших языковых моделей. Показано, что предыдущие метрики не способны уловить истинное методологическое разнообразие, что приводит к снижению стратегического разнообразия во время обучения RLVR с учётом разнообразия.

arxiv arXiv cs.CL · 2 д назад

VISTA: Собственный дашборд для управления контекстом LLM

В статье представлена VISTA — слой без дообучения, предназначенный для решения ограничений окна контекста долгосрочных инструментальных агентов за счёт раскрытия их внутреннего состояния. Утверждается, что передовые модели не видят собственного использования контекста, и предлагается интерфейс, отображающий детали рабочей памяти вместо опирания на выученные политики сжатия.

arxiv arXiv cs.CL · 2 д назад

Семантическая согласованность узел-окрестность: выравнивание текста и топологии для обнаружения аномалий в TAG

В данной статье рассматривается задача обнаружения аномалий на графах с текстовыми атрибутами (TAG) путем формализации её как проблемы семантической согласованности между узлом и его окрестностью, где аномалии возникают из-за несоответствия между текстовой семантикой и топологическими связями. Авторы предлагают N2NSC — фреймворк, использующий два дополнительных пути слияния для выравнивания топологии графа с текстовой семантикой, что позволяет большим языковым моделям (LLM) использовать как структурную, так и текстовую информацию окрестности.

arxiv arXiv cs.CL · 2 д назад

SHOVIR: Бенчмарк для оценки обучения визуальным ярлыкам при генерации радиологических отчетов

Бенчмарк SHOVIR оценивает обучение визуальным ярлыкам при генерации радиологических отчетов путем расширения MIMIC-CXR и PadChest-GR с помощью меток CheXpert для каждой коробки (bounding box). Он использует эксперименты по окклюзии на уровне изображений и заболеваний, чтобы изолировать прямые и контекстуальные ярлыки, где модели полагаются на ложные корреляции, а не на реальные визуальные доказательства.

arxiv arXiv cs.CL · 2 д назад

Не совсем человеческие вкусы: стилизованная всеядность суррогатов опросов LLM

В данном исследовании оценивается способность больших языковых моделей аппроксимировать человеческие культурные вкусы путем генерации кремниевых суррогатов на основе Опроса общественного участия в искусстве. Используя модели от OpenAI, Anthropic и DeepSeek, авторы анализируют 277 470 синтетических респондентов, чтобы определить, могут ли LLM достоверно воспроизводить реальные данные опросов.

arxiv arXiv cs.CL · 2 д назад

Эффективное извлечение с дополнением через графы совместной встречаемости токенов

Исследователи предлагают TIGRAG (Token-Induced GraphRAG) — фреймворк, использующий статистику совместной встречаемости токенов для построения масштабируемых графов знаний с целью эффективного извлечения с дополнением. Этот подход устраняет ограничения стандартного RAG в задачах многошагового рассуждения за счёт отказа от дорогостоящих конвейеров извлечения на основе LLM.

arxiv arXiv cs.CL · 2 д назад

Динамика информации в языковом общении

Исследователи предлагают информационно-теоретическую рамку для количественной оценки направленного потока семантического содержания между собеседниками и декомпозиции многоисточниковых вкладов на избыточные, уникальные и синергетические компоненты.

arxiv arXiv cs.CL · 2 д назад

Действительно ли подробное мышление по цепочке помогает? Внутри распределения доказательства того, что важнее содержание, а не длина

Это исследование исследует, улучшает ли подробное мышление по цепочке рассуждения больших языковых моделей за счёт увеличения вычислений или предоставления полезного семантического содержания. Авторы представляют доказательства из внутри распределённой выборки и контролируемых вмешательств для определения конкретных факторов, приводящих к улучшению производительности.

arxiv arXiv cs.CL · 2 д назад

Языковые модели ДНК: Оценка преимуществ предобучения для задач дообучения

В данном исследовании оцениваются приросты производительности трансформерных языковых моделей ДНК, таких как DNABERT2, по сравнению с традиционными подходами, такими как ConvNova, уделяя особое внимание высокой стоимости предобучения. Исследуется, оправдывают ли эти улучшения вычислительные накладные расходы, и анализируется влияние токенизации Byte Pair Encoding (BPE) на геномные задачи.

arxiv arXiv cs.CL · 2 д назад

Оценка направлений грамматического рода в контекстных эмбеддингах при контролируемых и естественных контекстах

Настоящее исследование решает проблему смешения грамматического рода и социального семантического смещения в контекстных языковых моделях для родовых языков, таких как испанский, предлагая фреймворк для разделения этих измерений. Авторы создают сбалансированные наборы данных с использованием контролируемых шаблонов и естественных контекстов из Википедии для оценки направлений рода при подавлении загрязнения.

arxiv arXiv cs.CL · 2 д назад

CORTEX: высококачественная кросс-доменная организация веб-корпусов через онтологический граф корпусов

Авторы представляют Cortex — фреймворк, который преобразует конструирование веб-корпусов масштаба интернета из плоской фильтрации документов в структурированную организацию знаний с использованием онтологического графа корпусов (OCG). Эта трехуровневая структура объединяет контент, очищенный по качеству, иерархическую легковесную онтологию и кросс-доменное выравнивание для удовлетворения растущих требований к данным больших языковых моделей.

arxiv arXiv cs.CL · 2 д назад

DAIN: Динамическая сеть взаимодействий на основе агентов для эффективного и совместного мультимодального рассуждения

Исследователи представляют Динамическую сеть взаимодействий на основе агентов (DAIN), framework, который переосмысливает мультимодальное слияние как динамический процесс совместной работы нескольких агентов, а не полагается на статические архитектуры. DAIN использует контекстно-зависимый Мета-контроллер для динамического планирования разреженной активации специализированных агентов и организует сжатую коммуникацию для достижения консенсуса.

arxiv arXiv cs.CL · 2 д назад

Предупреждён — значит вооружён: когда не последовательные эмбеддинги становятся детектором аномалий

В данной работе анализируются не последовательные мультимодальные эмбеддинги на уровне предложений, с особым вниманием к модели SONAR, чтобы показать, что определенные измерения эмбеддингов чувствительны к возмущениям и могут указывать на аномалии декодирования. Используя согласованность между последовательными этапами кодирования и декодирования, авторам удалось создать точный детектор аномалий.