Все статьи
arxiv arXiv cs.CL · 5 ч назад

MATCH: Модуляция внимания через контекстно-зависимый поиск для трансформеров с длинным контекстом

Авторы предлагают MATCH, фреймворк, который дополняет механизмы разреженного внимания динамически интегрированной контекстной информацией для решения проблем масштабируемости традиционного внимания в задачах с длинным контекстом.

arxiv arXiv cs.CL · 5 ч назад

Плавные законы масштабирования скрывают пошаговое обучение токенов

В данном исследовании представлена фреймворк на уровне токенов, который разлагает законы масштабирования языковых моделей на локализованные события обучения отдельных контекстуализированных токенов, оспаривая точку зрения, что сложность паттернов с тяжелым хвостом является единственной причиной.

arxiv arXiv cs.CL · 5 ч назад

Исследование мотивов упоминания алгоритмов в NLP: подход на основе глубокого обучения

В данном исследовании предлагается фреймворк на уровне предложений для выявления, анализа и отслеживания эволюции мотивов упоминания алгоритмов в научных статьях, используя обработку естественного языка в качестве примера. Исследователи классифицируют эти мотивы с помощью предварительно обученных моделей и аугментации данных, показывая, что модели глубокого обучения превосходят традиционные подходы машинного обучения.

arxiv arXiv cs.CL · 5 ч назад

KbSD: Самодистилляция с учётом границ знаний для поведенческой калибровки

Авторы предлагают KbSD — фреймворк, решающий проблему разреженности вознаграждений в агентном поиске за счёт плотного токенового уровня контроля и квадрантно-адаптивной оптимизации для калибровки доверия моделей к параметрической памяти versus извлечённым доказательствам. Этот подход использует процесс асимметричной самодистилляции, где учитель с подсказками генерирует откалиброванные демонстрации рассуждений для модели-студента без необходимости использования внешней более крупной модели.

arxiv arXiv cs.CL · 5 ч назад

ARKD: Адаптивное двустороннее дистиллирование расхождения Кульбака-Лейблера, направляемое обучением с подкреплением, для генерации текста

Авторы предлагают ARKD — адаптивную фреймворковую систему дистилляции с весами по KL, основанную на обучении с подкреплением, которая устраняет ограничения методов с единственным объективом KL при сжатии больших языковых моделей. Используя сеть политик для динамического назначения весов прямому и обратному расхождению Кульбака-Лейблера в зависимости от распределительных характеристик учителя и ученика, метод обеспечивает двойное выравнивание по основным и длиннохвостым модам.

arxiv arXiv cs.CL · 5 ч назад

Шаги времени Mamba совпадают со временем чтения человека

Исследование показывает, что время обработки одного слова в языковой модели с пространством состояний Mamba совпадает со временем чтения человеком. Исследование демонстрирует, что динамический шаг дискретизации Mamba является значимым предиктором того, сколько времени люди тратят на чтение слов, даже при контроле других факторов, таких как удивление GPT-2.

arxiv arXiv cs.CL · 6 ч назад

Эволюция новизны в исследованиях китайской библиотечной и информационной науки

В данном исследовании анализируется распределение новизны в статьях по библиотечной и информационной науке (LIS), опубликованных в Китае в период с 2000 по 2022 год, рассматриваются тенденции по журналам, темам и временным периодам. Используя BERTopic для идентификации тем и теорию комбинаторных инноваций для оценки новизны, исследование изучает, как паттерны сотрудничества влияют на научные инновации.

arxiv arXiv cs.CL · 6 ч назад

Графы клинического мышления: структурированная оценка диагностического рассуждения LLM выявляет компетентность без согласованности

В данном исследовании представлены графы клинического мышления для оценки паттернов диагностического рассуждения больших языковых моделей, показывающие, что хотя они демонстрируют компетентность, им не хватает согласованных схем рассуждения. Авторы извлекли структурированные графовые представления из 750 трассировок по пяти LLM и проверили наличие стабильных паттернов рассуждения в клинически схожих случаях.

arxiv arXiv cs.CL · 6 ч назад

SABER-Math: Автоматизированный бенчмарк для оценки информационного поиска в математике

Исследователи представляют SABER-Math, первый полностью автоматизированный бенчмарк для оценки математического информационного поиска без экспертной аннотации, решающий проблему изоляции влияния ретривера на итоговую производительность.

arxiv arXiv cs.CL · 6 ч назад

MemDelta: Контролируемые базовые линии и скрытые смешивающие факторы в оценке памяти агентов

В статье представлен MemDelta — контролируемый протокол оценки для систем памяти агентов, который изолирует отдельные компоненты, чтобы предотвратить искажение результатов из-за смешивающих переменных. Используя датасет LongMemEval-S с 500 вопросами по трем семействам моделей, исследование показывает, что заявленные улучшения часто сочетают изменения в методах памяти с вариациями языковых моделей или конвейеров поиска.

arxiv arXiv cs.CL · 6 ч назад

Можно ли надёжно проверять рубрики с помощью LLM-as-a-Judge в агентных сценариях?

В данном исследовании изучается надёжность использования больших языковых моделей в качестве судей для проверки рубрик в сложных агентных сценариях, и предлагается RuVerBench — первый бенчмарк для этой цели. Исследование оценивает передовые модели на задачах глубокого исследования и программирования, показывая, что хотя производительность высока, значительный шум сохраняется при проверке.

arxiv arXiv cs.CL · 6 ч назад

К физическим интуициям динамики выравнивания: исследование на примере кристаллизации случайности

В данной статье предлагается использовать теорию термодинамических фазовых переходов для понимания динамики выравнивания языковых моделей в процессе постобучения, в частности, через призму кристаллизации материалов. Авторы утверждают, что эта физическая парадигма обеспечивает обоснованный словарь для рассуждений о том, как изменяются модели и откуда берется структура, индуцированная выравниванием.

arxiv arXiv cs.CL · 6 ч назад

ParametricSkills: Преобразование текстовых навыков в адаптеры LoRA

Авторы предлагают ParametricSkills — фреймворк, который преобразует навыки в свободной форме в параметры во время тестирования путем обучения гиперсети для генерации адаптеров LoRA. Этот подход позволяет использовать навыки без учета контекста, решая проблему соблюдения инструкций в сложных сценариях.

arxiv arXiv cs.CL · 6 ч назад

Маленькие модели, большие достижения: исследование компактных языковых моделей

В данном исследовании изучается производительность малых языковых моделей на этапе генерации в системе Retrieval-Augmented Generation (RAG). Исследование оценивает эти модели с использованием разнообразных открытых и проприетарных наборов данных для проверки их эффективности в различных предметных областях.

github llama.cpp · 6 ч назад

Выпуск llama.cpp b9846 с оптимизацией умножения матриц Vulkan для Asahi Linux

Проект llama.cpp выпустил версию b9846, которая включает оптимизацию бэкенда Vulkan для Asahi Linux. Это обновление откатывает цикл размера блока в умножении матриц для улучшения совместимости и производительности на оборудовании Apple Silicon под управлением Linux.

arxiv arXiv cs.CL · 7 ч назад

LatentRevise: Обучение на основе нулевых попаданий в рассуждениях

В статье представлен LatentRevise — метод латентной ревизии первого порядка, предназначенный для восстановления обучающих сигналов в обучении с подкреплением по верифицируемым наградам (RLVR) для запросов, где правильные траектории редко выбираются. Оптимизируя входные эмбеддинги префикса рассуждений на основе неудачных выборок и эталонных ответов, метод генерирует полезные данные из ранее непродуктивных попыток.

arxiv arXiv cs.CL · 7 ч назад

Знайте перед тем, как извлекать: Калиброванное распределение бюджета на извлечение для генерации с дополнением извлечением

В этой статье представлен адаптивный фреймворк RAG, который распределяет бюджеты на извлечение, калибруя сигналы логарифмической вероятности последовательности и неопределенности префикс-логитов в вероятности правильности. Система решает, отвечать ли без внешних знаний (closed-book), извлекать компактный контекст (k=1), извлекать полный контекст (k=5) или воздержаться от ответа, основываясь на этих калиброванных вероятностях.

arxiv arXiv cs.CL · 7 ч назад

IHDec: Контрастивное декодирование с управлением расхождением для защиты иерархий инструкций в многошаговых диалогах

IHDec решает проблему потери Large Language Models иерархии инструкций в контексте многошаговых взаимодействий, используя расхождение Йенсена-Шеннона для обнаружения и исправления инверсий влияния ролей. Этот метод без дообучения динамически подавляет подчинённые роли, которые перехватывают управление у вышестоящих директив во время генерации токенов.

arxiv arXiv cs.CL · 7 ч назад

Измеряем ли мы стратегию или формулировку? Разрыв между поверхностным и стратегическим разнообразием в математических рассуждениях LLM

В данном исследовании предлагается концепция стратегического разнообразия для устранения разрыва между поверхностными вариациями и реальными стратегическими различиями в математических рассуждениях больших языковых моделей. Показано, что предыдущие метрики не способны уловить истинное методологическое разнообразие, что приводит к снижению стратегического разнообразия во время обучения RLVR с учётом разнообразия.

arxiv arXiv cs.CL · 7 ч назад

VISTA: Собственный дашборд для управления контекстом LLM

В статье представлена VISTA — слой без дообучения, предназначенный для решения ограничений окна контекста долгосрочных инструментальных агентов за счёт раскрытия их внутреннего состояния. Утверждается, что передовые модели не видят собственного использования контекста, и предлагается интерфейс, отображающий детали рабочей памяти вместо опирания на выученные политики сжатия.