Все статьи — korshunov.ai

Все статьи Страница 1 / 128

Систематическое тестирование методов обнаружения галлюцинаций на основе лёгких моделей для задач QA, диалога и суммаризации

В данной статье проводится бенчмарк пяти лёгких методов обнаружения галлюцинаций, работающих на CPU, чтобы предложить практические альтернативы исследователям с ограниченными ресурсами, которые не могут использовать решения, требующие GPU или являющиеся проприетарными. Исследование оценивает ROUGE-L, семантическое сходство, BERTScore, детектор NLI DeBERTa, обученный на FEVER, и ансамбль методов на основе сходства и NLI на задачах вопросно-ответных систем, диалога и суммаризации из бенчмарка HaluEval.

arxiv arXiv cs.CL · 4 ч назад

SrDetection: Самоориентированная платформа для обнаружения утечки данных в кодовых LLM

Авторы представляют SrDetection, унифицированную платформу для обнаружения утечки данных в больших языковых моделях кода, работающую как в условиях gray-box, так и black-box. Метод генерирует семантически эквивалентные варианты образцов бенчмарков для выявления случаев, когда исходные данные непропорционально легче для модели из-за воздействия во время предобучения.

arxiv arXiv cs.CL · 4 ч назад

Нейронная процедурная память: усиление агентов LLM посредством неявного управления активацией

В статье представлена нейронная процедурная память (NPM), фреймворк без дообучения, который позволяет агентам больших языковых моделей использовать неявное управление активацией для процедурной памяти вместо явных текстовых инструкций. Путем дистилляции навыков из исторического опыта в векторы управления NPM напрямую активирует нейронные механизмы, релевантные задаче, для направления выполнения.

arxiv arXiv cs.CL · 4 ч назад

Раскрытие технологий развития обработки естественного языка: взгляд с точки зрения научных сущностей

В данном исследовании анализируется развитие технологий в области обработки естественного языка (NLP) с точки зрения, ориентированной на сущности, путем извлечения методов, наборов данных, метрик и инструментов для оценки их влияния через сети со-встречаемости. Исследование показывает, что, хотя предобученные языковые модели, такие как BERT и Transformer, стали мейнстримом, среднее количество сущностей на статью увеличивается, что указывает на растущую нагрузку на знания исследователей.

arxiv arXiv cs.CL · 4 ч назад

MATCH: Модуляция внимания через контекстно-зависимый поиск для трансформеров с длинным контекстом

Авторы предлагают MATCH, фреймворк, который дополняет механизмы разреженного внимания динамически интегрированной контекстной информацией для решения проблем масштабируемости традиционного внимания в задачах с длинным контекстом.

arxiv arXiv cs.CL · 4 ч назад

Плавные законы масштабирования скрывают пошаговое обучение токенов

В данном исследовании представлена фреймворк на уровне токенов, который разлагает законы масштабирования языковых моделей на локализованные события обучения отдельных контекстуализированных токенов, оспаривая точку зрения, что сложность паттернов с тяжелым хвостом является единственной причиной.

arxiv arXiv cs.CL · 4 ч назад

Исследование мотивов упоминания алгоритмов в NLP: подход на основе глубокого обучения

В данном исследовании предлагается фреймворк на уровне предложений для выявления, анализа и отслеживания эволюции мотивов упоминания алгоритмов в научных статьях, используя обработку естественного языка в качестве примера. Исследователи классифицируют эти мотивы с помощью предварительно обученных моделей и аугментации данных, показывая, что модели глубокого обучения превосходят традиционные подходы машинного обучения.

arxiv arXiv cs.CL · 4 ч назад

KbSD: Самодистилляция с учётом границ знаний для поведенческой калибровки

Авторы предлагают KbSD — фреймворк, решающий проблему разреженности вознаграждений в агентном поиске за счёт плотного токенового уровня контроля и квадрантно-адаптивной оптимизации для калибровки доверия моделей к параметрической памяти versus извлечённым доказательствам. Этот подход использует процесс асимметричной самодистилляции, где учитель с подсказками генерирует откалиброванные демонстрации рассуждений для модели-студента без необходимости использования внешней более крупной модели.

arxiv arXiv cs.CL · 4 ч назад

ARKD: Адаптивное двустороннее дистиллирование расхождения Кульбака-Лейблера, направляемое обучением с подкреплением, для генерации текста

Авторы предлагают ARKD — адаптивную фреймворковую систему дистилляции с весами по KL, основанную на обучении с подкреплением, которая устраняет ограничения методов с единственным объективом KL при сжатии больших языковых моделей. Используя сеть политик для динамического назначения весов прямому и обратному расхождению Кульбака-Лейблера в зависимости от распределительных характеристик учителя и ученика, метод обеспечивает двойное выравнивание по основным и длиннохвостым модам.

arxiv arXiv cs.CL · 4 ч назад

Шаги времени Mamba совпадают со временем чтения человека

Исследование показывает, что время обработки одного слова в языковой модели с пространством состояний Mamba совпадает со временем чтения человеком. Исследование демонстрирует, что динамический шаг дискретизации Mamba является значимым предиктором того, сколько времени люди тратят на чтение слов, даже при контроле других факторов, таких как удивление GPT-2.

arxiv arXiv cs.CL · 6 ч назад

Эволюция новизны в исследованиях китайской библиотечной и информационной науки

В данном исследовании анализируется распределение новизны в статьях по библиотечной и информационной науке (LIS), опубликованных в Китае в период с 2000 по 2022 год, рассматриваются тенденции по журналам, темам и временным периодам. Используя BERTopic для идентификации тем и теорию комбинаторных инноваций для оценки новизны, исследование изучает, как паттерны сотрудничества влияют на научные инновации.

arxiv arXiv cs.CL · 6 ч назад

Графы клинического мышления: структурированная оценка диагностического рассуждения LLM выявляет компетентность без согласованности

В данном исследовании представлены графы клинического мышления для оценки паттернов диагностического рассуждения больших языковых моделей, показывающие, что хотя они демонстрируют компетентность, им не хватает согласованных схем рассуждения. Авторы извлекли структурированные графовые представления из 750 трассировок по пяти LLM и проверили наличие стабильных паттернов рассуждения в клинически схожих случаях.

arxiv arXiv cs.CL · 6 ч назад

SABER-Math: Автоматизированный бенчмарк для оценки информационного поиска в математике

Исследователи представляют SABER-Math, первый полностью автоматизированный бенчмарк для оценки математического информационного поиска без экспертной аннотации, решающий проблему изоляции влияния ретривера на итоговую производительность.

arxiv arXiv cs.CL · 6 ч назад

MemDelta: Контролируемые базовые линии и скрытые смешивающие факторы в оценке памяти агентов

В статье представлен MemDelta — контролируемый протокол оценки для систем памяти агентов, который изолирует отдельные компоненты, чтобы предотвратить искажение результатов из-за смешивающих переменных. Используя датасет LongMemEval-S с 500 вопросами по трем семействам моделей, исследование показывает, что заявленные улучшения часто сочетают изменения в методах памяти с вариациями языковых моделей или конвейеров поиска.

arxiv arXiv cs.CL · 6 ч назад

Можно ли надёжно проверять рубрики с помощью LLM-as-a-Judge в агентных сценариях?

В данном исследовании изучается надёжность использования больших языковых моделей в качестве судей для проверки рубрик в сложных агентных сценариях, и предлагается RuVerBench — первый бенчмарк для этой цели. Исследование оценивает передовые модели на задачах глубокого исследования и программирования, показывая, что хотя производительность высока, значительный шум сохраняется при проверке.

arxiv arXiv cs.CL · 6 ч назад

К физическим интуициям динамики выравнивания: исследование на примере кристаллизации случайности

В данной статье предлагается использовать теорию термодинамических фазовых переходов для понимания динамики выравнивания языковых моделей в процессе постобучения, в частности, через призму кристаллизации материалов. Авторы утверждают, что эта физическая парадигма обеспечивает обоснованный словарь для рассуждений о том, как изменяются модели и откуда берется структура, индуцированная выравниванием.

arxiv arXiv cs.CL · 6 ч назад

ParametricSkills: Преобразование текстовых навыков в адаптеры LoRA

Авторы предлагают ParametricSkills — фреймворк, который преобразует навыки в свободной форме в параметры во время тестирования путем обучения гиперсети для генерации адаптеров LoRA. Этот подход позволяет использовать навыки без учета контекста, решая проблему соблюдения инструкций в сложных сценариях.

arxiv arXiv cs.CL · 6 ч назад

Маленькие модели, большие достижения: исследование компактных языковых моделей

В данном исследовании изучается производительность малых языковых моделей на этапе генерации в системе Retrieval-Augmented Generation (RAG). Исследование оценивает эти модели с использованием разнообразных открытых и проприетарных наборов данных для проверки их эффективности в различных предметных областях.

github llama.cpp · 6 ч назад

Выпуск llama.cpp b9846 с оптимизацией умножения матриц Vulkan для Asahi Linux

Проект llama.cpp выпустил версию b9846, которая включает оптимизацию бэкенда Vulkan для Asahi Linux. Это обновление откатывает цикл размера блока в умножении матриц для улучшения совместимости и производительности на оборудовании Apple Silicon под управлением Linux.

arxiv arXiv cs.CL · 7 ч назад

LatentRevise: Обучение на основе нулевых попаданий в рассуждениях

В статье представлен LatentRevise — метод латентной ревизии первого порядка, предназначенный для восстановления обучающих сигналов в обучении с подкреплением по верифицируемым наградам (RLVR) для запросов, где правильные траектории редко выбираются. Оптимизируя входные эмбеддинги префикса рассуждений на основе неудачных выборок и эталонных ответов, метод генерирует полезные данные из ранее непродуктивных попыток.