Все статьи
arxiv arXiv cs.CL · 4 ч назад

Скрытая стоимость ресэмплинга: как коррекция дисбаланса ухудшает калибровку вероятностей в ансамблях деревьев

В данном исследовании оценивается влияние методов ресэмплинга, таких как SMOTE и случайное недосэмплирование, на калибровку вероятностей в ансамблях деревьев; установлено, что хотя стоимость SMOTE невелика, недосэмплирование сильно ухудшает калибровку.

arxiv arXiv cs.CL · 4 ч назад

Насколько хорошо локальные открытые LLM справляются с текстом в SQL? Исследование на границе размеров и методов семейства моделей BIRD

В данном исследовании оценивается производительность больших языковых моделей с открытыми весами, работающих локально для задач преобразования текста в SQL, с использованием воспроизводимого бенчмарка на обучающем наборе данных BIRD. Сравниваются три семейства моделей двух поколений при этом абляционно изучаются конкретные техники повышения точности, чтобы определить их реальную ценность.

arxiv arXiv cs.CL · 4 ч назад

Быстрые числа, медленный язык: объединение количественных и качественных сигналов из отчётов о прибыли

В статье представлен EarningsInOne, новый корпус, согласующий новости об отчётах о прибыли, стенограммы конференц-звонков и цены для вселенной компаний SP 1500 за период с 2022 по 2025 год. Этот ресурс сокращает разрыв между финансовыми экономистами и исследователями в области NLP, предоставляя унифицированные торговые конфигурации и метрики оценки как для количественных, так и для качественных сигналов.

arxiv arXiv cs.CL · 4 ч назад

Управление кардинальностью отображений при автоматической классификации заболеваний

В статье представлен новый метод автоматического сопоставления между системами классификации заболеваний, такими как ICD-9-CM и ICD-10-CM, который устраняет ограничения существующих подходов на основе эмбеддингов, часто игнорирующих сложные сценарии «один ко многим». Используя конвейер блокировки и сопоставления, вдохновленный разрешением сущностей (entity resolution), авторы применяют большие языковые модели для выявления допустимых отображений внутри блоков кандидатов.

arxiv arXiv cs.CL · 4 ч назад

Mandol: Агломеративная система памяти агента для долгосрочных диалогов

Исследователи предлагают Mandol, систему агломеративной памяти, предназначенную для консолидации фрагментированных представлений памяти в единую архитектуру для долгосрочных диалоговых агентов. Этот подход решает проблемы высокой задержки и шума, присущие существующим системам, которые полагаются на гетерогенные векторные и графовые базы данных.

arxiv arXiv cs.CL · 4 ч назад

Следуют ли люди эволюционно сформированной инструкции? Фундаментальный индуктивный bias обеспечивает быстрое обучение задачам по инструкции

В данной позиционной статье утверждается, что у людей существует эволюционно сформированный bias следования инструкциям — врожденный индуктивный bias, сформированный эволюцией для интерпретации и выполнения лингвистических инструкций. Эта когнитивная особенность обеспечивает быстрое обучение задачам по инструкции (RITL) и позволяет быстро обобщать поведение на основе языка.

arxiv arXiv cs.CL · 4 ч назад

Fund2Persona: Создание персонажей финансовых советников на основе данных фондов

Авторы предлагают Fund2Persona — фреймворк, который основывает персонажи финансовых советников на раскрытии информации фондами, переходах портфельных активов и комментариях управляющих, чтобы решить проблему масштабирования последовательной экспертизы в системах LLM. Система уточняет эти персонажи с помощью агентного цикла «актор-оценщик-патчер», выходя за рамки простых промптов для персонажей, которые часто уходят в сторону общих рекомендаций.

arxiv arXiv cs.CL · 5 ч назад

Систематическое тестирование методов обнаружения галлюцинаций на основе лёгких моделей для задач QA, диалога и суммаризации

В данной статье проводится бенчмарк пяти лёгких методов обнаружения галлюцинаций, работающих на CPU, чтобы предложить практические альтернативы исследователям с ограниченными ресурсами, которые не могут использовать решения, требующие GPU или являющиеся проприетарными. Исследование оценивает ROUGE-L, семантическое сходство, BERTScore, детектор NLI DeBERTa, обученный на FEVER, и ансамбль методов на основе сходства и NLI на задачах вопросно-ответных систем, диалога и суммаризации из бенчмарка HaluEval.

arxiv arXiv cs.CL · 5 ч назад

SrDetection: Самоориентированная платформа для обнаружения утечки данных в кодовых LLM

Авторы представляют SrDetection, унифицированную платформу для обнаружения утечки данных в больших языковых моделях кода, работающую как в условиях gray-box, так и black-box. Метод генерирует семантически эквивалентные варианты образцов бенчмарков для выявления случаев, когда исходные данные непропорционально легче для модели из-за воздействия во время предобучения.

arxiv arXiv cs.CL · 5 ч назад

Нейронная процедурная память: усиление агентов LLM посредством неявного управления активацией

В статье представлена нейронная процедурная память (NPM), фреймворк без дообучения, который позволяет агентам больших языковых моделей использовать неявное управление активацией для процедурной памяти вместо явных текстовых инструкций. Путем дистилляции навыков из исторического опыта в векторы управления NPM напрямую активирует нейронные механизмы, релевантные задаче, для направления выполнения.

arxiv arXiv cs.CL · 5 ч назад

Раскрытие технологий развития обработки естественного языка: взгляд с точки зрения научных сущностей

В данном исследовании анализируется развитие технологий в области обработки естественного языка (NLP) с точки зрения, ориентированной на сущности, путем извлечения методов, наборов данных, метрик и инструментов для оценки их влияния через сети со-встречаемости. Исследование показывает, что, хотя предобученные языковые модели, такие как BERT и Transformer, стали мейнстримом, среднее количество сущностей на статью увеличивается, что указывает на растущую нагрузку на знания исследователей.

arxiv arXiv cs.CL · 5 ч назад

MATCH: Модуляция внимания через контекстно-зависимый поиск для трансформеров с длинным контекстом

Авторы предлагают MATCH, фреймворк, который дополняет механизмы разреженного внимания динамически интегрированной контекстной информацией для решения проблем масштабируемости традиционного внимания в задачах с длинным контекстом.

arxiv arXiv cs.CL · 5 ч назад

Плавные законы масштабирования скрывают пошаговое обучение токенов

В данном исследовании представлена фреймворк на уровне токенов, который разлагает законы масштабирования языковых моделей на локализованные события обучения отдельных контекстуализированных токенов, оспаривая точку зрения, что сложность паттернов с тяжелым хвостом является единственной причиной.

arxiv arXiv cs.CL · 5 ч назад

Исследование мотивов упоминания алгоритмов в NLP: подход на основе глубокого обучения

В данном исследовании предлагается фреймворк на уровне предложений для выявления, анализа и отслеживания эволюции мотивов упоминания алгоритмов в научных статьях, используя обработку естественного языка в качестве примера. Исследователи классифицируют эти мотивы с помощью предварительно обученных моделей и аугментации данных, показывая, что модели глубокого обучения превосходят традиционные подходы машинного обучения.

arxiv arXiv cs.CL · 5 ч назад

KbSD: Самодистилляция с учётом границ знаний для поведенческой калибровки

Авторы предлагают KbSD — фреймворк, решающий проблему разреженности вознаграждений в агентном поиске за счёт плотного токенового уровня контроля и квадрантно-адаптивной оптимизации для калибровки доверия моделей к параметрической памяти versus извлечённым доказательствам. Этот подход использует процесс асимметричной самодистилляции, где учитель с подсказками генерирует откалиброванные демонстрации рассуждений для модели-студента без необходимости использования внешней более крупной модели.

arxiv arXiv cs.CL · 5 ч назад

ARKD: Адаптивное двустороннее дистиллирование расхождения Кульбака-Лейблера, направляемое обучением с подкреплением, для генерации текста

Авторы предлагают ARKD — адаптивную фреймворковую систему дистилляции с весами по KL, основанную на обучении с подкреплением, которая устраняет ограничения методов с единственным объективом KL при сжатии больших языковых моделей. Используя сеть политик для динамического назначения весов прямому и обратному расхождению Кульбака-Лейблера в зависимости от распределительных характеристик учителя и ученика, метод обеспечивает двойное выравнивание по основным и длиннохвостым модам.

arxiv arXiv cs.CL · 5 ч назад

Шаги времени Mamba совпадают со временем чтения человека

Исследование показывает, что время обработки одного слова в языковой модели с пространством состояний Mamba совпадает со временем чтения человеком. Исследование демонстрирует, что динамический шаг дискретизации Mamba является значимым предиктором того, сколько времени люди тратят на чтение слов, даже при контроле других факторов, таких как удивление GPT-2.

arxiv arXiv cs.CL · 6 ч назад

Эволюция новизны в исследованиях китайской библиотечной и информационной науки

В данном исследовании анализируется распределение новизны в статьях по библиотечной и информационной науке (LIS), опубликованных в Китае в период с 2000 по 2022 год, рассматриваются тенденции по журналам, темам и временным периодам. Используя BERTopic для идентификации тем и теорию комбинаторных инноваций для оценки новизны, исследование изучает, как паттерны сотрудничества влияют на научные инновации.

arxiv arXiv cs.CL · 6 ч назад

Графы клинического мышления: структурированная оценка диагностического рассуждения LLM выявляет компетентность без согласованности

В данном исследовании представлены графы клинического мышления для оценки паттернов диагностического рассуждения больших языковых моделей, показывающие, что хотя они демонстрируют компетентность, им не хватает согласованных схем рассуждения. Авторы извлекли структурированные графовые представления из 750 трассировок по пяти LLM и проверили наличие стабильных паттернов рассуждения в клинически схожих случаях.

arxiv arXiv cs.CL · 6 ч назад

SABER-Math: Автоматизированный бенчмарк для оценки информационного поиска в математике

Исследователи представляют SABER-Math, первый полностью автоматизированный бенчмарк для оценки математического информационного поиска без экспертной аннотации, решающий проблему изоляции влияния ретривера на итоговую производительность.