Research paper
arxiv arXiv cs.CL · 1 д назад

Первый масштабный анализ сетей совместного появления алгоритмов

Это исследование анализирует влияние алгоритмов через сети совместного появления в области обработки естественного языка, используя полный текст научных статей. Оно показывает, что сети алгоритмов демонстрируют сложные сетевые характеристики, с более плотными связями, возникающими в течение двух десятилетий, и что классические алгоритмы на пересечениях исследований показывают высокую центральность и сбалансированное влияние. Исследование предоставляет временной и структурный взгляд на эволюцию алгоритмов и создает основу для будущих исследований по сетям алгоритмов, ученых и задач.

arxiv arXiv cs.CL · 1 д назад

PORTER: Языково-обоснованные представления событий для портативных фундаментальных моделей электронных медицинских записей

PORTER представляет структурированную фундаментальную модель электронных медицинских записей, основанную на языке, которая описывает клинические события через описания, а не через фиксированные словари. Оно достигает превосходных результатов на 74 задачах прогнозирования для детей и эффективно переносится на новые словари без переобучения, восстанавливая 97,1% целевых AUROC и превосходя модели на основе фиксированных словарей на MIMIC, при вычислительной нагрузке в 329 раз ниже, чем у подходов на основе сериализации текста.

arxiv arXiv cs.CL · 1 д назад

Ошибки калибровки LoRA Monitor при использовании Top-1 в диффузионных языковых моделях

Сбои в концентрации аргмакса Top-1 выступают в качестве предупреждения о коллапсе в диффузионных языковых моделях, оптимизированных с помощью LoRA, и показывают нулевую точность при 816 конфигурациях. Максимальная норма градиента LoRA превосходит этот базовый вариант, достигая точности 0,68 и F1 0,79 на отложенной выборке LLaDA, хотя результаты ограничены короткими горизонтами и специфическими семействами.

arxiv arXiv cs.CL · 1 д назад

Целостный планировщик данных для предобучения языковых моделей с использованием многокритериального обучения с помощью реверсного обучения

HDS представляет многокритериальную систему обучения с помощью реверсного обучения для онлайн-смешивания данных в предобучении языковых моделей. Он достигает на 44% меньше итераций обучения на бенчмарке The Pile и улучшает производительность MMLU в режиме 0-шотов на 7,2%, с устойчивыми результатами на других бенчмарках.

arxiv arXiv cs.CL · 1 д назад

InterAligner: прогрессивная синхронизация для аудио-распознавания

InterAligner вводит промежуточную цель синхронизации и потерю InterCTC для обеспечения прогрессивной синхронизации в глубоких моделях аудио-распознавания. На LibriSpeech с конформером из 17 слоев, оно снижает WER с 5,0/7,8 до 3,1/5,6, обеспечивая значительное улучшение на длинных фразах.

arxiv arXiv cs.CL · 1 д назад

BehaviorBench запускает бенчмарк для поведенческих ИИ-моделей

BehaviorBench представляет всесторонний бенчмарк для оценки фундаментальных моделей по четырем способностям поведенческой науки: прогнозированию поведения, стратегическому принятию решений, инференции характеристик субъекта и применению знаний. Он оценивает модели на индивидуальном и распределенном уровнях, показывая, что поведенческие фундаментальные модели, такие как Be.FM-1.5, достигают более сильной распределенной синхронизации, чем общецелевые модели, что подчеркивает необходимость оценки на распределенном уровне в поведенческой ИИ.

arxiv arXiv cs.CL · 1 д назад

CORE-BREW: мягкий декодинг на основе лог-вероятностных отношений для устойчивой многоразрядной вставки водяных знаков в LLM

CORE-BREW вводит метод мягкой декодировки, использующий калиброванные лог-вероятностные отношения, для обеспечения устойчивой многоразрядной вставки водяных знаков в LLM. Он достигает стабильных показателей выявления и улучшенного контроля ложноположительных результатов за счет строгих и калиброванных по FPR режимов обнаружения, превосходя предыдущие базовые решения при редактировании на уровне токенов и переформулировании, при этом сохраняя семантическое качество.

arxiv arXiv cs.CL · 1 д назад

Фонд Панини для обработки индийских языков

Новая система оценок предлагает использовать древнюю грамматику Панини как единый фреймворк для обработки индийских языков. Этот подход направлен на повышение точности, эффективности использования данных и переносимости за счёт внедрения средств обработки естественного языка в общую морфосинтаксическую архитектуру. Фреймворк ставит вопросы о том, представляют ли нейронные модели внутренне категории паниниевской лингвистики.

arxiv arXiv cs.CL · 1 д назад

Digi Turbine: синтетический бенчмарк с учетом надежности для мониторинга морских ветровых турбин

Digi Turbine — это синтетический бенчмарк, который в своей цели обучения объединяет упрощенную модель балки с основанием грунта по модели Винклера. Он использует байесовский обратный идентификационный метод и метод первого порядка надежности для обеспечения надежной оценки состояния на основе редких данных с датчиков. Проверка основана на синтетических конфигурациях, полученных из ветровой турбины NREL 5MW.

arxiv arXiv cs.CL · 1 д назад

Agon: автономная система исследований через экономику запросов

Agon — это автономная система исследований, которая использует экономику запросов для проверки проверяемых утверждений в рабочих процессах, оставляя оценку людям-исследователям. Система работает в течение 444 итераций с минимальным количеством запросов и без кода, написанного человеком, и выявляет топологию сбоев по степени серьёзности, возможность исправления, видимости и месту расположения функциональности. Система демонстрирует масштабируемость и продвигает исследование к парадигме, в которой машины управляют масштабом, а люди — руководят оценкой.

arxiv arXiv cs.CL · 1 д назад

Декогеренция как защита в квантовых нейронных сетях для обнаружения вторжений

Строгая теория N-кубитов доказывает, что деградирующая шум в стохастических квантовых нейронных сетях экспоненциально сжимает измерения Паули, обеспечивая устойчивое обнаружение аномалий. На наборе данных NSL-KDD такой шум обеспечивает значительную устойчивость к атакам без катастрофического коллапса, превосходя модели без шума и классические детекторы при атаках FGSM и PGD, с уменьшенной вариацией устойчивости и снижением разрыва между обучением и тестированием на уровне примерно 0.01.

arxiv arXiv cs.CL · 1 д назад

SURGELLM: Задача-ориентированная гейтинговая фича с классово-сбалансированной нормализацией

SURGELLM представляет единый фреймворк на основе трансформера с хирургической гейтинговой фичей, задаче-зависимыми префикс-токенами и нормализацией с весом инстанса, чтобы решить несоответствия индуктивных предпосылок, неравномерность классов и отсутствие интеграции лексических знаний. Вариант IWN достигает значения macro-F1 в 0,940 по четырём задачам, превосходя базовые модели на 0,036 в целом и на 0,130 в задаче авторства, прирост подтверждён как лексический, а не параметрический.

arxiv arXiv cs.CL · 1 д назад

Прагский деревообразный корпус, обновлённый до версии 2.0

PDT-C 2.0 представляет собой корпус чешского языка с единообразной аннотацией и разнообразием жанров, содержащий почти 4 миллиона токенов. В нём представлены семантические представления и межпредложные явления, такие как синтаксическая связность и дискурсные отношения, а также сопровождается полностью совместимыми лексиконами. Ресурс доступен под лицензией CC BY-NC-SA.

arxiv arXiv cs.CL · 1 д назад

Модели трансформеров: архитектуры, применения и критический анализ

Настоящий обзор представляет систематизацию моделей на основе трансформеров по направлениям применения, охватывая модели с одним декодером, с одним кодировщиком, кодировщик-декодер, с длинным контекстом, на основе перестановок и с вариантом генератор-дискриминатор. В нем оцениваются достижения после 2023 года, такие как настройка на инструкции и масштабирование смеси экспертов, а также анализ развертывания моделей в области здравоохранения, финансов, права, образования, обслуживания клиентов, креативного письма и научной деятельности, с привязкой каждого к конкретным возможностям. В статье критически анализируется архитектура моделей по четырем ключевым направлениям развертывания, количественно оценивается количество параметров в сравнении с энергозатратами, и изучается, как методы синхронизации, происхождение данных и насыщение тестов определяют «уровень передовой техники».

arxiv arXiv cs.CL · 1 д назад

PETRA: Датасет и пайплайн для адаптации текстов в нефтегазовой инженерии

PETRA преобразует публичный веб-текст в отобранный корпус нефтегазовой инженерии с синтетической надзорной функцией для плотного поиска и переранжирования. В результате достигается рост в-доменной nDCG с 0,703 до 0,763 и повышение производительности в области геологии на 44% и на 23% в шести задачах логического мышления.

arxiv arXiv cs.CL · 1 д назад

Позиционная маркировка смысла арабско-английского словаря с помощью WordNet

В статье представлен алгоритм, который передает теги части речи на английском языке из Princeton WordNet к арабско-английским смыслам словарей после разрешения неоднозначности. Это позволяет связывать билингвальные словари с WordNet и стандартизировать их в формате WordNet-LMF, где синсеты являются основной единицей, с высокой точностью при низкой стоимости.

arxiv arXiv cs.CL · 1 д назад

MorfFlex: Управление богатой морфологией на чешском языке

MorfFlex — это архитектура морфологического словаря, разработанная для языков с сложной инфлексией и производством. MorfFlex CZ, его основная реализация, содержит более 100 миллионов форм слов и более 1 миллиона лемм, сокращенных с помощью закодированных инфлексионных и производственных паттернов. Оно обеспечивает единообразие аннотаций в Прагском зависимом дереве и обеспечивает работу инструментов, таких как MorphoDiTa.

arxiv arXiv cs.CL · 1 д назад

Стабильность ранжирования промптов в оценке ЛЛМ

Ранжирование промптов в оценке больших языковых моделей часто нестабильно при незначительных вариациях, таких как случайные семена и ограниченные подмножества. Стратегия выбора с учетом стабильности, использующая нижние границы вероятности, повышает устойчивость за счёт учёта как производительности, так и дисперсии, при этом сохраняя конкурентоспособность в стабильных условиях.

arxiv arXiv cs.CL · 1 д назад

AutoSpecNER: Датасет для детализированного распознавания названий в технических характеристиках автомобилей

AutoSpecNER — это датасет из 659 рекламных объявлений автомобилей с более чем 10 000 аннотированных сущностей в 15 категориях. Датасет демонстрирует уровень согласованности между аннотаторами на уровне 91,5% и показывает, что DeBERTa превосходит как правило-ориентированные методы, так и большие языковые модели при извлечении технических характеристик автомобилей, достигая значения микро-F1 в 90%.

arxiv arXiv cs.CL · 1 д назад

LLM-основанная двухэтапная трансформаторная модель для диагностики неисправностей подшипников

Легкая модель трансформатора GPT-2 позволяет выполнять иерархическую обработку признаков из сигналов вибрации. Фреймворк достигает средней точности 92,61% при использовании только 10% меток, превосходя современные методы на 17,24 процентных пункта в задаче диагностики неисправностей подшипников в условиях перехода между доменами.