Research paper
arxiv arXiv cs.CL · 1 д назад

Фонд Панини для обработки индийских языков

Новая система оценок предлагает использовать древнюю грамматику Панини как единый фреймворк для обработки индийских языков. Этот подход направлен на повышение точности, эффективности использования данных и переносимости за счёт внедрения средств обработки естественного языка в общую морфосинтаксическую архитектуру. Фреймворк ставит вопросы о том, представляют ли нейронные модели внутренне категории паниниевской лингвистики.

arxiv arXiv cs.CL · 1 д назад

Digi Turbine: синтетический бенчмарк с учетом надежности для мониторинга морских ветровых турбин

Digi Turbine — это синтетический бенчмарк, который в своей цели обучения объединяет упрощенную модель балки с основанием грунта по модели Винклера. Он использует байесовский обратный идентификационный метод и метод первого порядка надежности для обеспечения надежной оценки состояния на основе редких данных с датчиков. Проверка основана на синтетических конфигурациях, полученных из ветровой турбины NREL 5MW.

arxiv arXiv cs.CL · 1 д назад

Agon: автономная система исследований через экономику запросов

Agon — это автономная система исследований, которая использует экономику запросов для проверки проверяемых утверждений в рабочих процессах, оставляя оценку людям-исследователям. Система работает в течение 444 итераций с минимальным количеством запросов и без кода, написанного человеком, и выявляет топологию сбоев по степени серьёзности, возможность исправления, видимости и месту расположения функциональности. Система демонстрирует масштабируемость и продвигает исследование к парадигме, в которой машины управляют масштабом, а люди — руководят оценкой.

arxiv arXiv cs.CL · 1 д назад

Декогеренция как защита в квантовых нейронных сетях для обнаружения вторжений

Строгая теория N-кубитов доказывает, что деградирующая шум в стохастических квантовых нейронных сетях экспоненциально сжимает измерения Паули, обеспечивая устойчивое обнаружение аномалий. На наборе данных NSL-KDD такой шум обеспечивает значительную устойчивость к атакам без катастрофического коллапса, превосходя модели без шума и классические детекторы при атаках FGSM и PGD, с уменьшенной вариацией устойчивости и снижением разрыва между обучением и тестированием на уровне примерно 0.01.

arxiv arXiv cs.CL · 1 д назад

SURGELLM: Задача-ориентированная гейтинговая фича с классово-сбалансированной нормализацией

SURGELLM представляет единый фреймворк на основе трансформера с хирургической гейтинговой фичей, задаче-зависимыми префикс-токенами и нормализацией с весом инстанса, чтобы решить несоответствия индуктивных предпосылок, неравномерность классов и отсутствие интеграции лексических знаний. Вариант IWN достигает значения macro-F1 в 0,940 по четырём задачам, превосходя базовые модели на 0,036 в целом и на 0,130 в задаче авторства, прирост подтверждён как лексический, а не параметрический.

arxiv arXiv cs.CL · 1 д назад

Прагский деревообразный корпус, обновлённый до версии 2.0

PDT-C 2.0 представляет собой корпус чешского языка с единообразной аннотацией и разнообразием жанров, содержащий почти 4 миллиона токенов. В нём представлены семантические представления и межпредложные явления, такие как синтаксическая связность и дискурсные отношения, а также сопровождается полностью совместимыми лексиконами. Ресурс доступен под лицензией CC BY-NC-SA.

arxiv arXiv cs.CL · 1 д назад

Модели трансформеров: архитектуры, применения и критический анализ

Настоящий обзор представляет систематизацию моделей на основе трансформеров по направлениям применения, охватывая модели с одним декодером, с одним кодировщиком, кодировщик-декодер, с длинным контекстом, на основе перестановок и с вариантом генератор-дискриминатор. В нем оцениваются достижения после 2023 года, такие как настройка на инструкции и масштабирование смеси экспертов, а также анализ развертывания моделей в области здравоохранения, финансов, права, образования, обслуживания клиентов, креативного письма и научной деятельности, с привязкой каждого к конкретным возможностям. В статье критически анализируется архитектура моделей по четырем ключевым направлениям развертывания, количественно оценивается количество параметров в сравнении с энергозатратами, и изучается, как методы синхронизации, происхождение данных и насыщение тестов определяют «уровень передовой техники».

arxiv arXiv cs.CL · 1 д назад

PETRA: Датасет и пайплайн для адаптации текстов в нефтегазовой инженерии

PETRA преобразует публичный веб-текст в отобранный корпус нефтегазовой инженерии с синтетической надзорной функцией для плотного поиска и переранжирования. В результате достигается рост в-доменной nDCG с 0,703 до 0,763 и повышение производительности в области геологии на 44% и на 23% в шести задачах логического мышления.

arxiv arXiv cs.CL · 1 д назад

Позиционная маркировка смысла арабско-английского словаря с помощью WordNet

В статье представлен алгоритм, который передает теги части речи на английском языке из Princeton WordNet к арабско-английским смыслам словарей после разрешения неоднозначности. Это позволяет связывать билингвальные словари с WordNet и стандартизировать их в формате WordNet-LMF, где синсеты являются основной единицей, с высокой точностью при низкой стоимости.

arxiv arXiv cs.CL · 1 д назад

MorfFlex: Управление богатой морфологией на чешском языке

MorfFlex — это архитектура морфологического словаря, разработанная для языков с сложной инфлексией и производством. MorfFlex CZ, его основная реализация, содержит более 100 миллионов форм слов и более 1 миллиона лемм, сокращенных с помощью закодированных инфлексионных и производственных паттернов. Оно обеспечивает единообразие аннотаций в Прагском зависимом дереве и обеспечивает работу инструментов, таких как MorphoDiTa.

arxiv arXiv cs.CL · 1 д назад

Стабильность ранжирования промптов в оценке ЛЛМ

Ранжирование промптов в оценке больших языковых моделей часто нестабильно при незначительных вариациях, таких как случайные семена и ограниченные подмножества. Стратегия выбора с учетом стабильности, использующая нижние границы вероятности, повышает устойчивость за счёт учёта как производительности, так и дисперсии, при этом сохраняя конкурентоспособность в стабильных условиях.

arxiv arXiv cs.CL · 1 д назад

AutoSpecNER: Датасет для детализированного распознавания названий в технических характеристиках автомобилей

AutoSpecNER — это датасет из 659 рекламных объявлений автомобилей с более чем 10 000 аннотированных сущностей в 15 категориях. Датасет демонстрирует уровень согласованности между аннотаторами на уровне 91,5% и показывает, что DeBERTa превосходит как правило-ориентированные методы, так и большие языковые модели при извлечении технических характеристик автомобилей, достигая значения микро-F1 в 90%.

arxiv arXiv cs.CL · 1 д назад

LLM-основанная двухэтапная трансформаторная модель для диагностики неисправностей подшипников

Легкая модель трансформатора GPT-2 позволяет выполнять иерархическую обработку признаков из сигналов вибрации. Фреймворк достигает средней точности 92,61% при использовании только 10% меток, превосходя современные методы на 17,24 процентных пункта в задаче диагностики неисправностей подшипников в условиях перехода между доменами.

arxiv arXiv cs.CL · 1 д назад

UOL@IDEM представляет модель предсказания словарного уровня с учётом L1

UOL@IDEM представляет закрытую подачу на BEA 2026, моделирующую предсказание сложности словарных единиц как регрессию для испанского, немецкого и китайского языков. Система интегрирует многолингвистические контекстные векторы с искусственными признаками, такими как частота и сходство когнатов, достигая более низких значений RMSE по сравнению с базовыми моделями, при анализе признаков выделяется частота как наиболее стабильный предиктор, а контекстуальная предсказуемость как ключевой сигнал, чувствительный к уровню первого языка.

arxiv arXiv cs.CL · 1 д назад

RaDaR: ИИ-модель улучшает диагностику редких заболеваний

RaDaR, компактная модель логического мышления, превзошла другие открытые модели по диагностике редких заболеваний. В рандомизированном исследовании RaDaR повысил точность диагностики врачей на 21,44 процентных пункта по сравнению с поиском в интернете.

arxiv arXiv cs.CL · 1 д назад

Постер: Исследование обнаружения мошеннических звонков на основе аудио в турецком

Этот исследовательский проект представляет первый открытый многомодальный датасет из 100 сопоставленных пар аудио-транскриптов для турецких мошеннических и бензинных звонков. В ходе исследования оцениваются семь крупных языковых моделей при использовании исходного аудио, автоматически полученных и ручно исправленных транскриптов, и выявляется, что транскрипты превосходят обработку аудио напрямую, при этом ручная корректировка оказывает минимальное влияние.

arxiv arXiv cs.CL · 1 д назад

AdversaBench: автоматизированная проверка уязвимостей больших языковых моделей с подтверждением несколькими судьями

AdversaBench представляет полную цепочку проверки уязвимостей, которая генерирует враждебные запросы с помощью пяти структурированных операторов, оценивает целевые модели и подтверждает сбои с помощью трех судей с метасудьей в качестве разрешения споров. Эксперименты по 45 исходным запросам в областях логического мышления, выполнения инструкций и использования инструментов показывают, что каждый исходный запрос приводит к подтвержденному сбою, при этом эффективность операторов, количество итераций сбоев, согласие судей и переносимость сбоев между моделями выявляют ключевые паттерны уязвимости больших языковых моделей.

arxiv arXiv cs.CL · 1 д назад

Qwen-AgentWorld: Языковые модели мира для общих агентов

Qwen-AgentWorld-35B-A3B и Qwen-AgentWorld-397B-A17B — это первые языковые модели мира, которые имитируют агентские среды в семи областях с помощью длинной цепи мышления. Обученные с помощью трехэтапной схемы — CPT, SFT и RL — эти модели превосходят существующие передовые модели на AgentWorldBench, критерии, полученные из реальных взаимодействий пяти моделей на девяти установленных задачах.

arxiv arXiv cs.CL · 1 д назад

SIFT и WSP повышают точность проверки фактов

SIFT вводит пересчет доказательств по условию утверждения для лучшего соответствия полному утверждениям, восстанавливая до 27,6 баллов в точности на FEVER, SciFact, 5PILS и DP. WSP, автоматическая проверка логической связи, достигает AUC 0,92 и точности 0,98 при калибровке по человеческим эталонным доказательствам.

arxiv arXiv cs.AI · 1 д назад

MedLayXPlain: Оценка разрыва между экспертами и обычными людьми в медицинских моделях визуально-языковых

MedLayXPlain представляет первый масштабный бенчмарк для генерации медицинской повседневной речи, включающий 122 789 образцов с региональной привязкой в восьми модальностях изображений. Он оценивает медицинские визуально-языковые модели по согласованию между экспертами и обычными людьми с использованием иерархической системы онтологии и лёгкого оценщика, выявляя систематический разрыв: экспертный уровень производительности в описании изображений сопровождается значительным снижением в повседневной речи, при этом общецелевые модели не обладают клинической точностью.