Research paper
arxiv arXiv cs.CL · 1 д назад

Digi Turbine: синтетический бенчмарк с учетом надежности для мониторинга морских ветровых турбин

Digi Turbine — это синтетический бенчмарк, который в своей цели обучения объединяет упрощенную модель балки с основанием грунта по модели Винклера. Он использует байесовский обратный идентификационный метод и метод первого порядка надежности для обеспечения надежной оценки состояния на основе редких данных с датчиков. Проверка основана на синтетических конфигурациях, полученных из ветровой турбины NREL 5MW.

arxiv arXiv cs.CL · 1 д назад

Agon: автономная система исследований через экономику запросов

Agon — это автономная система исследований, которая использует экономику запросов для проверки проверяемых утверждений в рабочих процессах, оставляя оценку людям-исследователям. Система работает в течение 444 итераций с минимальным количеством запросов и без кода, написанного человеком, и выявляет топологию сбоев по степени серьёзности, возможность исправления, видимости и месту расположения функциональности. Система демонстрирует масштабируемость и продвигает исследование к парадигме, в которой машины управляют масштабом, а люди — руководят оценкой.

arxiv arXiv cs.CL · 1 д назад

Декогеренция как защита в квантовых нейронных сетях для обнаружения вторжений

Строгая теория N-кубитов доказывает, что деградирующая шум в стохастических квантовых нейронных сетях экспоненциально сжимает измерения Паули, обеспечивая устойчивое обнаружение аномалий. На наборе данных NSL-KDD такой шум обеспечивает значительную устойчивость к атакам без катастрофического коллапса, превосходя модели без шума и классические детекторы при атаках FGSM и PGD, с уменьшенной вариацией устойчивости и снижением разрыва между обучением и тестированием на уровне примерно 0.01.

arxiv arXiv cs.CL · 1 д назад

SURGELLM: Задача-ориентированная гейтинговая фича с классово-сбалансированной нормализацией

SURGELLM представляет единый фреймворк на основе трансформера с хирургической гейтинговой фичей, задаче-зависимыми префикс-токенами и нормализацией с весом инстанса, чтобы решить несоответствия индуктивных предпосылок, неравномерность классов и отсутствие интеграции лексических знаний. Вариант IWN достигает значения macro-F1 в 0,940 по четырём задачам, превосходя базовые модели на 0,036 в целом и на 0,130 в задаче авторства, прирост подтверждён как лексический, а не параметрический.

arxiv arXiv cs.CL · 1 д назад

Прагский деревообразный корпус, обновлённый до версии 2.0

PDT-C 2.0 представляет собой корпус чешского языка с единообразной аннотацией и разнообразием жанров, содержащий почти 4 миллиона токенов. В нём представлены семантические представления и межпредложные явления, такие как синтаксическая связность и дискурсные отношения, а также сопровождается полностью совместимыми лексиконами. Ресурс доступен под лицензией CC BY-NC-SA.

arxiv arXiv cs.CL · 1 д назад

Модели трансформеров: архитектуры, применения и критический анализ

Настоящий обзор представляет систематизацию моделей на основе трансформеров по направлениям применения, охватывая модели с одним декодером, с одним кодировщиком, кодировщик-декодер, с длинным контекстом, на основе перестановок и с вариантом генератор-дискриминатор. В нем оцениваются достижения после 2023 года, такие как настройка на инструкции и масштабирование смеси экспертов, а также анализ развертывания моделей в области здравоохранения, финансов, права, образования, обслуживания клиентов, креативного письма и научной деятельности, с привязкой каждого к конкретным возможностям. В статье критически анализируется архитектура моделей по четырем ключевым направлениям развертывания, количественно оценивается количество параметров в сравнении с энергозатратами, и изучается, как методы синхронизации, происхождение данных и насыщение тестов определяют «уровень передовой техники».

arxiv arXiv cs.CL · 1 д назад

PETRA: Датасет и пайплайн для адаптации текстов в нефтегазовой инженерии

PETRA преобразует публичный веб-текст в отобранный корпус нефтегазовой инженерии с синтетической надзорной функцией для плотного поиска и переранжирования. В результате достигается рост в-доменной nDCG с 0,703 до 0,763 и повышение производительности в области геологии на 44% и на 23% в шести задачах логического мышления.

arxiv arXiv cs.CL · 1 д назад

Позиционная маркировка смысла арабско-английского словаря с помощью WordNet

В статье представлен алгоритм, который передает теги части речи на английском языке из Princeton WordNet к арабско-английским смыслам словарей после разрешения неоднозначности. Это позволяет связывать билингвальные словари с WordNet и стандартизировать их в формате WordNet-LMF, где синсеты являются основной единицей, с высокой точностью при низкой стоимости.

arxiv arXiv cs.CL · 1 д назад

MorfFlex: Управление богатой морфологией на чешском языке

MorfFlex — это архитектура морфологического словаря, разработанная для языков с сложной инфлексией и производством. MorfFlex CZ, его основная реализация, содержит более 100 миллионов форм слов и более 1 миллиона лемм, сокращенных с помощью закодированных инфлексионных и производственных паттернов. Оно обеспечивает единообразие аннотаций в Прагском зависимом дереве и обеспечивает работу инструментов, таких как MorphoDiTa.

arxiv arXiv cs.CL · 1 д назад

Стабильность ранжирования промптов в оценке ЛЛМ

Ранжирование промптов в оценке больших языковых моделей часто нестабильно при незначительных вариациях, таких как случайные семена и ограниченные подмножества. Стратегия выбора с учетом стабильности, использующая нижние границы вероятности, повышает устойчивость за счёт учёта как производительности, так и дисперсии, при этом сохраняя конкурентоспособность в стабильных условиях.

arxiv arXiv cs.CL · 1 д назад

AutoSpecNER: Датасет для детализированного распознавания названий в технических характеристиках автомобилей

AutoSpecNER — это датасет из 659 рекламных объявлений автомобилей с более чем 10 000 аннотированных сущностей в 15 категориях. Датасет демонстрирует уровень согласованности между аннотаторами на уровне 91,5% и показывает, что DeBERTa превосходит как правило-ориентированные методы, так и большие языковые модели при извлечении технических характеристик автомобилей, достигая значения микро-F1 в 90%.

arxiv arXiv cs.CL · 1 д назад

LLM-основанная двухэтапная трансформаторная модель для диагностики неисправностей подшипников

Легкая модель трансформатора GPT-2 позволяет выполнять иерархическую обработку признаков из сигналов вибрации. Фреймворк достигает средней точности 92,61% при использовании только 10% меток, превосходя современные методы на 17,24 процентных пункта в задаче диагностики неисправностей подшипников в условиях перехода между доменами.

arxiv arXiv cs.CL · 1 д назад

UOL@IDEM представляет модель предсказания словарного уровня с учётом L1

UOL@IDEM представляет закрытую подачу на BEA 2026, моделирующую предсказание сложности словарных единиц как регрессию для испанского, немецкого и китайского языков. Система интегрирует многолингвистические контекстные векторы с искусственными признаками, такими как частота и сходство когнатов, достигая более низких значений RMSE по сравнению с базовыми моделями, при анализе признаков выделяется частота как наиболее стабильный предиктор, а контекстуальная предсказуемость как ключевой сигнал, чувствительный к уровню первого языка.

arxiv arXiv cs.CL · 1 д назад

RaDaR: ИИ-модель улучшает диагностику редких заболеваний

RaDaR, компактная модель логического мышления, превзошла другие открытые модели по диагностике редких заболеваний. В рандомизированном исследовании RaDaR повысил точность диагностики врачей на 21,44 процентных пункта по сравнению с поиском в интернете.

arxiv arXiv cs.CL · 1 д назад

Постер: Исследование обнаружения мошеннических звонков на основе аудио в турецком

Этот исследовательский проект представляет первый открытый многомодальный датасет из 100 сопоставленных пар аудио-транскриптов для турецких мошеннических и бензинных звонков. В ходе исследования оцениваются семь крупных языковых моделей при использовании исходного аудио, автоматически полученных и ручно исправленных транскриптов, и выявляется, что транскрипты превосходят обработку аудио напрямую, при этом ручная корректировка оказывает минимальное влияние.

arxiv arXiv cs.CL · 1 д назад

AdversaBench: автоматизированная проверка уязвимостей больших языковых моделей с подтверждением несколькими судьями

AdversaBench представляет полную цепочку проверки уязвимостей, которая генерирует враждебные запросы с помощью пяти структурированных операторов, оценивает целевые модели и подтверждает сбои с помощью трех судей с метасудьей в качестве разрешения споров. Эксперименты по 45 исходным запросам в областях логического мышления, выполнения инструкций и использования инструментов показывают, что каждый исходный запрос приводит к подтвержденному сбою, при этом эффективность операторов, количество итераций сбоев, согласие судей и переносимость сбоев между моделями выявляют ключевые паттерны уязвимости больших языковых моделей.

arxiv arXiv cs.CL · 1 д назад

Qwen-AgentWorld: Языковые модели мира для общих агентов

Qwen-AgentWorld-35B-A3B и Qwen-AgentWorld-397B-A17B — это первые языковые модели мира, которые имитируют агентские среды в семи областях с помощью длинной цепи мышления. Обученные с помощью трехэтапной схемы — CPT, SFT и RL — эти модели превосходят существующие передовые модели на AgentWorldBench, критерии, полученные из реальных взаимодействий пяти моделей на девяти установленных задачах.

arxiv arXiv cs.CL · 1 д назад

SIFT и WSP повышают точность проверки фактов

SIFT вводит пересчет доказательств по условию утверждения для лучшего соответствия полному утверждениям, восстанавливая до 27,6 баллов в точности на FEVER, SciFact, 5PILS и DP. WSP, автоматическая проверка логической связи, достигает AUC 0,92 и точности 0,98 при калибровке по человеческим эталонным доказательствам.

arxiv arXiv cs.AI · 1 д назад

MedLayXPlain: Оценка разрыва между экспертами и обычными людьми в медицинских моделях визуально-языковых

MedLayXPlain представляет первый масштабный бенчмарк для генерации медицинской повседневной речи, включающий 122 789 образцов с региональной привязкой в восьми модальностях изображений. Он оценивает медицинские визуально-языковые модели по согласованию между экспертами и обычными людьми с использованием иерархической системы онтологии и лёгкого оценщика, выявляя систематический разрыв: экспертный уровень производительности в описании изображений сопровождается значительным снижением в повседневной речи, при этом общецелевые модели не обладают клинической точностью.

arxiv arXiv cs.AI · 1 д назад

QBioFusion-QSAR: квантовое ядро обучения для классификации лигандов на малом объёме данных

QBioFusion-QSAR интегрирует квантовое ядро фиделитета с отпечатками Моргана/Танимото для улучшения классификации лигандов. На бенчмарке PsychLight-A квантовое ядро (QMKL) повысило точность и MCC по сравнению с Морганом/Танимото в отдельности, улучшения объясняются более точными предсказаниями молекул с краями активности, такими как N-Me-5-HT и N-Me-tryptamine. Аудиторный анализ подтверждает локализованные вклады квантового ядра в условиях малого объёма данных.