Research paper
arxiv arXiv cs.LG · 1 д назад

Двойное внимание конволюционных экспертов для заполнения редких тензоров

DCGC вводит сеть двойного внимания конволюции и групповое контрастное обучение для улучшения заполнения редких тензоров. Метод захватывает сложные взаимодействия между модами и снижает уязвимость к редкости данных за счёт самосупервизированных сигналов, превосходя современные методы на датасетах трафика и рекомендаций.

arxiv arXiv cs.LG · 1 д назад

Общие кодеры для модульного реляционного глубокого обучения

В статье предложена модульная реляционная модель глубокого обучения, которая разделяет кодирование строк на передачу сообщений в графе. Вводится трансформер-базированный универсальный кодер строк, который использует метаданные схемы для генерации инвариантных векторов строк, что позволяет улучшить обобщение на разных базах данных и ускорить сходимость на бенчмарках RelBench.

arxiv arXiv cs.LG · 1 д назад

Пipelines на основе пространства субъекта превосходят аналоги в пространстве шаблона при сегментации подкорковых структур

Пipelines на основе пространства субъекта, основанные на UNet, превосходят аналоги в пространстве шаблона при сегментации подкорковых структур, демонстрируя более высокие значения Dice и более низкие значения HD95 для ядер подталамической области, красного ядра и подстволной нервной ткани. Показатели производительности значительно падают при применении к изображениям 3T, при синтетическом обучении на данных 3T наблюдается лишь незначительное улучшение, что подчеркивает существующий разрыв между 7T и 3T МРТ.

arxiv arXiv cs.LG · 1 д назад

Глубокое обучение объединяет данные спутников с метеорологическими характеристиками для оценки влажности почвы

Исследование подтверждает метод кросс-корреляции для определения оптимальных временных и глубинных сдвигов между метеорологическими переменными и влажностью почвы. Используя данные спутников и метеорологических измерений на семи сельскохозяйственных участках в юго-западной части Испании, глубокие нейронные сети достигли значительного улучшения: CNN на уровне пикселя достиг R² = 0,877, в то время как гибридная модель CNN-LSTM достигла наивысшей общей производительности с R² = 0,930. Информация о подземной глубине и метеорологические характеристики значительно повысили точность оценки.

arxiv arXiv cs.LG · 1 д назад

Несоответствие обучения с помощью противоречивых данных для нелинейных моделей

Формальное доказательство показывает, что между риском противоречивого обучения и риском регуляризации в двухслойных сетях не существует эквивалентности. Эмпирические результаты на Wide-ResNets подтверждают, что эта невозможность сохраняется в более глубоких и более выразительных архитектурах.

arxiv arXiv cs.LG · 1 д назад

Машинное обучение предсказывает высокорисковые полипы кишечника у афроамериканцев

Модель машинного обучения, разработанная на основе клинических данных до колоноскопии, предсказывает высокорисковые полипы кишечника у афроамериканцев. Модель, подтвержденная в разнообразной городской группе, использует демографические, образовательные и данные о сопутствующих заболеваниях для выявления пациентов с повышенным риском, с внешней валидацией, проведенной в 2023-2024 годах.

arxiv arXiv cs.LG · 1 д назад

JS-Разделение повышает автокорреляционную синхронизацию текста и изображения в GRPO

Исследование вводит JS-разделение в автокорреляционную синхронизацию текста и изображения в стиле GRPO, демонстрируя его эффективность в балансировке оптимизации политики и разнообразия генерации. Эксперименты на LlamaGen и Janus-7B показывают, что JS-разделение достигает лучших или конкурентоспособных результатов по всем метрикам, сохраняя разнообразные выводы.

arxiv arXiv cs.LG · 1 д назад

Глубокое обучение с параллельной временной сложностью O(log N)

Гиерархическое блочное локальное обучение (HBLL) позволяет обучать глубокие нейронные сети за временной сложностью O(log N) в параллельном режиме, устраняя необходимость полного обратного распространения. HBLL разбивает сети на гиерархически связанные блоки и достигает конкурентоспособных результатов на задачах визуального и языкового понимания, с расширениями на рекуррентные архитектуры.

arxiv arXiv cs.LG · 1 д назад

Анонимизированное распределенное обучение временных графов для кибер-устойчивых систем Интернета вещей

В статье представлено распределенное решение TGCN-A2C, обеспечивающее 99,48% и 99,61% точности на тестовых данных CICDDoS 2019 и TON-IoT, превосходя Fed-Inforce-Fusion на 0,21 процентный пункт. Включает обнаружение аномалий, оценку на основе цифрового двойника, адаптивный выбор действий и улучшенный слой ловушек, при этом все основные классы атак достигают значений F1 выше 0,92 и 0.94 соответственно, и обеспечивает пост-объяснение с помощью SHAP, LIME, Grad-CAM и анализа контрапримеров.

arxiv arXiv cs.CL · 1 д назад

Исследование психических моделей пользователей в переводе речи

Новый фреймворк, использующий межязычные вопросы о переводе, раскрывает психические модели пользователей систем перевода речи. Психические модели пользователей становятся сильнее при практике, особенно при наличии знаний на языке источника, и они опираются на поверхностные сигналы ошибок. Предоставление транскрипций речи улучшает развитие моделей, что демонстрирует потенциал межязычных вопросов о переводе в исследованиях взаимодействия человека и ИИ.

arxiv arXiv cs.CL · 1 д назад

AI-PAVE-Br: LLM-Base PAVE для бразильского электронного коммерции

AI-PAVE-Br использует большие языковые модели для улучшения извлечения значений атрибутов продуктов в бразильском электронном коммерции. Система превосходит традиционные методы распознавания сущностей, при этом новый набор Golden Set предоставляет ручно аннотированный стандарт для португальских данных о продуктах.

arxiv arXiv cs.CL · 1 д назад

DREAM: авторегрессивное обучение для плотных векторов поиска

DREAM использует авторегрессивную предсказание следующего токена для контроля процесса обучения векторов поиска. В него вводятся оценки сходства запроса-документа в внимательные головы замороженной языковой модели, что позволяет проводить обратное распространение градиентов для оптимизации поискового модуля. DREAM превосходит базовые методы на тестах BEIR и RTEB при различных масштабах моделей.

arxiv arXiv cs.CL · 1 д назад

CANDLE: Легкая дедупликация шумов на арабском языке с использованием CTC

CANDLE — это легкая система, которая использует Connectionist Temporal Classification для устранения дублирования повторяющихся символов в арабском тексте, не используя ручно разработанные правила или морфологические анализаторы. Система достигает ошибки в предложении 5,37% и снижает плотность токенизатора на 12,8%, что уменьшает затраты на инференс и улучшает использование контекстного окна.

arxiv arXiv cs.CL · 1 д назад

Рынки микро-транзакций для проверенной информации о продуктах в агентной электронной коммерции

Агенты в электронной коммерции сталкиваются с дефицитом надежной информации о продуктах, а не с проблемой соответствия продуктов. Предлагаемая модель микро-транзакций позволяет агентам платить дробные центы за доступ к проверенным данным, таким как истории обслуживания и отчеты о тестах, с определением цен и доверия через репутацию. Эта система приоритизирует реальную продукт-качество и получение информации в реальном времени, а не гладкость чат-ботов.

arxiv arXiv cs.CL · 1 д назад

L3Cube-MahaPOS: датасет маратхи и модели BERT

L3Cube-MahaPOS вводит датасет стандарта для тегирования частей речи на маратхи, вручную аннотированный 32 354 предложением из новостного текста. Включает схему 16 тегов универсальных зависимостей и проводит оценку шести семейств моделей, достигая точности на уровне токенов 88,67% и макро-F1 81,67% на 15 классах тегов с использованием MahaBERT-v2.

arxiv arXiv cs.CL · 1 д назад

Выбор обучающих данных с учетом качества для научного синтеза

Мы создали и опубликовали большой биомедицинский набор данных, содержащий 1,88 миллиона статей PMC. Анализ показывает, что авторские аннотации варьируются по качеству и соответствию исходным статьям, что позволяет эффективно выбирать обучающие данные. Обучение на высококачественных подмножествах превосходит случайный выбор и сопоставимо с более крупными случайными подмножествами по метрикам фактичности.

arxiv arXiv cs.CL · 1 д назад

Лингвистические отпечатки раскрывают региональные происхождения таньских поэтов

Компьютерный анализ полного собрания таньских поэзий показывает, что географические происхождения поэтов оставляют заметные лингвистические следы. Модели, использующие характеристики n-грамм символов TF-IDF и доменных признаков, достигают точности 0,69 при предсказании широких региональных происхождений (юг против севера), превышающей случайность, и корректно классифицируют более тонкие региональные происхождения. Исследование показывает, что лингвистическая дистанция между регионами коррелирует с географической дистанцией, с увеличением регионального расхождения в поздний период Тан, и подчеркивает исторические предвзятости в стиле поэзии раннего Тан.

arxiv arXiv cs.CL · 1 д назад

Первый масштабный анализ сетей совместного появления алгоритмов

Это исследование анализирует влияние алгоритмов через сети совместного появления в области обработки естественного языка, используя полный текст научных статей. Оно показывает, что сети алгоритмов демонстрируют сложные сетевые характеристики, с более плотными связями, возникающими в течение двух десятилетий, и что классические алгоритмы на пересечениях исследований показывают высокую центральность и сбалансированное влияние. Исследование предоставляет временной и структурный взгляд на эволюцию алгоритмов и создает основу для будущих исследований по сетям алгоритмов, ученых и задач.

arxiv arXiv cs.CL · 1 д назад

PORTER: Языково-обоснованные представления событий для портативных фундаментальных моделей электронных медицинских записей

PORTER представляет структурированную фундаментальную модель электронных медицинских записей, основанную на языке, которая описывает клинические события через описания, а не через фиксированные словари. Оно достигает превосходных результатов на 74 задачах прогнозирования для детей и эффективно переносится на новые словари без переобучения, восстанавливая 97,1% целевых AUROC и превосходя модели на основе фиксированных словарей на MIMIC, при вычислительной нагрузке в 329 раз ниже, чем у подходов на основе сериализации текста.

arxiv arXiv cs.CL · 1 д назад

Ошибки калибровки LoRA Monitor при использовании Top-1 в диффузионных языковых моделях

Сбои в концентрации аргмакса Top-1 выступают в качестве предупреждения о коллапсе в диффузионных языковых моделях, оптимизированных с помощью LoRA, и показывают нулевую точность при 816 конфигурациях. Максимальная норма градиента LoRA превосходит этот базовый вариант, достигая точности 0,68 и F1 0,79 на отложенной выборке LLaDA, хотя результаты ограничены короткими горизонтами и специфическими семействами.