Все статьи
arxiv arXiv cs.CL · 8 ч назад

За пределами поверхностных форм: комплексная таксономия, ориентированная на механизмы, косвенного лингвистического кодирования для обнаружения закодированного языка на основе LLM

Исследователи предлагают таксономию, ориентированную на механизмы, косвенных лингвистических выражений (ILE) для классификации базовых операций, используемых для кодирования и восстановления смысла в закодированном языке. Этот подход абстрагируется от коммуникативных целей, чтобы сосредоточиться на конкретных механизмах кодирования, обнаруживаемых в алгоспике, эвфемизмах и враждебном обфускации.

arxiv arXiv cs.CL · 8 ч назад

Исследование критериев приемлемости на основе LLM в немецком Центробанке

В данной статье представлен первый кейс применения больших языковых моделей к процессу немецкого Центробанка по проверке приемлемости ценных бумаг для обеспечения, с переходом от традиционного распознавания именованных сущностей к генеративному конвейеру извлечения информации. Подход разбивает задачу на извлечение, нормализацию и интерпретацию для более эффективной работы с зашумленным текстом и двуязычным контентом.

arxiv arXiv cs.CL · 8 ч назад

Расширение возможностей GUI-агентов за счёт автономного исследования опыта и использования ретроспективного опыта

Исследователи предлагают метод PEEU (Planning Experience Exploration and Utilization) для улучшения планирования задач в мультимодальных веб-агентах с использованием небольших открытых мультимодальных больших языковых моделей (MLLM). Этот подход автономно исследует окружения для обнаружения опыта и синтезирует высокоуровневые обучающие данные посредством использования ретроспективного опыта.

arxiv arXiv cs.CL · 8 ч назад

Оценка изменений качества раскрытия информации о рисках после реформ с помощью многомерного текстового анализа

В данном исследовании предлагается продольная рамка текстового анализа, сочетающая извлечение метрик NLP на японском языке с парным тестированием и анализом функций сдвига для оценки качественных изменений в корпоративных раскрытиях рисков. Примененная к реформам раскрытия информации 2019 года в Японии, методология анализирует 19 770 наблюдений «фирма-год» за десять лет, чтобы уловить многомерную динамику, часто маскируемую методами с одним индикатором.

arxiv arXiv cs.CL · 8 ч назад

Картирование сетей политических элит в Европе с помощью многоязычного конвейера совместного извлечения сущностей и отношений

Исследователи представляют модульный, полностью открытый по весам конвейер для многоязычного совместного извлечения сущностей и отношений, который строит знаковые временные графы знаний на основе массивных неструктурированных корпусов новостей. Система объединяет распознавание именованных сущностей на основе спанов с каскадом связывания с Wikidata и моделью смеси экспертов, ограниченной онтологией, для извлечения направленных отношений.

arxiv arXiv cs.CL · 8 ч назад

DanceOPD: Дистилляция генеративного поля с использованием on-policy подхода

Авторы представляют DanceOPD, фреймворк дистилляции генеративного поля с использованием on-policy подхода, предназначенный для объединения генерации изображений по тексту с возможностями локального и глобального редактирования в моделях flow-matching. Этот подход маршрутизирует выборки к конкретным полям возможностей и обучается с использованием целевой функции MSE скорости (velocity) для композиции экспертных навыков без взаимных помех.

media r/LocalLLaMA · 8 ч назад

Ornith-1.0: открытые LLM для агентного программирования

Ornith-1.0 — новое семейство открытых больших языковых моделей, специализированных для задач агентного программирования. Семейство моделей включает несколько размеров параметров, в том числе конфигурации 9B Dense, 35B MoE и 397B MoE.

arxiv arXiv cs.CL · 8 ч назад

Nemotron-TwoTower: Диффузионное языковое моделирование с предварительно обученным авторегрессионным контекстом

NVIDIA представляет Nemotron-TwoTower, диффузионную языковую модель, которая разделяет представление контекста и итеративное удаление шума на две отдельные сети для преодоления ограничений пропускной способности существующих подходов. Построенная на основе модели с открытыми весами Nemotron-3-Nano-30B-A3B и обученная на 2,1 трлн токенов, она сохраняет 98,7% качества базовой авторегрессионной модели, достигая при этом в 2,42 раза более высокой пропускной способности генерации по реальному времени.

arxiv arXiv cs.CL · 8 ч назад

Люди отказываются от усилий, модели рассуждения продолжают: разделение регистрации сложности и распределения обдумывания

Исследование показывает, что хотя большие модели рассуждения (LRM) и люди тратят больше времени на более сложные задачи, они существенно расходятся в том, как распределяют обдумывание внутри конкретных примеров. При совершении ошибок LRM генерируют больше токенов, чем при правильных ответах, тогда как люди делают наоборот, тратя меньше времени на промахи.

arxiv arXiv cs.CL · 8 ч назад

MemStrata: Устранение ошибок устаревших фактов в агентах RAG посредством временной валидности

В статье представлен MemStrata, система памяти поиска, предназначенная для устранения ошибок устаревших фактов в ИИ-агентах путем поддержания временной валидности в накопленных знаниях. В отличие от стандартного Retrieval-Augmented Generation (RAG), который испытывает трудности с различением дублированных и противоречащих фактов из-за сходства эмбеддингов, MemStrata использует детерминированное правило замещения для вывода устаревшей информации.

arxiv arXiv cs.CL · 8 ч назад

Erase-then-Delta Attention: Разделение адресов стирания и записи в линейном внимании с дельта-правилом

Авторы предлагают Erase-then-Delta Attention (EDA), правило обновления памяти для рекуррентных моделей, которое разделяет адрес, используемый для стирания устаревшей информации, и адрес, используемый для записи нового контента. Этот подход устраняет ограничение линейного внимания с дельта-правилом, которое не может активно удалять устаревшие данные, хранящиеся в разных местах, перед записью.

arxiv arXiv cs.CL · 9 ч назад

Пробел невнимательности: модели, адаптированные под задачу, игнорируют сигналы безопасности

Исследование показывает, что адаптация языковых и зрительных моделей к узким задачам подавляет их способность сообщать о сопутствующих критически важных сигналах безопасности, которые они в противном случае могли бы обнаружить. Это явление, названное «Пробелом невнимательности», демонстрирует разрыв между измеренной безопасностью по бенчмаркам и реальной безопасностью.

arxiv arXiv cs.CL · 9 ч назад

DiARC: Разделение положительных и отрицательных примеров помогает улучшить способность к рассуждению в стиле ARC у больших языковых моделей

В статье представлен DiARC — метод, улучшающий способности к абстрактному рассуждению больших языковых моделей за счёт включения обучения с использованием отрицательных примеров наряду с положительными. Этот подход решает ограничения существующих методов, которые сильно полагаются на аугментацию данных или дорогие закрытые модели.

arxiv arXiv cs.CL · 9 ч назад

Настройка аппроксимации, управляемая компилятором, для гиперразмерных вычислений

Авторы представляют ApproxHDC — фреймворк, который автоматизирует выявление и применение специфичных для домена аппроксимаций в рабочих нагрузках гиперразмерных вычислений (HDC). Эта система расширяет инфраструктуру компилятора HPVM-HDC, обеспечивая перенастраиваемую компиляцию для различных аппаратных бэкендов, включая ЦП, ГП и симулированные ускорители ReRAM и PCM.

arxiv arXiv cs.CL · 9 ч назад

Атаки диффузии между модальностями: обзор слияния атак, защит и оценки

Этот обзор объединяет четыре разрозненных направления adversarial-оценки — диффузионные атаки на текст и LLM, классификаторы изображений, vision-language модели и защиты по очистке входных данных — в единую концептуальную рамку. Он фокусируется на части, связанной с LLM, чтобы унифицировать терминологию, модели угроз и бенчмарки вокруг denoising diffusion как общего механизма генерации.

arxiv arXiv cs.CL · 9 ч назад

Обнаружение позиции на уровне твитов без обучения с примерами, усиленное внешними знаниями и рефлексивным рассуждением по цепи мыслей

Исследователи предлагают KIRP — фреймворк обнаружения позиции без обучения с примерами (zero-shot), который решает проблему разреженности контекста и нерелевантности неявных целей в коротких текстах за счёт интеграции внешних знаний с рефлексивным рассуждением по цепи мыслей. В исследовании также представлена первая японская датасет на уровне твитов для обнаружения позиции, предназначенная для поддержки многозадачной оценки.

arxiv arXiv cs.CL · 9 ч назад

Устранение разрыва в качестве синтеза речи для малоресурсных языков: дообучение VoxCPM2 с помощью LoRA для кхмерского и корейского

Исследователи устраняют разрыв в качестве синтеза речи для малоресурсных языков путем дообучения модели VoxCPM2 на 2,4 млрд параметров с использованием адаптации низкого ранга (LoRA) на общем корпусе данных кхмерского и корейского языков.

arxiv arXiv cs.CL · 9 ч назад

Регуляризация активаций, направляемая SAE, для непрерывного обучения больших языковых моделей

В данной статье предлагается новый подход к проблеме катастрофического забывания в больших языковых моделях за счёт регуляризации в пространстве активаций с использованием предварительно обученных разреженных автоэнкодеров (SAE) в качестве словаря моносемантических признаков, вместо традиционных методов в пространстве весов, таких как Elastic Weight Consolidation (EWC).