Все статьи
arxiv arXiv cs.CL · 7 ч назад

Семантическая согласованность узел-окрестность: выравнивание текста и топологии для обнаружения аномалий в TAG

В данной статье рассматривается задача обнаружения аномалий на графах с текстовыми атрибутами (TAG) путем формализации её как проблемы семантической согласованности между узлом и его окрестностью, где аномалии возникают из-за несоответствия между текстовой семантикой и топологическими связями. Авторы предлагают N2NSC — фреймворк, использующий два дополнительных пути слияния для выравнивания топологии графа с текстовой семантикой, что позволяет большим языковым моделям (LLM) использовать как структурную, так и текстовую информацию окрестности.

arxiv arXiv cs.CL · 7 ч назад

SHOVIR: Бенчмарк для оценки обучения визуальным ярлыкам при генерации радиологических отчетов

Бенчмарк SHOVIR оценивает обучение визуальным ярлыкам при генерации радиологических отчетов путем расширения MIMIC-CXR и PadChest-GR с помощью меток CheXpert для каждой коробки (bounding box). Он использует эксперименты по окклюзии на уровне изображений и заболеваний, чтобы изолировать прямые и контекстуальные ярлыки, где модели полагаются на ложные корреляции, а не на реальные визуальные доказательства.

github llama.cpp · 7 ч назад

Выпуск llama.cpp b9844 добавляет поддержку NVFP4 и новые бинарные файлы

Проект llama.cpp выпустил версию b9844, которая вводит поддержку формата квантования ggml-webgpu NVFP4. Это обновление также предоставляет предварительно собранные бинарные файлы для macOS, iOS, Linux, Android, Windows и openEuler для различных аппаратных бэкендов.

arxiv arXiv cs.CL · 8 ч назад

Не совсем человеческие вкусы: стилизованная всеядность суррогатов опросов LLM

В данном исследовании оценивается способность больших языковых моделей аппроксимировать человеческие культурные вкусы путем генерации кремниевых суррогатов на основе Опроса общественного участия в искусстве. Используя модели от OpenAI, Anthropic и DeepSeek, авторы анализируют 277 470 синтетических респондентов, чтобы определить, могут ли LLM достоверно воспроизводить реальные данные опросов.

arxiv arXiv cs.CL · 8 ч назад

Эффективное извлечение с дополнением через графы совместной встречаемости токенов

Исследователи предлагают TIGRAG (Token-Induced GraphRAG) — фреймворк, использующий статистику совместной встречаемости токенов для построения масштабируемых графов знаний с целью эффективного извлечения с дополнением. Этот подход устраняет ограничения стандартного RAG в задачах многошагового рассуждения за счёт отказа от дорогостоящих конвейеров извлечения на основе LLM.

arxiv arXiv cs.CL · 8 ч назад

Динамика информации в языковом общении

Исследователи предлагают информационно-теоретическую рамку для количественной оценки направленного потока семантического содержания между собеседниками и декомпозиции многоисточниковых вкладов на избыточные, уникальные и синергетические компоненты.

arxiv arXiv cs.CL · 8 ч назад

Действительно ли подробное мышление по цепочке помогает? Внутри распределения доказательства того, что важнее содержание, а не длина

Это исследование исследует, улучшает ли подробное мышление по цепочке рассуждения больших языковых моделей за счёт увеличения вычислений или предоставления полезного семантического содержания. Авторы представляют доказательства из внутри распределённой выборки и контролируемых вмешательств для определения конкретных факторов, приводящих к улучшению производительности.

arxiv arXiv cs.CL · 8 ч назад

Языковые модели ДНК: Оценка преимуществ предобучения для задач дообучения

В данном исследовании оцениваются приросты производительности трансформерных языковых моделей ДНК, таких как DNABERT2, по сравнению с традиционными подходами, такими как ConvNova, уделяя особое внимание высокой стоимости предобучения. Исследуется, оправдывают ли эти улучшения вычислительные накладные расходы, и анализируется влияние токенизации Byte Pair Encoding (BPE) на геномные задачи.

arxiv arXiv cs.CL · 8 ч назад

Оценка направлений грамматического рода в контекстных эмбеддингах при контролируемых и естественных контекстах

Настоящее исследование решает проблему смешения грамматического рода и социального семантического смещения в контекстных языковых моделях для родовых языков, таких как испанский, предлагая фреймворк для разделения этих измерений. Авторы создают сбалансированные наборы данных с использованием контролируемых шаблонов и естественных контекстов из Википедии для оценки направлений рода при подавлении загрязнения.

arxiv arXiv cs.CL · 8 ч назад

CORTEX: высококачественная кросс-доменная организация веб-корпусов через онтологический граф корпусов

Авторы представляют Cortex — фреймворк, который преобразует конструирование веб-корпусов масштаба интернета из плоской фильтрации документов в структурированную организацию знаний с использованием онтологического графа корпусов (OCG). Эта трехуровневая структура объединяет контент, очищенный по качеству, иерархическую легковесную онтологию и кросс-доменное выравнивание для удовлетворения растущих требований к данным больших языковых моделей.

arxiv arXiv cs.CL · 8 ч назад

DAIN: Динамическая сеть взаимодействий на основе агентов для эффективного и совместного мультимодального рассуждения

Исследователи представляют Динамическую сеть взаимодействий на основе агентов (DAIN), framework, который переосмысливает мультимодальное слияние как динамический процесс совместной работы нескольких агентов, а не полагается на статические архитектуры. DAIN использует контекстно-зависимый Мета-контроллер для динамического планирования разреженной активации специализированных агентов и организует сжатую коммуникацию для достижения консенсуса.

arxiv arXiv cs.CL · 8 ч назад

Предупреждён — значит вооружён: когда не последовательные эмбеддинги становятся детектором аномалий

В данной работе анализируются не последовательные мультимодальные эмбеддинги на уровне предложений, с особым вниманием к модели SONAR, чтобы показать, что определенные измерения эмбеддингов чувствительны к возмущениям и могут указывать на аномалии декодирования. Используя согласованность между последовательными этапами кодирования и декодирования, авторам удалось создать точный детектор аномалий.

arxiv arXiv cs.CL · 9 ч назад

Прежде чем думать, научитесь принимать решения: проактивная маршрутизация для эффективного визуального рассуждения

Авторы предлагают PRP (Proactive Routing Paradigm — парадигму проактивной маршрутизации), которая ускоряет вывод в больших мультимодальных моделях за счёт раннего принятия решений посредством совместной оценки компетентности черновой и целевой моделей. Этот подход решает проблему создания надёжных сигналов сложности запроса в мультимодальных условиях без опоры на чувствительные к данным методы супервизированного тонкого обучения или постфактум вероятностей токенов.

arxiv arXiv cs.CL · 9 ч назад

EvalSafetyGap: Гибридный обзор и концептуальная рамка для оценки провалов безопасности LLM

Эта статья решает проблему общего измерения в оценке LLM и безопасности ИИ, где баллы бенчмарков часто улучшаются, тогда как скрытые свойства безопасности остаются трудными для проверки. Она представляет EvalSafetyGap — гибридный обзор и концептуальная рамка, сочетающая систематический синтез доказательств со структурированным аудитом десяти моделей.

arxiv arXiv cs.CL · 9 ч назад

CaresAI на CT-DEB26: Обнаружение ошибок дозирования в клинических испытаниях с использованием специализированных трансформерных эмбеддингов и моделей классификации

В данном исследовании оценивается использование специализированных трансформерных эмбеддингов, объединенных с классическими моделями машинного обучения, для обнаружения ошибок дозирования в протоколах клинических испытаний. Исследование направлено на повышение безопасности пациентов и целостности испытаний за счет раннего выявления предотвратимых ошибок приема лекарств посредством анализа текстовых представлений.

arxiv arXiv cs.CL · 9 ч назад

Сравнение человеческого и автоматического распознавания непрерывной нидерландской дизартрической речи: исследование случая

В данном исследовании сравнивалась производительность распознавания человеческих слушателей с тремя современными готовыми системами ASR (Whisper-large-V3, Google Chirp 3 и Omnilingual) на непрерывной читаемой и спонтанной нидерландской речи одного говорящего с тяжелой дизартрией.

arxiv arXiv cs.CL · 9 ч назад

Заземление рассуждений LLM при неполных графовых доказательствах

В данной статье представлен теоретический каркас для заземления траекторий рассуждений больших языковых моделей, опирающихся на неполные доказательства из графа знаний, а не на полные состояния истины.

arxiv arXiv cs.CL · 9 ч назад

Мультиагентная система на базе открытых LLM для смягчения угроз дезинформации

В данной статье предлагается новая мультиагентная система, имитирующая процессы принятия решений аннотаторов-людей для обнаружения и разоблачения дезинформации, демонстрирующая превосходные результаты по сравнению с отдельными большими языковыми моделями, такими как GPT-4 и GPT-3.5.

arxiv arXiv cs.CL · 9 ч назад

Когда черновик принимается? Теория принятия решений в спекулятивном декодировании

В данной статье разрабатывается теория для режимов спекулятивного декодирования, использующих жадное декодирование, ослабленные правила принятия или деревья кандидатов, а не стохастические среды сохранения распределения, изученные в существующей литературе. Авторы характеризуют области отклонения как нижние уровни целевого распределения для вывода точных требований к расхождению Кульбака-Лейблера и строгих границ на основе маржи для различных критериев принятия.

arxiv arXiv cs.CL · 9 ч назад

DialogPII: многоязычный набор синтетических диалоговых транскриптов для обнаружения персональных данных

Исследователи представляют DialogPII — многоязычный набор синтетических диалоговых транскриптов, разработанный для поддержки разработки и оценки автоматических систем обнаружения лично идентифицируемой информации. Этот ресурс решает вопросы конфиденциальности в чувствительных областях, предоставляя аннотированные данные на 11 языках и в восьми сценариях взаимодействия.