Все статьи — korshunov.ai

Все статьи Страница 1 / 101

Каскадное многоуровневое прунинг-упрощение для вывода LLM на устройствах в промышленном IoT

В данной статье представлен каскадный фреймворк многоуровневого прунинга, предназначенный для развертывания больших языковых моделей на периферийных устройствах Промышленного Интернета Вещей (IIoT) путем удаления слоев, голов внимания и каналов прямого распространения в порядке от грубого к тонкому. Метод использует легковесное восстановление низкой ранговости между этапами для повторной оценки важности компонентов, решая проблему коллапса существующих методов структурированного прунинга при высоких коэффициентах сжатия.

arxiv arXiv cs.CL · 3 ч назад

InfoKV: Сжатие KV-кэша с учётом информации для длинных рассуждений

Исследователи представляют InfoKV, фреймворк, учитывающий энтропию, который сжимает ключ-значения кэши, объединяя предиктивную неопределённость на уровне токенов с баллами внимания для улучшения рассуждений в длинном контексте.

arxiv arXiv cs.CL · 3 ч назад

Гетерогенная нейронная предсказуемость языковых моделей при естественном понимании

В данном исследовании показано, что замороженные языковые модели могут служить эффективными нейронными предикторами мозговой активности при естественном восприятии речи и текста, при этом разделяя предсказательную полезность и утверждения о.shared нейронной организации. Анализ данных МЭГ и ЭкоГ выявил повсеместные положительные приросты предсказуемости по сравнению с базовыми моделями низкого уровня, хотя преимущества на уровне участников были локализованы, а не равномерны.

arxiv arXiv cs.CL · 3 ч назад

SamaVaani: Аудит и устранение смещения в многоязычной клинической ASR для индийских языков

В данном исследовании проводится аудит надежности восьми современных моделей автоматического распознавания речи на реальных данных психиатрических интервью на каннада, хинди и индийском английском. Результаты выявляют значительную вариативность между моделями и языками: некоторые системы демонстрируют конкурентоспособные результаты для индийского английского, но терпят неудачу при распознавании региональной речи.

arxiv arXiv cs.CL · 3 ч назад

GAVEL: Проверка и локализация ошибок в заземлённых подписях

Модации зрения и языка часто генерируют галлюцинированные выводы, где текст и изображения не совпадают, что требует методов, которые не только обнаруживают эти ошибки, но и объясняют их и локализуют визуальные доказательства. Авторы представляют GAVEL — задачу, предназначенную для совместного решения вопросов верификации, объяснения и локализации для пар изображений-текста, сопровождаемую соответствующим набором данных и бенчмарком.

arxiv arXiv cs.CL · 3 ч назад

Взлом для среднестатистического пользователя: выбор оптимальных взломов с помощью алгоритмов бандитов

В данном исследовании изучается возможность успешного взлома больших языковых моделей неопытными злоумышленниками путем использования алгоритмов бандитов для выбора оптимальных атак и улучшения запросов. Авторы предлагают новую стратегию атаки на основе многоармочного бандита, позволяющую эффективно обучаться лучшему взлому из большого набора вариантов через зашумленное исследование.

arxiv arXiv cs.CL · 4 ч назад

Индукция иерархии, центрированной на терминах, из гетерогенных корпусов

Исследователи предлагают терм-центричную структуру для индукции иерархических таксономий из разнообразных текстовых источников, устраняя ограничения существующих методов, опирающихся на представления уровня документа. Этот подход отображает документы в общее пространство представлений посредством автоматического извлечения терминов, что обеспечивает надежное выравнивание между источниками и построение интерпретируемых иерархий.

arxiv arXiv cs.CL · 4 ч назад

RedVox: Пробелы в безопасности и справедливости моделей речи на разных языках

Новое исследование выявляет значительные пробелы в безопасности и справедливости многоязычных моделей речи, обнаруживая, что лишь 8% современных релизов документируют какой-либо многоязычный анализ. Чтобы решить эту проблему, авторы представляют RedVox — бенчмарк, основанный на реальных голосах, охватывающий небезопасные запросы на пяти языках.

arxiv arXiv cs.CL · 4 ч назад

Мировые модели Эйнштейна: Визуализация контрфактов для рассуждений LLM

В статье представлены мировые модели Эйнштейна (EWMs) — фреймворк, предназначенный для улучшения рассуждений больших языковых моделей за счёт интеграции визуальных временных разверток в цепочку рассуждений. Этот подход позволяет моделям использовать мысленные эксперименты в качестве проверяемых гипотез для дополнения обработки на основе текста.

arxiv arXiv cs.CL · 4 ч назад

Аудит поведенческой нестабильности, чувствительной к фреймингу, в LLM для ментального здоровья

В данном исследовании изучается, как семантически схожие проблемы, представленные через различные контекстные фреймы, вызывают разные ответы у больших языковых моделей, настроенных по инструкциям, что может ставить под сомнение надежность системы. Используя контролируемые сопоставленные промпты и послойный анализ зондирования, авторы демонстрируют, что фрейминг систематически изменяет тенденции интерпретационного ответа в архитектурах нескольких моделей.

arxiv arXiv cs.CL · 4 ч назад

ReaORE: Извлечение открытых отношений, управляемое рассуждениями и реализуемое поэтапно с помощью больших моделей рассуждений

Исследователи предлагают ReaORE — фреймворк для извлечения открытых отношений, использующий большие модели рассуждений для достижения надежной обобщающей способности на невидимых типах отношений. Метод устраняет ограничения существующих подходов кластеризации и прямого генерирования посредством процесса рассуждений от грубого к тонкому.

arxiv arXiv cs.CL · 4 ч назад

Где модели находят счастье? Векторы эмоций в открыто-весовых больших языковых моделях

Это исследование исследует наличие и структуру векторов эмоций в открыто-весовых больших языковых моделях, конкретно Apertus-8B-Instruct-2509 и Gemma-4-E4B-it. Исследование подтверждает, что эти модели кодируют геометрию валентности с высокой корреляцией к человеческим психологическим структурам, приближаясь к уровням, ранее наблюдаемым в Claude Sonnet 4.5.

arxiv arXiv cs.CL · 4 ч назад

MinGram: Минималистичный униграммный токенизатор с высокой степенью сжатия и конкурентным морфологическим выравниванием

Авторы представляют MinGram, минималистичный униграммный токенизатор, который упрощает обучение за счет использования стартового словаря на основе BPE, жесткого EM на пути с минимальным количеством токенов и одного шага отсечения по плоскому скорингу. Этот подход устраняет необходимость в суффиксных массивах, прямых-обратных проходах и итеративных циклах отсечения, делая процедуру значительно менее сложной по сравнению со стандартными методами.

arxiv arXiv cs.CL · 4 ч назад

Улучшение калибровки вербализованной неопределенности в медицинском VQA

Данная работа решает проблему склонности мультимодальных больших языковых моделей выдавать излишне уверенные ответы в задачах медицинского визуального ответа на вопросы, предлагая основанную на обучении рамку, которая дообучает эти модели для лучшей калибровки. Метод использует составную функцию потерь, сочетающую калибровку по типу Брайера, регуляризацию якорей, контрастное выравнивание изображения и текста, а также члены KL-дивергенции для согласования уверенности модели с фактической правильностью.

arxiv arXiv cs.CL · 4 ч назад

Улучшение универсальных агентов ролевой игры на основе психологии обоснованного рассуждения и оптимизации политики с учетом роли

Исследователи предлагают Psy-CoT, основанный на психологии фреймворк цепочки рассуждений, который разбивает предварительное рассуждение перед ответом на Восприятие взаимодействия, Психологическую эмпатию и Логическую конструкцию для улучшения точности персонажа. Чтобы устранить несовпадение градиентов в обучении с подкреплением, они вводят Оптимизацию политики с учетом роли (RAPO), которая использует взаимную информацию токенов профиля для асимметричного взвешивания градиентов.

arxiv arXiv cs.CL · 4 ч назад

NuclearQAv2: Структурированный бенчмарк для оценки компетенции в области ядерной науки у больших языковых моделей

Исследователи представляют NuclearQAv2, новый бенчмарк, разработанный для оценки надежности больших языковых моделей в ядерной инженерии путем проверки фактических знаний, количественных рассуждений и концептуального понимания.

arxiv arXiv cs.CL · 5 ч назад

К объяснимой дискреционной дисперсии: количественная оценка судебного усмотрения с помощью затворного многозадачного обучения

Исследователи предлагают архитектуру Judge-Aware Gated Multi-Task Learning, которая разделяет объективные факты дела и контекст вынесения решения для улучшения прогнозирования правовых исходов. Модель использует мелкодисперсную таксономию исходов и механизм затворного слияния для динамической модуляции зависимости от личности судьи; оценка проводилась на 13 937 решениях Трудовых трибуналов Великобритании.

arxiv arXiv cs.CL · 5 ч назад

Загадка загадок: тестирование гибкого мышления у больших языковых моделей и людей

Исследование вводит парадигму «загадки-загадки» для определения того, полагаются ли большие языковые модели (LLM) на гибкое мышление или на сопоставление шаблонов, выявляя, что люди и LLM терпят неудачу в противоположных направлениях. В экспериментах с участием девяти современных LLM и 100 человек-участников LLM показали значительно худшие результаты на загадках-загадках по сравнению с настоящими загадками, тогда как люди продемонстрировали обратную тенденцию.

arxiv arXiv cs.CL · 5 ч назад

HarmVideoBench: Оценка способности больших мультимодальных моделей понимать вредоносные видео

Исследователи представляют HarmVideoBench, многоуровневый диагностический бенчмарк, предназначенный для оценки больших зрительно-языковых моделей в их способности понимать вредоносные видео за пределами поверхностных признаков. Бенчмарк устраняет ограничения существующих работ за счет включения объяснительных обоснований и оценки трех иерархических измерений вреда: Наблюдаемые доказательства, Внутренний смысл клипа и Рассуждения за пределами клипа.

arxiv arXiv cs.CL · 5 ч назад

Прогнозирование с помощью больших языковых моделей: улучшение обобщения через управление признаками

В данном исследовании большие языковые модели применяются к задачам прогнозирования, а для анализа их внутренних состояний используются разреженные автоэнкодеры, что позволяет различать знание, специфичное для времени, и обобщаемые паттерны. Исследование выявило конкретные признаки, связанные как с осознанием временного контекста, так и с предвзятостью в сторону будущего.