Все статьи
media r/LocalLLaMA · 7 ч назад

Ornith-1.0: открытые LLM для агентного программирования

Ornith-1.0 — новое семейство открытых больших языковых моделей, специализированных для задач агентного программирования. Семейство моделей включает несколько размеров параметров, в том числе конфигурации 9B Dense, 35B MoE и 397B MoE.

arxiv arXiv cs.CL · 7 ч назад

Nemotron-TwoTower: Диффузионное языковое моделирование с предварительно обученным авторегрессионным контекстом

NVIDIA представляет Nemotron-TwoTower, диффузионную языковую модель, которая разделяет представление контекста и итеративное удаление шума на две отдельные сети для преодоления ограничений пропускной способности существующих подходов. Построенная на основе модели с открытыми весами Nemotron-3-Nano-30B-A3B и обученная на 2,1 трлн токенов, она сохраняет 98,7% качества базовой авторегрессионной модели, достигая при этом в 2,42 раза более высокой пропускной способности генерации по реальному времени.

arxiv arXiv cs.CL · 7 ч назад

Люди отказываются от усилий, модели рассуждения продолжают: разделение регистрации сложности и распределения обдумывания

Исследование показывает, что хотя большие модели рассуждения (LRM) и люди тратят больше времени на более сложные задачи, они существенно расходятся в том, как распределяют обдумывание внутри конкретных примеров. При совершении ошибок LRM генерируют больше токенов, чем при правильных ответах, тогда как люди делают наоборот, тратя меньше времени на промахи.

arxiv arXiv cs.CL · 7 ч назад

MemStrata: Устранение ошибок устаревших фактов в агентах RAG посредством временной валидности

В статье представлен MemStrata, система памяти поиска, предназначенная для устранения ошибок устаревших фактов в ИИ-агентах путем поддержания временной валидности в накопленных знаниях. В отличие от стандартного Retrieval-Augmented Generation (RAG), который испытывает трудности с различением дублированных и противоречащих фактов из-за сходства эмбеддингов, MemStrata использует детерминированное правило замещения для вывода устаревшей информации.

arxiv arXiv cs.CL · 7 ч назад

Erase-then-Delta Attention: Разделение адресов стирания и записи в линейном внимании с дельта-правилом

Авторы предлагают Erase-then-Delta Attention (EDA), правило обновления памяти для рекуррентных моделей, которое разделяет адрес, используемый для стирания устаревшей информации, и адрес, используемый для записи нового контента. Этот подход устраняет ограничение линейного внимания с дельта-правилом, которое не может активно удалять устаревшие данные, хранящиеся в разных местах, перед записью.

arxiv arXiv cs.CL · 8 ч назад

Пробел невнимательности: модели, адаптированные под задачу, игнорируют сигналы безопасности

Исследование показывает, что адаптация языковых и зрительных моделей к узким задачам подавляет их способность сообщать о сопутствующих критически важных сигналах безопасности, которые они в противном случае могли бы обнаружить. Это явление, названное «Пробелом невнимательности», демонстрирует разрыв между измеренной безопасностью по бенчмаркам и реальной безопасностью.

arxiv arXiv cs.CL · 8 ч назад

DiARC: Разделение положительных и отрицательных примеров помогает улучшить способность к рассуждению в стиле ARC у больших языковых моделей

В статье представлен DiARC — метод, улучшающий способности к абстрактному рассуждению больших языковых моделей за счёт включения обучения с использованием отрицательных примеров наряду с положительными. Этот подход решает ограничения существующих методов, которые сильно полагаются на аугментацию данных или дорогие закрытые модели.

arxiv arXiv cs.CL · 8 ч назад

Настройка аппроксимации, управляемая компилятором, для гиперразмерных вычислений

Авторы представляют ApproxHDC — фреймворк, который автоматизирует выявление и применение специфичных для домена аппроксимаций в рабочих нагрузках гиперразмерных вычислений (HDC). Эта система расширяет инфраструктуру компилятора HPVM-HDC, обеспечивая перенастраиваемую компиляцию для различных аппаратных бэкендов, включая ЦП, ГП и симулированные ускорители ReRAM и PCM.

arxiv arXiv cs.CL · 8 ч назад

Атаки диффузии между модальностями: обзор слияния атак, защит и оценки

Этот обзор объединяет четыре разрозненных направления adversarial-оценки — диффузионные атаки на текст и LLM, классификаторы изображений, vision-language модели и защиты по очистке входных данных — в единую концептуальную рамку. Он фокусируется на части, связанной с LLM, чтобы унифицировать терминологию, модели угроз и бенчмарки вокруг denoising diffusion как общего механизма генерации.

arxiv arXiv cs.CL · 8 ч назад

Обнаружение позиции на уровне твитов без обучения с примерами, усиленное внешними знаниями и рефлексивным рассуждением по цепи мыслей

Исследователи предлагают KIRP — фреймворк обнаружения позиции без обучения с примерами (zero-shot), который решает проблему разреженности контекста и нерелевантности неявных целей в коротких текстах за счёт интеграции внешних знаний с рефлексивным рассуждением по цепи мыслей. В исследовании также представлена первая японская датасет на уровне твитов для обнаружения позиции, предназначенная для поддержки многозадачной оценки.

arxiv arXiv cs.CL · 8 ч назад

Устранение разрыва в качестве синтеза речи для малоресурсных языков: дообучение VoxCPM2 с помощью LoRA для кхмерского и корейского

Исследователи устраняют разрыв в качестве синтеза речи для малоресурсных языков путем дообучения модели VoxCPM2 на 2,4 млрд параметров с использованием адаптации низкого ранга (LoRA) на общем корпусе данных кхмерского и корейского языков.

arxiv arXiv cs.CL · 8 ч назад

Регуляризация активаций, направляемая SAE, для непрерывного обучения больших языковых моделей

В данной статье предлагается новый подход к проблеме катастрофического забывания в больших языковых моделях за счёт регуляризации в пространстве активаций с использованием предварительно обученных разреженных автоэнкодеров (SAE) в качестве словаря моносемантических признаков, вместо традиционных методов в пространстве весов, таких как Elastic Weight Consolidation (EWC).

arxiv arXiv cs.CL · 8 ч назад

CAT-Q: Экономичное и точное тернарное квантование для больших языковых моделей

Исследователи представляют CAT-Q, схему постобучающего квантования, которая сжимает большие языковые модели до тернарной точности без необходимости дорогостоящего обучения с учетом квантования. Метод использует обучаемую модуляцию и смягченное тернарирование для достижения высокой точности всего на 512 калибровочных выборках.

media Hugging Face Forums · 8 ч назад

Опыт аблиации языков с разными алфавитами?

Пользователь спрашивает об опыте аблиации мандаринского, русского и арабского языков из модели для создания версии, преимущественно основанной на латинице. Цель — освободить место для дальнейшего обучения или безопасного прунинга в контекстах, где английский не используется.

arxiv arXiv cs.CL · 9 ч назад

SocialPersona: Оценка персонализированного профилирования и ответов с использованием мультимодального контекста социальных сетей

Авторы представляют SocialPersona, бенчмарк, предназначенный для оценки способности мультимодальных больших языковых моделей (MLLM) восстанавливать выявленные предпочтения из лонгитюдных временных линий в социальных сетях и использовать их в диалоге. Эта работа устраняет ограничение текущих оценок, которые фокусируются только на явной памяти, проверяя способность модели выводить интересы из естественных мультимодальных следов.

arxiv arXiv cs.CL · 9 ч назад

LeanGuard: Быстрый и легкий подход к надежной модерации

В данной работе исследуется, действительно ли защитные механизмы требуют рассуждений по цепочке (chain-of-thought), путем обучения легковесного двунаправленного кодировщика совместно с основанным на рассуждениях защитным механизмом на одном и том же корпусе данных. Авторы обнаруживают, что удаление рассуждений не улучшает точность модерации, оспаривая распространенное мнение о необходимости пошагового мышления для эффективной модерации.

arxiv arXiv cs.CL · 9 ч назад

За пределами логических форм: паттерны, извлеченные LLM, для классификации логических ошибок

В данном исследовании изучается, улучшает ли объединение абстрактных логических структур с лингвистическими признаками на уровне контекста автоматическую классификацию логических ошибок, которые часто проявляются в тонких формах.

arxiv arXiv cs.CL · 9 ч назад

HyperDFlash: Блочное спекулятивное декодирование, выровненное по MHC, с затворным остаточным снижением

HyperDFlash — это фреймворк для блочно-параллельного спекулятивного декодирования, разработанный для решения проблем несоответствия признаков при адаптации DFlash к архитектуре multi-hyper-connection (MHC) модели DeepSeek-V4. Авторы предлагают две ключевые оптимизации: использование предсхлопнутых остаточных состояний для условной генерации и замена универсального линейного компрессора на легковесный затворный остаточный редуктор, унаследованный от гипер-соединительной головки модели.