Research paper
arxiv arXiv cs.CL · 5 ч назад

SFL-MTSC: Использование семантической кадра-уровневой многозадачной самосогласованности для надежного понимания разговорной речи с несколькими намерениями

Понимание разговорной речи на основе промптов с использованием больших языковых моделей часто страдает от несогласованности структур намерений и слотов из-за стохастичности декодирования, особенно в сценариях с несколькими намерениями. Чтобы решить эту проблему, исследователи предлагают семантическую кадра-уровневую многозадачную самосогласованность (SFL-MTSC) — новую структурированную схему агрегации, работающую на уровне семантических кадров. Вместо опираниясь на голосование большинства на уровне вывода, SFL-MTSC разбивает предсказания на кадры, специфичные для намерений, и применяет группировку по домену и намерению вместе с кластеризацией на уровне слотов. Схема оценивает надежность кластеров с помощью подсчета поддержки пути, чтобы определить, какие кадры являются надежными. Надежные кадры сохраняются и повторно интегрируются для формирования окончательного предсказания, обеспечивая большую структурную согласованность. Эксперименты в режиме zero-shot на наборе данных MAC-SLU демонстрируют улучшение показателей F1 для слотов и общей точности по сравнению с однопутным выводом. Точность определения намерений остается в значительной степени стабильной во большинстве настроек, при этом достигаются эти улучшения на уровне слотов.

arxiv arXiv cs.CL · 5 ч назад

Riazi-8B: большая языковая модель для математического рассуждения на урду

Недавние большие языковые модели демонстрируют сильные способности к математическому рассуждению, однако эти достижения в значительной степени опираются на англоцентричные ресурсы, оставляя такие языки с низким уровнем ресурсов, как урду, с ограниченными возможностями. Чтобы восполнить этот пробел, исследователи разработали Riazi-8B — модель на урду, специально предназначенную для решения многошаговых математических задач. Модель была создана посредством двухэтапного процесса адаптации, включающего продолжение предобучения на урду-версии Википедии и контролируемое тонкое дообучение (supervised fine-tuning) на данных цепочки рассуждений (Chain-of-Thought) на урду, полученных из GSM8K. Оценка Riazi-8B проводилась на бенчмарке MGSM-Urdu по сравнению с существующими моделями, тонко настроенными для инструкций на урду. Результаты показали последовательные улучшения в правильности ответов, качестве рассуждений, полноте ответов и генерации текста на урду по сравнению с базовыми моделями. Эти выводы демонстрируют, что сочетание адаптации языка урду с тонким дообучением, ориентированным на рассуждения, эффективно расширяет возможности математического рассуждения для языков с низким уровнем ресурсов.

arxiv arXiv cs.CL · 6 ч назад

Налог на ограничения в LLM с открытым весом: подавление вызова инструментов при структурных ограничениях вывода

В данном исследовании выявлен феномен, называемый подавлением вызова инструментов (Tool Suppression), при котором языковые модели с открытым весом перестают вызывать инструменты, когда одновременно включены ограничения JSON Schema. Авторы наблюдали это поведение в производственной системе агентов и воспроизвели его посредством контролируемых экспериментов на нескольких семействах моделей. Хотя выполнение инструментов и соответствие схеме корректно функционируют при независимой оценке, они дают сбой при совместном развертывании. Анализ показывает, что ограничения JSON Schema компилируются в грамматические маски токенов, делая токены вызова инструментов недостижимыми во время декодирования. Для интерпретации этих результатов статья выдвигает гипотезу о инверсии приоритета ограничений (Constraint Priority Inversion), предполагающую, что удовлетворение схеме доминирует над выбором действия при одновременных ограничениях. Авторы смягчают эту проблему, внедряя стратегию выполнения на этапе вывода под названием Transparent Two-Pass Execution, которая разделяет выполнение инструментов и генерацию ответа. Этот подход восстанавливает вызов инструментов, сохраняя гарантии структурированного вывода без необходимости переобучения модели. Исследование подчеркивает, что оценка возможностей по отдельности может упускать из виду критические проблемы надежности в производственных системах.

arxiv arXiv cs.CL · 6 ч назад

REVERIEMEM: Ограниченная перспективой память для ролевых агентов на основе книг

Недавние системы ролевой игры на базе больших языковых моделей часто терпят неудачу в контекстах длинных нарративов из-за фактических переобобщений и стилистической монотонности. Фактические переобобщения возникают, когда персонажи получают доступ к информации за пределами своей нарративной перспективы, а стилевая монотонность сглаживает голоса персонажей посредством статических описаний профилей. Для решения этих проблем авторы предлагают REVERIEMEM — трехуровневую архитектуру памяти, разработанную для книжных персональных агентов. Эта система использует эпизодический слой для воспоминаний о сценах от первого лица, семантический слой для фактов с тегами видимости и слой личности для поведенческих паттернов, зависящих от ситуации. Исследователи также представляют KBF-QA — бенчмарк, состоящий из 4386 вопросов по восьми романам, предназначенный для проверки границ знаний. Экспериментальные результаты показывают, что REVERIEMEM улучшает показатель верности границам знаний (Knowledge Boundary Fidelity) на 34,6 процентных пункта по сравнению с предыдущими методами. Кроме того, модель достигает примерно 79% доли побед в пятимерном парном нарративном протоколе BOOKWORLD. Эти выводы свидетельствуют о том, что память, ограниченная перспективой, эффективно повышает как фактическую точность, так и генерацию нарративов, привязанных к персонажу.

arxiv arXiv cs.CL · 6 ч назад

Фреймворк оценивает, когда необходимы GraphRAG и агентный RAG

Авторы представляют фреймворк для оценки и сравнения обычного, GraphRAG, модульного и агентного Retrieval-Augmented Generation (RAG) на полуструктурированных базах знаний. Они реализуют девять стандартизированных сценариев, охватывающих простой поиск документов до сложной гибридной интеграции текста и графа, а также агентное многошаговое планирование. Представлен новый метод контекстной инженерии для решения проблем переполнения памяти в продвинутых вариантах RAG за счет новых представлений и дизайна агентного цикла. Эта оптимизация обеспечивает снижение использования токенов на 19–53% при эффективном управлении извлечением информации. Дальнейший анализ выявляет разрыв между извлечением и генерацией, при котором расширенное извлечение не приводит к пропорциональному улучшению качества генерации. Исследование предполагает, что текущие метрики, ориентированные на извлечение, могут преувеличивать преимущества продвинутых техник извлечения информации. Эти основанные на данных инсайты призваны направлять разработку готовых к производству интеллектуальных систем RAG.

arxiv arXiv cs.CL · 6 ч назад

BITEMBED: Экстремально низкоразрядная архитектура для текстовых эмбеддингов на основе LLM

В статье представлен BITEMBED — экстремально низкоразрядная архитектура, предназначенная для решения проблемы высоких затрат на развертывание текстовых эмбеддеров на основе больших языковых моделей (LLM) за счет оптимизации как эффективности кодирования, так и хранения векторов. Метод преобразует предварительно обученные базовые архитектуры LLM в энкодеры типа BitNet с тернарными весами, квантованными активациями и легковесной настройкой нормализации. Для адаптации этих моделей к задачам обучения представлений BITEMBED использует непрерывное контрастивное предобучение, за которым следует контролируемое контрастивное дообучение. Этот процесс дообучения применяет дистилляцию распределения сходства и дистилляцию отношений внимания от полноточной учительской модели. Помимо квантования базовой архитектуры, архитектура обучает выходные эмбеддинги поддерживать несколько точностей хранения, что позволяет гибко балансировать между производительностью и затратами на хранение. Эксперименты на бенчмарке MMTEB с использованием Qwen3-0.6B и Gemma3-270M демонстрируют, что BITEMBED по своим характеристикам в значительной степени сопоставим с полноточными учительскими эмбеддерами.

arxiv arXiv cs.CL · 7 ч назад

Экономия пространства при генерации языка в пределе

Настоящее исследование закладывает основы теории генерации языка в пределе, учитывающей ресурсы и ограничения по эффективности использования памяти. Обучающийся наблюдает за враждебной последовательностью положительных примеров из целевого языка K и должен выдать гипотезу L, свободную от галлюцинаций, пропустив не более Δ строк. В качестве класса гипотез для обучающихся с ограниченной памятью рассматриваются детерминированные конечные автоматы (DFAs) с s состояниями над алфавитом размера k. В режиме экспоненциальной памяти авторы доказывают, что обучающийся может точно идентифицировать целевой язык K. При более строгих ограничениях по объему памяти они представляют потоковый алгоритм, использующий O(poly(s,k)) памяти и сходящийся к гипотезе с разрывом генерации Δ = O(k^{2s-2}). Эта обученная гипотеза содержит все строки из K длины не менее 2s-1. Результаты дополняются нижней оценкой, близкой к достижимой, полученной из теории сложности коммуникации, показывающей, что достижение Δ ≤ k^{(1-ε)s} требует памяти объема k^{Ω(εs)}. Эти выводы демонстрируют резкий переход между генерацией в полиномиальной памяти и точной идентификацией в экспоненциальной памяти.

arxiv arXiv cs.CL · 8 ч назад

SARA: Раскрытие многоязычных знаний в смеси экспертов через семантически закрепленную маршрутизацию

Архитектуры разреженной смеси экспертов (MoE) часто сталкиваются с трудностями при работе с языками с низким уровнем ресурсов из-за расхождения кросслингвистической маршрутизации, которое ограничивает совместное использование экспертов. Для решения этой проблемы исследователи предлагают SARA — фреймворк, который переносит специализированные возможности из высоко ресурсных языков-якорей на языки с низким уровнем ресурсов. SARA выравнивает внутренние распределения маршрутизации слоев MoE с помощью ограничения симметричного расхождения Дженсена-Шеннона, а не оперируя выходными логитами. Этот подход способствует механистической согласованности выбора экспертов для разных языков. Авторы оценили метод на двух больших языковых моделях (LLM) по пяти языкам с низким уровнем ресурсов и трем бенчмаркам. Результаты показывают, что SARA превосходит стандартное инструктивное обучение, достигая прироста +0,8% на Qwen3-30B-A3B и +1,2% на Phi-3.5-MoE-instruct для Global-MMLU. Эти выводы демонстрируют, что SARA эффективно устраняет узкие места производительности в контекстах с низким уровнем ресурсов.

media r/LocalLLaMA · 10 ч назад

Colony: Образовательная симуляция механизмов внимания LLM с использованием аналогий на основе агентов

Colony — это образовательный ресурс, предназначенный для объяснения механизма внимания больших языковых моделей (LLM) посредством простых аналогий с участием агентов. Симуляция помещает этих агентов в среду-поле, вдохновлённую игрой «Жизнь» Конвея. Каждый агент в системе представляет определённую роль внутри механизма блока самовнимания LLM. Такой визуальный подход позволяет пользователям наблюдать за тем, как информация течёт и взаимодействует в процессе внимания. Проект доступен как инструмент с открытым исходным кодом для тех, кто заинтересован в изучении этих концепций без сложной математики. Он служит увлекательным и доступным способом понять внутреннее устройство трансформерных моделей.

arxiv arXiv cs.LG · 15 ч назад

Масштабируемые байесовские модели для обнаружения вспышек на звездах

Генеративная заменительная архитектура, использующая вариационный автоэнкодер, аппроксимирует гауссовы предпосылки, избегая дорогостоящих операций с ковариационными матрицами. Архитектура VAE+Hidden Markov Model позволяет быстро и масштабно обнаруживать вспышки на звездах в больших астрономических временных рядах, сохраняя структурную точность по сравнению с точными моделями, при значительном сокращении вычислительного времени.

arxiv arXiv cs.AI · 15 ч назад

Геометрия-ориентированный онлайн-расписыватель для обслуживания больших языковых моделей

Новый алгоритм расписывания, Smallest Volume First (SVF), снижает задержку инференса больших языковых моделей за счёт оптимизации управления кэшем ключ-значение. Теоретический анализ показывает, что коэффициент конкуренции в худшем случае сократился с 48 до 5, при этом 1-битный SVF обеспечивает высокую производительность при минимальной информации. Оценки на моделях Llama-3.1 подтверждают улучшения как средней, так и хвостовой задержки, при этом подход был интегрирован в vLLM.

arxiv arXiv cs.AI · 15 ч назад

Гипотеза-ориентированная оптимизация навыков для агентов на основе языковых моделей

HDSO обеспечивает безопасные и проверяемые обновления навыков для агентов на основе языковых моделей без обучения, используя фальсифицируемые гипотезы и проверку. На ALFWorld он улучшает Qwen3-8B на +6,9 точек среднего результата, и сохраняет прирост в +7,1 точку при шумной обратной связи, при этом проверенные навыки передаются между запусками и моделями при достижении диагностической синхронизации.

arxiv arXiv cs.AI · 16 ч назад

Обратное моделирование постериорного отбора для регрессии в пространстве функций и обратных задач

FAPS — первый фреймворк постериорного отбора в пространстве функций, объединяющий регрессию на стохастических процессах и обратные задачи дифференциальных уравнений. Он использует предобученные априорные распределения на основе потоков и коррекцию Ланжевена с предусловием ковариационной матрицы низкого ранга для обеспечения эффективного и точного постериорного вывода на основе редких и шумных данных с согласованным квантованием неопределённости.

arxiv arXiv cs.AI · 16 ч назад

Select-to-Act: иерархическая RL с адаптивным руководством на языке

HRLLI вводит иерархическую систему обучения с подкреплением, которая динамически адаптирует естественные языковые инструкции во время принятия решений. Она разбивает инструкции на элементы руководства, специфичные для каждой стадии, и использует парадигму select-to-act для обеспечения в реальном времени выбора соответствующих фрагментов инструкций, что повышает эффективность выбора образцов и производительность в сложных средах.

arxiv arXiv cs.AI · 16 ч назад

SAFER: надежная адаптация на этапе тестирования при противодействующих потоках

SAFER — это рамка без обучения, которая повышает устойчивость адаптации на этапе тестирования за счёт использования аугментации, ориентированной на надёжность. Она генерирует стохастические аугментации, объединяет предсказания с помощью агрегации, взвешенной корреляцией, с обнаружением выбросов, и включает адаптивное смешивание для сохранения чистой производительности при противодействующих атаках. Оценки на PACS, VLCS и OfficeHome показывают улучшенную устойчивость без потери чистой точности.

arxiv arXiv cs.AI · 16 ч назад

Трансакционный компромисс между редкостью, стоимостью хранения и точностью в обучении словаря с минимальным активированием

Обучение словаря с минимальным активированием (PADL) устанавливает структурированную генеративную модель с вспомогательными скрытыми переменными, позволяя достигать оценки максимального апостериорного распределения. Эта модель обеспечивает гарантии обобщения и аналитическое описание компромисса между редкостью, стоимостью хранения и точностью восстановления, что позволяет проводить данные-ориентированную оценку гиперпараметров. Полученный алгоритм обеспечивает лучшую производительность восстановления и ускоряет инференс в моделях визуально-языковых.

arxiv arXiv cs.AI · 16 ч назад

Первые токены в трансформерах: идентичность языка и устойчивость

LIHA показывает небольшое количество голов первых токенов в GPT-2, которые постоянно обращаются к первому токену промпта, вызывая смену языка. Обучение по инструкциям перестраивает эти схемы, концентрируя идентичность языка на ранних слоях, как это наблюдается в Qwen2.5-1.5B-Instruct и подтверждается в обработке китайского и русского языков на слое 0.

arxiv arXiv cs.AI · 16 ч назад

ARIA: Фреймворк с учетом причинности для восстановления логического мышления в ЛЛМ

ARIA решает проблему контекстуального туннелирования в ЛЛМ за счет условного использования знаний на уровне механической полноты. Оно использует трехуровневую цепочку для причинного мышления, передачи с физической интерпретацией и параметрического резерва, и улучшает открытие материалов за счет проверяемого, физически обоснованного мышления.

arxiv arXiv cs.AI · 16 ч назад

HyperAdapter: структурированная адаптация гиперребер для мелкого настройки визуальных трансформеров

HyperAdapter вводит адаптер на основе гиперграфа, который обеспечивает структурированную, групповую адаптацию в визуальных трансформерах, работая в пространстве гиперребер, а не в пространстве токенов. Он использует проработанные присваивания для построения мягкого гиперграфа, агрегирует признаки токенов в представления гиперребер, применяет лёгкую адаптацию и возвращает обновления через структуру гиперграфа, обеспечивая явную структурную индуктивную предпосылку при сохранении эффективности. Эксперименты показывают стабильное улучшение по сравнению с базовыми методами PEFT, особенно на задачах, требующих структурированного мышления.

arxiv arXiv cs.AI · 16 ч назад

MetaPS: адаптивный выбор стратегии для агентов рынка

MetaPS - это рамка, основанная на симуляции, которая позволяет агентам рынка адаптивно выбирать среди стратегий на основе состояния рынка. Она использует симулированные рынки для генерации обучающих данных в формате надзора, затем при инференсе выбирает стратегии для генерации исполняемых действий. Эксперименты показывают, что MetaPS превосходит фиксированные стратегии и агентов на основе языковых моделей, при этом компактные модели превосходят более сильные модели API по производительности.