Research paper
arxiv arXiv cs.CL · 12 ч назад

REVERIEMEM: Ограниченная перспективой память для ролевых агентов на основе книг

Недавние системы ролевой игры на базе больших языковых моделей часто терпят неудачу в контекстах длинных нарративов из-за фактических переобобщений и стилистической монотонности. Фактические переобобщения возникают, когда персонажи получают доступ к информации за пределами своей нарративной перспективы, а стилевая монотонность сглаживает голоса персонажей посредством статических описаний профилей. Для решения этих проблем авторы предлагают REVERIEMEM — трехуровневую архитектуру памяти, разработанную для книжных персональных агентов. Эта система использует эпизодический слой для воспоминаний о сценах от первого лица, семантический слой для фактов с тегами видимости и слой личности для поведенческих паттернов, зависящих от ситуации. Исследователи также представляют KBF-QA — бенчмарк, состоящий из 4386 вопросов по восьми романам, предназначенный для проверки границ знаний. Экспериментальные результаты показывают, что REVERIEMEM улучшает показатель верности границам знаний (Knowledge Boundary Fidelity) на 34,6 процентных пункта по сравнению с предыдущими методами. Кроме того, модель достигает примерно 79% доли побед в пятимерном парном нарративном протоколе BOOKWORLD. Эти выводы свидетельствуют о том, что память, ограниченная перспективой, эффективно повышает как фактическую точность, так и генерацию нарративов, привязанных к персонажу.

arxiv arXiv cs.CL · 13 ч назад

Фреймворк оценивает, когда необходимы GraphRAG и агентный RAG

Авторы представляют фреймворк для оценки и сравнения обычного, GraphRAG, модульного и агентного Retrieval-Augmented Generation (RAG) на полуструктурированных базах знаний. Они реализуют девять стандартизированных сценариев, охватывающих простой поиск документов до сложной гибридной интеграции текста и графа, а также агентное многошаговое планирование. Представлен новый метод контекстной инженерии для решения проблем переполнения памяти в продвинутых вариантах RAG за счет новых представлений и дизайна агентного цикла. Эта оптимизация обеспечивает снижение использования токенов на 19–53% при эффективном управлении извлечением информации. Дальнейший анализ выявляет разрыв между извлечением и генерацией, при котором расширенное извлечение не приводит к пропорциональному улучшению качества генерации. Исследование предполагает, что текущие метрики, ориентированные на извлечение, могут преувеличивать преимущества продвинутых техник извлечения информации. Эти основанные на данных инсайты призваны направлять разработку готовых к производству интеллектуальных систем RAG.

arxiv arXiv cs.CL · 13 ч назад

BITEMBED: Экстремально низкоразрядная архитектура для текстовых эмбеддингов на основе LLM

В статье представлен BITEMBED — экстремально низкоразрядная архитектура, предназначенная для решения проблемы высоких затрат на развертывание текстовых эмбеддеров на основе больших языковых моделей (LLM) за счет оптимизации как эффективности кодирования, так и хранения векторов. Метод преобразует предварительно обученные базовые архитектуры LLM в энкодеры типа BitNet с тернарными весами, квантованными активациями и легковесной настройкой нормализации. Для адаптации этих моделей к задачам обучения представлений BITEMBED использует непрерывное контрастивное предобучение, за которым следует контролируемое контрастивное дообучение. Этот процесс дообучения применяет дистилляцию распределения сходства и дистилляцию отношений внимания от полноточной учительской модели. Помимо квантования базовой архитектуры, архитектура обучает выходные эмбеддинги поддерживать несколько точностей хранения, что позволяет гибко балансировать между производительностью и затратами на хранение. Эксперименты на бенчмарке MMTEB с использованием Qwen3-0.6B и Gemma3-270M демонстрируют, что BITEMBED по своим характеристикам в значительной степени сопоставим с полноточными учительскими эмбеддерами.

arxiv arXiv cs.CL · 14 ч назад

Экономия пространства при генерации языка в пределе

Настоящее исследование закладывает основы теории генерации языка в пределе, учитывающей ресурсы и ограничения по эффективности использования памяти. Обучающийся наблюдает за враждебной последовательностью положительных примеров из целевого языка K и должен выдать гипотезу L, свободную от галлюцинаций, пропустив не более Δ строк. В качестве класса гипотез для обучающихся с ограниченной памятью рассматриваются детерминированные конечные автоматы (DFAs) с s состояниями над алфавитом размера k. В режиме экспоненциальной памяти авторы доказывают, что обучающийся может точно идентифицировать целевой язык K. При более строгих ограничениях по объему памяти они представляют потоковый алгоритм, использующий O(poly(s,k)) памяти и сходящийся к гипотезе с разрывом генерации Δ = O(k^{2s-2}). Эта обученная гипотеза содержит все строки из K длины не менее 2s-1. Результаты дополняются нижней оценкой, близкой к достижимой, полученной из теории сложности коммуникации, показывающей, что достижение Δ ≤ k^{(1-ε)s} требует памяти объема k^{Ω(εs)}. Эти выводы демонстрируют резкий переход между генерацией в полиномиальной памяти и точной идентификацией в экспоненциальной памяти.

arxiv arXiv cs.CL · 14 ч назад

SARA: Раскрытие многоязычных знаний в смеси экспертов через семантически закрепленную маршрутизацию

Архитектуры разреженной смеси экспертов (MoE) часто сталкиваются с трудностями при работе с языками с низким уровнем ресурсов из-за расхождения кросслингвистической маршрутизации, которое ограничивает совместное использование экспертов. Для решения этой проблемы исследователи предлагают SARA — фреймворк, который переносит специализированные возможности из высоко ресурсных языков-якорей на языки с низким уровнем ресурсов. SARA выравнивает внутренние распределения маршрутизации слоев MoE с помощью ограничения симметричного расхождения Дженсена-Шеннона, а не оперируя выходными логитами. Этот подход способствует механистической согласованности выбора экспертов для разных языков. Авторы оценили метод на двух больших языковых моделях (LLM) по пяти языкам с низким уровнем ресурсов и трем бенчмаркам. Результаты показывают, что SARA превосходит стандартное инструктивное обучение, достигая прироста +0,8% на Qwen3-30B-A3B и +1,2% на Phi-3.5-MoE-instruct для Global-MMLU. Эти выводы демонстрируют, что SARA эффективно устраняет узкие места производительности в контекстах с низким уровнем ресурсов.

arxiv arXiv cs.LG · 14 ч назад

Select-to-Act: Иерархическое обучение с подкреплением через адаптивное языковое руководство

В статье представлен HRLLI — иерархическая модель обучения с подкреплением, предназначенная для повышения эффективности выборки за счет использования инструкций на естественном языке. Рассматривается ограничение существующих подходов, которые рассматривают инструкции как статические входные данные, не учитывая их зависящую от этапа релевантность в сложных средах. Предлагаемый метод разбивает инструкции на последовательные элементы руководства, которые становятся релевантными на разных этапах взаимодействия. Сформулирована новая парадигма Select-to-Act, где высокоуровневая семантическая политика выступает в роли селектора наиболее релевантной части инструкции на основе текущего состояния. Это выбранное руководство обуславливает низкоуровневую политику, которая выполняет действия в среде, при этом обе политики обучаются одновременно для максимизации расширенных ожидаемых вознаграждений. Эксперименты на бенчмарке RTFM демонстрируют, что HRLLI последовательно превосходит сильные базовые методы RL с условием инструкции. Результаты подтверждают, что явное моделирование адаптивного выбора инструкций значительно повышает эффективность обучения с подкреплением.

arxiv arXiv cs.LG · 14 ч назад

SAFER: Адаптивное ансамблирование, управляемое надёжностью, для устойчивой адаптации во время тестирования

Авторы решают проблему хрупкости адаптации во время тестирования (TTA) в условиях потоков, загрязнённых состязательными воздействиями, предлагая SAFER — фреймворк для устойчивой TTA, не требующий обучения. SAFER действует как обёртка для аугментации, заменяя предсказания по одному представлению данных на агрегированный предиктор, управляемый надёжностью, для стабилизации онлайн-обновлений. Для каждого тестового образца метод генерирует стохастические аугментации и агрегирует их выходные данные с помощью корреляционно-взвешенного пулинга в сочетании с обнаружением выбросов. Также предлагается расширение с адаптивным смешиванием, которое корректирует веса между исходными и аугментированными входными данными на основе сигналов несогласованности признаков, чтобы сохранять качество работы на чистых данных. Исследователи оценили SAFER на наборах данных PACS, VLCS и OfficeHome в условиях атак PGD при различных уровнях интенсивности. Результаты показывают, что SAFER повышает устойчивость методов TTA к состязательным атакам, сохраняя конкурентоспособную точность на чистых данных.

arxiv arXiv cs.LG · 14 ч назад

Экономно активируемое обучение словарю связывает разреженность и хранение с генеративными моделями

В статье представлено экономно активируемое обучение словарю (PADL) — метод, накладывающий глобальную регуляризацию на количество активированных атомов словаря. Показано, что PADL эквивалентен оценке максимального апостериорного вероятности в рамках структурированной генеративной модели с вспомогательными латентными переменными. Эта эквивалентность позволяет вывести гарантии обобщения, которые трудно получить из исходной формулировки. Авторы дают аналитическую характеристику компромисса между разреженностью, стоимостью хранения и точностью реконструкции. Данная структура позволяет оценивать оптимальные гиперпараметры на основе данных без ручной настройки. На основе этой теоретической связи разработан эффективный и интерпретируемый алгоритм PADL. Экспериментальные результаты показывают улучшенную производительность реконструкции при сопоставимых уровнях разреженности на визуальных бенчмарках. Метод также демонстрирует практическую полезность в ускорении вывода для моделей "визия-язык".

arxiv arXiv cs.LG · 15 ч назад

Многосеточное обучение для генерации молекул с использованием графовых нейронных сетей

Авторы предлагают стратегию многосеточного обучения для решения проблем высоких вычислительных затрат и нестабильности, связанных с моделированием биохимических молекулярных систем на полном разрешении. Этот подход использует оптимизацию на низком разрешении для ускорения обучения на более высоких разрешениях за счет передачи параметров между различными дискретизациями. Для графовых представлений молекул метод последовательно передает параметры от грубого графа к все более мелким графам с помощью взвешенной случайной ходьбы при повышении детализации. В задачах генерации 3D-молекул структуры вокселизируются на нескольких разрешениях, что позволяет сначала предварительно обучить условный вариационный автоэнкодер (CVAE) на грубом разрешении. Затем совместимые по форме сверточные параметры передаются из грубой модели для инициализации CVAE с высоким разрешением. Численные эксперименты по генерации 3D-лигандов, обусловленной рецептором, демонстрируют, что данный метод ускоряет сходимость по сравнению с обучением с нуля. Кроме того, исследование показывает, что многосеточное обучение улучшает способность к обобщению в задачах генерации молекул.

arxiv arXiv cs.LG · 15 ч назад

HyperAdapter: Структурированная адаптация гиперребер для параметрически эффективной донастройки трансформеров зрения

Авторы предлагают HyperAdapter, новый метод параметрически эффективной донастройки, который адаптирует трансформеры зрения в пространстве гиперребер, а не в пространстве токенов. Существующие методы на основе адаптеров обычно выполняют независимую адаптацию для каждого токена, что игнорирует структурированные взаимосвязи и может приводить к избыточным обновлениям. HyperAdapter строит мягкий гиперграф над токенами ViT с использованием прототипно-базированных назначений, чтобы обеспечить группово-ориентированную адаптацию. Архитектура агрегирует признаки токенов в латентные представления гиперребер и применяет легковесную бутылочную адаптацию на уровне гиперребер. Затем обновления диффундируются обратно к отдельным токенам через структуру инцидентности гиперграфа, внедряя явную структурную индуктивную предвзятость. Масштабные эксперименты на разнообразных визуальных бенчмарках демонстрируют, что этот подход последовательно превосходит сильные базовые методы PEFT при сопоставимых бюджетах параметров. Результаты подчеркивают значительный прогресс в задачах, требующих структурированного рассуждения, и указывают на то, что выбор пространства адаптации является критическим аспектом для эффективного переноса.

arxiv arXiv cs.LG · 15 ч назад

Смещенно-инвариантный оценитель дисперсии устраняет смение минимизации в оценке локального коэффициента обучения

Теория сингулярного обучения использует локальный коэффициент обучения для количественной оценки геометрии ландшафта потерь нейронных сетей, однако оценители на основе среднего значения энергии опираются на аддитивную базовую линию потерь. В фазах обучения вне равновесия это минимальное значение неизвестно, и его замена зашумленными потерями мини-пакетов вносит систематическое смещение минимизации. Авторы предлагают Смещенно-инвариантный оценитель дисперсии (SIVE) для структурного устранения этой неизвестной базовой линии с помощью оператора дисперсии. Комбинируя SIVE с коррекцией, полученной из закона полной дисперсии, метод отделяет геометрические флуктуации потерь от шума оценки. Контролируемые эксперименты на аналитически разрешимых учебных моделях демонстрируют, что SIVE восстанавливает ожидаемые геометрические сигналы при конечной температуре там, где терпят неудачу оценители с закрепленным средним значением. Примененный к глубоким нейронным сетям, SIVE служит надежным диагностическим инструментом для отслеживания структурных фазовых переходов на протяжении всего процесса обучения.

arxiv arXiv cs.LG · 15 ч назад

Эффективный CNN с трансферным обучением для обнаружения множественных видов рака

Исследование представляет легковесную сверточную нейронную сеть, усиленную методом трансферного обучения, для обнаружения множественных видов рака на основе биомедицинских изображений. Архитектура направлена на снижение вычислительной сложности при сохранении высокой классификационной производительности для развертывания в условиях ограниченных ресурсов. Исследователи оценили модель на трех наборах данных опухолей, включающих МРТ головного мозга и КТ-снимки легких и почек. Система достигла точности тестирования 90,85%, 98,64% и 99,92% для рака головного мозга, легких и почек соответственно с использованием пятикратной стратифицированной перекрестной проверки. Трансферное обучение применялось путем предварительного обучения на одном виде рака и дообучения на других, требуя всего 20 дополнительных эпох для достижения уровня моделей, обученных с нуля. Процесс дообучения обновляет классификационную часть CNN и занимает примерно 0,014 секунды на изображение за эпоху на NVIDIA GeForce GTX 960. Сравнительные оценки демонстрируют, что данная модель превосходит современные архитектуры, такие как Xception, VGG16, VGG19, MobileNetV2 и DenseNet121.

arxiv arXiv cs.LG · 16 ч назад

P4IR: Обучение с подкреплением повышает эффективность систем автоматического контроля соответствия кода

Новая платформа P4IR решает проблему генерации несуществующих правил в системах автоматического контроля соответствия кода, основанных на больших языковых моделях. Этот двухэтапный подход сначала использует контролируемое тонкое дообучение для внедрения предметных знаний в модель. Затем применяется групповая относительная оптимизация политики (Group Relative Policy Optimization) для повышения точности генерируемых высокоуровневых каркасов кода. Метод достиг сокращений до 23,8% по расстоянию редактирования дерева и до 38,6% по посимвольному расстоянию Левенштейна по сравнению с базовыми вариантами контролируемого тонкого дообучения. Сравнительный анализ показывает, что P4IR превосходит ведущие модели, такие как Claude Opus, GPT-5.2 и Qwen-3-Max, в условиях нулевого показа (zero-shot). Кроме того, этап обучения с подкреплением обеспечил статистически значимое сокращение числа ложных срабатываний. Эта комбинация методов открывает путь к более надежным системам автоматического контроля соответствия кода.

arxiv arXiv cs.LG · 16 ч назад

Асимптотическое восстановление подпространства сигнала в моделях с механизмом softmax-внимания

В данном исследовании рассматриваются теоретические принципы, лежащие в основе механизмов softmax-внимания, путем анализа стилизованной модели, в которой вектор запроса обучается с помощью стохастического градиентного восхождения. Авторы используют симметрию модели для вывода популяционной целевой функции и характеризуют предельное обыкновенное дифференциальное уравнение, управляющее динамикой обучения. Применяя инструменты теории стохастического приближения и теории динамических систем, они устанавливают строгую связь между стохастическим алгоритмом обучения и его детерминированным пределом. При подходящих предположениях о высокомерном масштабировании и стандартных условиях выбора шага исследования демонстрируют, что обученный вектор запроса сходится почти наверное к одномерному подпространству сигнала. Это сходство означает, что запрос асимптотически восстанавливает скрытое информативное направление с точностью до внутренней неоднозначности знака. Полученные результаты обеспечивают теоретическую основу для понимания механизма внимания как процедуры извлечения сигнала в высокомерных зашумленных средах.

arxiv arXiv cs.LG · 16 ч назад

QeHDC: Вычисление гиперразмерности на основе квантово-усиленного связывания и построения суперклассов

Авторы предлагают QeHDC, новую архитектуру, расширяющую классическое вычисление гиперразмерности за счет использования квантовомеханических свойств для повышения вычислительной эффективности. Этот подход использует метод обучения в один проход, который применяет синусоидальное и квантовое кодирование для проецирования классических данных в амплитудные состояния квантовой системы. Ключевым нововведением является введение операции квантового связывания на основе опорного состояния, реализованной с помощью специфических квантовых схем. Кроме того, архитектура реализует стратегию генерации суперклассов на основе матрицы плотности, использующую разложение по собственным значениям для извлечения ключевых признаков квантового состояния. Эти механизмы обеспечивают более точные и устойчивые представления классов для задач классификации. Экспериментальные оценки на стандартных тестовых наборах данных демонстрируют превосходную производительность по сравнению с традиционными классическими и существующими квантово-усиленными методами. Результаты также подчеркивают устойчивость подхода к шумам и его вычислительную осуществимость, что указывает на практическую пользу для будущих парадигм, вдохновленных квантовыми технологиями.

arxiv arXiv cs.LG · 16 ч назад

GaRA: Графово-осознанная генерация LoRA для улучшения LLM в графовых задачах

Графовые нейронные сети часто демонстрируют ограниченную переносимость из-за их тесной связи с специфичными для набора данных пространствами признаков, тогда как языковые модели обеспечивают гибкую обобщающую способность благодаря единому интерфейсу. Существующие методы адаптации языковых моделей к графовым задачам испытывают трудности с кодированием информации о полном графе, что может приводить к значительной потере информации и субоптимальному пониманию. Чтобы устранить это ограничение, авторы предлагают GaRA — новую модель генерации LoRA, учитывающую структуру графа (Graph-aware), которая реализует парадигму инъекции информации на уровне весов. Этот подход генерирует обновления весов, специфичные для задачи, при условии заданных исходных структур графов, позволяя им напрямую взаимодействовать со скрытыми представлениями. Метод ограничивает норму этих сгенерированных обновлений для внедрения информации о полном графе, избегая при этом смещения оптимизации, присущего стандартной генерации весов. Эмпирические исследования демонстрируют, что GaRA последовательно превосходит базовые методы в различных задачах обучения на графах в режиме zero-shot.

arxiv arXiv cs.LG · 16 ч назад

Большие языковые модели определяют причинную структуру с помощью логики различия

Статья рассматривает загадку того, как большие языковые модели приобретают причинную структуру, несмотря на ограничения стандартных формализмов, таких как интервенционистский подход Джуды Перла и фреймворк Неймана-Рубина. В ней утверждается, что большие языковые модели используют специфический индуктивный метод, известный как вариационная индукция, который опирается на логику различия. Во время обучения модели обрабатывают огромные объемы текста из различных контекстов, чтобы определить, что является «разностным фактором» (difference-maker) или «нейтральным фактором» (indifference-maker) в последовательностях слов. Анализ исследует, как архитектурные компоненты, а именно токенизированные эмбеддинги и механизмы самовнимания, способствуют этому процессу вариационной индукции. Эта логическая структура фундаментально параллельна экспериментальному методу, используемому в науке. В обоих случаях причинно-следственные связи выводятся путем систематического изменения отдельных обстоятельств для наблюдения за их влиянием на явление.

arxiv arXiv cs.LG · 16 ч назад

Выход из ловушки дисперсии: Якоби-свободная динамика для двуровневой оптимизации поиска корней

Авторы выявляют критический недостаток, называемый "ловушкой дисперсии" (Variance Trap), который возникает при попытке свести стохастические задачи поиска корней к задачам минимизации с помощью квадратов невязок. Стандартные алгоритмы двуровневой минимизации требуют оценки гиперградиентов, включающих неявные якобианы, которые действуют как усилители шума в стохастических условиях. Чтобы решить эту проблему, статья формализует класс задач "Двуровневая оптимизация поиска корней" (Root-Finding Bilevel Optimization, RF-BO) как отдельный класс задач, позволяющий обойти эту патологическую ситуацию. Предложено решение без вычисления якобиана на основе стохастического приближения с двумя временными масштабами (Two-Time-Scale Stochastic Approximation, TTSA), которое обновляет параметры непосредственно вдоль ошибки поиска корня. Исследование предоставляет первые неасимптотические гарантии сходимости для TTSA в данной постановке при марковском шуме. Эксперименты показывают увеличение точности top-1 на 2,6% в SimCLR и ускорение сходимости в 17 раз в задаче управления нелинейными ОДУ по сравнению с базовыми методами. Кроме того, предложенная рамка обеспечивает значительно улучшенную стабильность энтропии в обучении с подкреплением и повышение качества на 11,1% в генеративном моделировании.

arxiv arXiv cs.LG · 16 ч назад

RQ-TTSA: Распределенно-осозданная устойчивая биуровневая оптимизация с квантильно-управляемыми обновлениями Хубера

Авторы предлагают RQ-TTSA — фреймворк, учитывающий распределение, предназначенный для устранения нестабильности в биуровневой оптимизации, вызванной стохастическим шумом с тяжелыми хвостами. В отличие от существующих методов снижения дисперсии, опирающихся на краткосрочные проверки величины, этот метод использует буферы исторических градиентов для оценки скользящих квантилей и адаптивного обрезания в стиле Хубера. Такой подход сохраняет локальную геометрию оптимизации и строго ограничивает эффективную дисперсию при допущениях о невыпуклой сильно выпуклой функции и шуме с бесконечной дисперсией. Теоретический анализ выводит скорость сходимости O(T^(-(p-1)/(3p-2))), которая восстанавливает оптимальную зависимость от параметра тяжелых хвостов p. Эмпирические оценки на шести разнообразных задачах, включая бенчмарки компьютерного зрения и офлайн-обучение с подкреплением, демонстрируют стабильное превосходство над современными базовыми методами. RQ-TTSA устраняет всплески расхождения и обеспечивает устойчивую сходимость при пренебрежимо малых вычислительных накладных расходах примерно в 2,7 процента.

media r/LocalLLaMA · 17 ч назад

Colony: Образовательная симуляция механизмов внимания LLM с использованием аналогий на основе агентов

Colony — это образовательный ресурс, предназначенный для объяснения механизма внимания больших языковых моделей (LLM) посредством простых аналогий с участием агентов. Симуляция помещает этих агентов в среду-поле, вдохновлённую игрой «Жизнь» Конвея. Каждый агент в системе представляет определённую роль внутри механизма блока самовнимания LLM. Такой визуальный подход позволяет пользователям наблюдать за тем, как информация течёт и взаимодействует в процессе внимания. Проект доступен как инструмент с открытым исходным кодом для тех, кто заинтересован в изучении этих концепций без сложной математики. Он служит увлекательным и доступным способом понять внутреннее устройство трансформерных моделей.