Все статьи
arxiv arXiv cs.CL · 6 ч назад

Как большие языковые модели формируют репутацию брендов в разных языках и рынках

В данном исследовании анализируются источники цитирования, используемые большими языковыми моделями при ответах на вопросы о брендах, с акцентом на лежащие в основе веб-ссылки, а не только на сгенерированный текст. Исследователи объединили три набора данных Rankfor.AI для изучения 167 551 URL-привязанной цитаты, относящейся к 128 брендам в 12 домашних рынках и на 13 языках. Анализ показывает, что ИИ опирается на ответы о брендах преимущественно на сторонние источники: 85,7% ссылок ведут на сайты, не принадлежащие бренду, по сравнению лишь с 14,3% для доменов, находящихся в собственности бренда. База источников сильно сконцентрирована и подчиняется закону Ципфа: 80% цитат происходят примерно от 18% доменов. Wikipedia становится доминирующим ссылочным ресурсом, являясь самым цитируемым доменом в 11 из 12 изученных языков. Единственным исключением является литовский язык, где деловая газета vz.lt немного опережает Wikipedia с долей 4,38%. Кроме того, состав источников демонстрирует вариации, специфичные для рынка: например, YouTube является самым цитируемым доменом для польских национальных брендов, а HR-порталы предоставляют больше ссылок, чем польская версия Wikipedia.

arxiv arXiv cs.CL · 6 ч назад

ToolBench-X: Оценка агентов, использующих инструменты, в ненадежных средах

Авторы представляют ToolBench-X, новый бенчмарк, предназначенный для оценки агентов на основе больших языковых моделей в условиях восстанавливаемой ненадежности инструментальной среды. В отличие от существующих бенчмарков, предполагающих чистые и стабильные среды, данная фреймворк внедряет пять структурированных типов опасностей: Specification Drift (дрейф спецификации), Invocation Error (ошибка вызова), Execution Failure (сбой выполнения), Output Drift (дрейф вывода) и Cross-source Conflict (конфликт между источниками). Набор данных содержит исполняемые многошаговые задачи в различных доменах с детерминированными инструментами и каноническими окончательными ответами для автоматической оценки. Ключевым аспектом является то, что каждый внедренный экземпляр остается решаемым через корректные пути восстановления, такие как повторная попытка, использование резервного варианта или проверка. Эксперименты выявляют существенный разрыв в надежности: агенты, демонстрирующие хорошие результаты при работе с надежными инструментами, часто терпят неудачу под воздействием этих опасностей. Дополнительный анализ показывает, что сбои обусловлены ограниченной способностью к диагностике опасностей и неэффективным восстановлением, а не объемом использования инструментов или вычислительным бюджетом на инференс. Целевые подсказки для восстановления успешно позволяют завершить многие упавшие задачи, тогда как масштабирование во время тестирования дает более скромные улучшения. Эти результаты указыва

arxiv arXiv cs.CL · 6 ч назад

SARA: Раскрытие многоязычных знаний в смеси экспертов через семантически закрепленную маршрутизацию

Архитектуры разреженной смеси экспертов (MoE) часто сталкиваются с трудностями при работе с языками с низким уровнем ресурсов из-за расхождения кросслингвистической маршрутизации, которое ограничивает совместное использование экспертов. Для решения этой проблемы исследователи предлагают SARA — фреймворк, который переносит специализированные возможности из высоко ресурсных языков-якорей на языки с низким уровнем ресурсов. SARA выравнивает внутренние распределения маршрутизации слоев MoE с помощью ограничения симметричного расхождения Дженсена-Шеннона, а не оперируя выходными логитами. Этот подход способствует механистической согласованности выбора экспертов для разных языков. Авторы оценили метод на двух больших языковых моделях (LLM) по пяти языкам с низким уровнем ресурсов и трем бенчмаркам. Результаты показывают, что SARA превосходит стандартное инструктивное обучение, достигая прироста +0,8% на Qwen3-30B-A3B и +1,2% на Phi-3.5-MoE-instruct для Global-MMLU. Эти выводы демонстрируют, что SARA эффективно устраняет узкие места производительности в контекстах с низким уровнем ресурсов.

arxiv arXiv cs.LG · 7 ч назад

Select-to-Act: Иерархическое обучение с подкреплением через адаптивное языковое руководство

В статье представлен HRLLI — иерархическая модель обучения с подкреплением, предназначенная для повышения эффективности выборки за счет использования инструкций на естественном языке. Рассматривается ограничение существующих подходов, которые рассматривают инструкции как статические входные данные, не учитывая их зависящую от этапа релевантность в сложных средах. Предлагаемый метод разбивает инструкции на последовательные элементы руководства, которые становятся релевантными на разных этапах взаимодействия. Сформулирована новая парадигма Select-to-Act, где высокоуровневая семантическая политика выступает в роли селектора наиболее релевантной части инструкции на основе текущего состояния. Это выбранное руководство обуславливает низкоуровневую политику, которая выполняет действия в среде, при этом обе политики обучаются одновременно для максимизации расширенных ожидаемых вознаграждений. Эксперименты на бенчмарке RTFM демонстрируют, что HRLLI последовательно превосходит сильные базовые методы RL с условием инструкции. Результаты подтверждают, что явное моделирование адаптивного выбора инструкций значительно повышает эффективность обучения с подкреплением.

arxiv arXiv cs.LG · 7 ч назад

SAFER: Адаптивное ансамблирование, управляемое надёжностью, для устойчивой адаптации во время тестирования

Авторы решают проблему хрупкости адаптации во время тестирования (TTA) в условиях потоков, загрязнённых состязательными воздействиями, предлагая SAFER — фреймворк для устойчивой TTA, не требующий обучения. SAFER действует как обёртка для аугментации, заменяя предсказания по одному представлению данных на агрегированный предиктор, управляемый надёжностью, для стабилизации онлайн-обновлений. Для каждого тестового образца метод генерирует стохастические аугментации и агрегирует их выходные данные с помощью корреляционно-взвешенного пулинга в сочетании с обнаружением выбросов. Также предлагается расширение с адаптивным смешиванием, которое корректирует веса между исходными и аугментированными входными данными на основе сигналов несогласованности признаков, чтобы сохранять качество работы на чистых данных. Исследователи оценили SAFER на наборах данных PACS, VLCS и OfficeHome в условиях атак PGD при различных уровнях интенсивности. Результаты показывают, что SAFER повышает устойчивость методов TTA к состязательным атакам, сохраняя конкурентоспособную точность на чистых данных.

arxiv arXiv cs.LG · 7 ч назад

Экономно активируемое обучение словарю связывает разреженность и хранение с генеративными моделями

В статье представлено экономно активируемое обучение словарю (PADL) — метод, накладывающий глобальную регуляризацию на количество активированных атомов словаря. Показано, что PADL эквивалентен оценке максимального апостериорного вероятности в рамках структурированной генеративной модели с вспомогательными латентными переменными. Эта эквивалентность позволяет вывести гарантии обобщения, которые трудно получить из исходной формулировки. Авторы дают аналитическую характеристику компромисса между разреженностью, стоимостью хранения и точностью реконструкции. Данная структура позволяет оценивать оптимальные гиперпараметры на основе данных без ручной настройки. На основе этой теоретической связи разработан эффективный и интерпретируемый алгоритм PADL. Экспериментальные результаты показывают улучшенную производительность реконструкции при сопоставимых уровнях разреженности на визуальных бенчмарках. Метод также демонстрирует практическую полезность в ускорении вывода для моделей "визия-язык".

arxiv arXiv cs.LG · 7 ч назад

ORBIT: Обучение без дообучения для многоатрибутивного поведенческого управления посредством ортогонального вращения подпространства

Авторы представляют ORBIT — метод, не требующий дообучения, для одновременного контроля нескольких поведенческих атрибутов в больших языковых моделях. Существующие техники активационного управления (activation steering) сталкиваются с трудностями при многоатрибутивном контроле из-за дисбаланса норм и направленной отмены при использовании наивного векторного суммирования. ORBIT решает эту проблему, конструируя совместное подпространство из плоскостей управления для каждого атрибута с помощью сингулярного разложения (SVD). Затем в этом подпространстве применяется единственное сохраняющее норму вращение к объединённому целевому направлению. Метод включает адаптивное посимвольное (per-token) гейтирование для выявления необходимых коррекций на каждой позиции и необязательное аддитивное усиление для слабых проекций. Для оценки подхода авторы представляют TraitFactory — бенчмарк, ориентированный на поведенческие тенденции, а не на поверхностный стиль. Эксперименты на моделях Llama-3.2-3B, Qwen-2.5-7B и Llama-3.1-8B демонстрируют, что ORBIT обеспечивает более сильное и сбалансированное управление по сравнению с базовыми методами, сохраняя при этом связность вывода.

arxiv arXiv cs.LG · 7 ч назад

Оценка физической согласованности в генерации видео на основе мировых моделей без опорных данных

Авторы предлагают методы оценки физической согласованности генерируемых видео без использования опорных данных, объединяющие оценку относительной и абсолютной точности. Этот подход устраняет пробел в оценке физической достоверности, который часто мешает инструментам генерации видео, таким как WorldGym или WorldEval, точно воспроизводить реальные показатели успешности выполнения задач для моделей VLA. В отличие от существующих методов, требующих дорогостоящего человеческого голосования или недоступных эталонных данных, новая архитектура использует DROID-SLAM и SEA-RAFT для количественной оценки несоответствий. Основываясь на WorldScore, оценка относительной согласованности позволяет фильтровать видео и повышать показатели успешности выполнения задач более чем на 8%. Кроме того, абсолютная оценка обеспечивает пространственно-временную локализацию, позволяющую визуализировать, когда и где в сгенерированном контенте возникают физические артефакты.

arxiv arXiv cs.LG · 7 ч назад

Kiwano: открытая библиотека PyTorch для исследований в области верификации говорящих

Исследователи представили Kiwano — открытую библиотеку, предназначенную для развития исследований и оценки в области верификации говорящих. Построенная на базе PyTorch, эта легковесная, но расширяемая фреймворк предоставляет стандартизированные рецепты обучения, предварительно обученные модели и интеграцию широко используемых архитектур. Проект делает акцент на воспроизводимости результатов за счет предоставления прозрачных конвейеров обучения, унифицированных протоколов оценки и готовых базовых реализаций (baselines) для нескольких корпусов данных. Помимо стандартных возможностей обучения и вывода, Kiwano включает специализированные инструменты для бенчмаркинга, отслеживания экспериментов и быстрого прототипирования новых архитектур. Для поощрения внедрения в сообществе библиотека распространяется под лицензией Apache 2.0 и сопровождается всесторонней документацией и воспроизводимыми экспериментами. Снижая порог входа и стандартизируя практики оценки, Kiwano стремится стать ценным ресурсом как для академических исследований, так и для прикладной разработки. Проект доступен в открытом доступе на GitHub по адресу https://github.com/kiwano-toolkit/kiwano/.

arxiv arXiv cs.LG · 7 ч назад

Многосеточное обучение для генерации молекул с использованием графовых нейронных сетей

Авторы предлагают стратегию многосеточного обучения для решения проблем высоких вычислительных затрат и нестабильности, связанных с моделированием биохимических молекулярных систем на полном разрешении. Этот подход использует оптимизацию на низком разрешении для ускорения обучения на более высоких разрешениях за счет передачи параметров между различными дискретизациями. Для графовых представлений молекул метод последовательно передает параметры от грубого графа к все более мелким графам с помощью взвешенной случайной ходьбы при повышении детализации. В задачах генерации 3D-молекул структуры вокселизируются на нескольких разрешениях, что позволяет сначала предварительно обучить условный вариационный автоэнкодер (CVAE) на грубом разрешении. Затем совместимые по форме сверточные параметры передаются из грубой модели для инициализации CVAE с высоким разрешением. Численные эксперименты по генерации 3D-лигандов, обусловленной рецептором, демонстрируют, что данный метод ускоряет сходимость по сравнению с обучением с нуля. Кроме того, исследование показывает, что многосеточное обучение улучшает способность к обобщению в задачах генерации молекул.

media r/LocalLLaMA · 7 ч назад

Опрос сообщества о запуске DwarfStar с моделью DeepSeek V4 Flash на DGX Spark

Пользователь Reddit из сообщества r/LocalLLaMA спрашивает об опыте использования DwarfStar (DS4) с моделью DeepSeek V4 Flash на одном устройстве NVIDIA DGX Spark. В запросе подчеркиваются технические характеристики, указывающие на то, что подход Mixture of Experts и стратегия единой памяти DS4 позволяют загрузить модель с 80 миллиардами активных параметров и полной максимальной длиной контекста. Автор поста ссылается на внешние ресурсы, включая репозиторий GitHub от antirez и демонстрационное видео, чтобы подтвердить эти утверждения о возможностях производительности. Обсуждение направлено на получение отзывов о практической жизнеспособности такой конфигурации, в частности, задавая вопрос о качестве выполнения агентных задач программирования при таких ограничениях. Этот запрос отражает сохраняющийся интерес к оптимизации вывода больших языковых моделей на потребительском или компактном аппаратном обеспечении.

media r/LocalLLaMA · 7 ч назад

Выпущены несексуризированные сбалансированные Gemma4-26B-A4B и 31B-QAT со ускорением за счёт MTP

HauhauCS выпустил две новые несексуризированные сбалансированные версии моделей Gemma 4: Gemma4-26B-A4B и Gemma4-31B-QAT. Оба варианта включают черновики для многозапросного предсказания (MTP) для обеспечения спекулятивного декодирования, что приводит к значительному ускорению вывода. Модель 26B-A4B демонстрирует примерно 35% прирост скорости, а модель 31B — увеличение на 53%, при этом качество вывода остаётся идентичным благодаря механизму черновиков модели. Эти релизы используют квантование, учитывающее QAT, что делает формат Q4_K_M оптимальным, поскольку более высокая точность не даёт улучшения качества для этих конкретных моделей. Модель 26B-A4B представляет собой архитектуру Mixture of Experts с примерно 4 миллиардами активных параметров на токен, тогда как вариант 31B является плотной моделью, предлагающей более высокие возможности для пользователей с достаточным объёмом VRAM. Обе модели поддерживают работу с изображениями через файлы mmproj и сохраняют контекстное окно длиной 262K токенов. Автор отмечает, что тестирование GenRM не выявило ни одного отказа в ответе на 465 запросов, подтверждая их несексуризированный характер.

arxiv arXiv cs.LG · 7 ч назад

HyperAdapter: Структурированная адаптация гиперребер для параметрически эффективной донастройки трансформеров зрения

Авторы предлагают HyperAdapter, новый метод параметрически эффективной донастройки, который адаптирует трансформеры зрения в пространстве гиперребер, а не в пространстве токенов. Существующие методы на основе адаптеров обычно выполняют независимую адаптацию для каждого токена, что игнорирует структурированные взаимосвязи и может приводить к избыточным обновлениям. HyperAdapter строит мягкий гиперграф над токенами ViT с использованием прототипно-базированных назначений, чтобы обеспечить группово-ориентированную адаптацию. Архитектура агрегирует признаки токенов в латентные представления гиперребер и применяет легковесную бутылочную адаптацию на уровне гиперребер. Затем обновления диффундируются обратно к отдельным токенам через структуру инцидентности гиперграфа, внедряя явную структурную индуктивную предвзятость. Масштабные эксперименты на разнообразных визуальных бенчмарках демонстрируют, что этот подход последовательно превосходит сильные базовые методы PEFT при сопоставимых бюджетах параметров. Результаты подчеркивают значительный прогресс в задачах, требующих структурированного рассуждения, и указывают на то, что выбор пространства адаптации является критическим аспектом для эффективного переноса.

arxiv arXiv cs.LG · 8 ч назад

Смещенно-инвариантный оценитель дисперсии устраняет смение минимизации в оценке локального коэффициента обучения

Теория сингулярного обучения использует локальный коэффициент обучения для количественной оценки геометрии ландшафта потерь нейронных сетей, однако оценители на основе среднего значения энергии опираются на аддитивную базовую линию потерь. В фазах обучения вне равновесия это минимальное значение неизвестно, и его замена зашумленными потерями мини-пакетов вносит систематическое смещение минимизации. Авторы предлагают Смещенно-инвариантный оценитель дисперсии (SIVE) для структурного устранения этой неизвестной базовой линии с помощью оператора дисперсии. Комбинируя SIVE с коррекцией, полученной из закона полной дисперсии, метод отделяет геометрические флуктуации потерь от шума оценки. Контролируемые эксперименты на аналитически разрешимых учебных моделях демонстрируют, что SIVE восстанавливает ожидаемые геометрические сигналы при конечной температуре там, где терпят неудачу оценители с закрепленным средним значением. Примененный к глубоким нейронным сетям, SIVE служит надежным диагностическим инструментом для отслеживания структурных фазовых переходов на протяжении всего процесса обучения.

arxiv arXiv cs.LG · 8 ч назад

Эффективный CNN с трансферным обучением для обнаружения множественных видов рака

Исследование представляет легковесную сверточную нейронную сеть, усиленную методом трансферного обучения, для обнаружения множественных видов рака на основе биомедицинских изображений. Архитектура направлена на снижение вычислительной сложности при сохранении высокой классификационной производительности для развертывания в условиях ограниченных ресурсов. Исследователи оценили модель на трех наборах данных опухолей, включающих МРТ головного мозга и КТ-снимки легких и почек. Система достигла точности тестирования 90,85%, 98,64% и 99,92% для рака головного мозга, легких и почек соответственно с использованием пятикратной стратифицированной перекрестной проверки. Трансферное обучение применялось путем предварительного обучения на одном виде рака и дообучения на других, требуя всего 20 дополнительных эпох для достижения уровня моделей, обученных с нуля. Процесс дообучения обновляет классификационную часть CNN и занимает примерно 0,014 секунды на изображение за эпоху на NVIDIA GeForce GTX 960. Сравнительные оценки демонстрируют, что данная модель превосходит современные архитектуры, такие как Xception, VGG16, VGG19, MobileNetV2 и DenseNet121.

blog Simon Willison · 8 ч назад

Саймон Уиллисон преобразует данные о совместимости браузеров MDN в базу данных SQLite

Вдохновлённый новым сервисом MDN MCP от Mozilla, Саймон Уиллисон преобразовал обширный репозиторий mdn/browser-compat-data в базу данных SQLite. Проект использует скрипт, сгенерированный Claude Code for web (Opus 4.8), для выполнения этого преобразования с помощью sqlite-utils. Полученная база данных имеет размер около 66 МБ и размещена на GitHub с открытыми заголовками CORS для обеспечения прямого доступа. Для автоматизации процесса был создан рабочий процесс GitHub Actions, разработанный с помощью Codex Desktop (GPT-5.5), который принудительно отправляет обновлённую базу данных в пустую ветку под названием db. Пользователи могут скачать финальный файл browser-compat.db напрямую из репозитория или изучить его содержимое через Datasette Lite.

arxiv arXiv cs.LG · 8 ч назад

P4IR: Обучение с подкреплением повышает эффективность систем автоматического контроля соответствия кода

Новая платформа P4IR решает проблему генерации несуществующих правил в системах автоматического контроля соответствия кода, основанных на больших языковых моделях. Этот двухэтапный подход сначала использует контролируемое тонкое дообучение для внедрения предметных знаний в модель. Затем применяется групповая относительная оптимизация политики (Group Relative Policy Optimization) для повышения точности генерируемых высокоуровневых каркасов кода. Метод достиг сокращений до 23,8% по расстоянию редактирования дерева и до 38,6% по посимвольному расстоянию Левенштейна по сравнению с базовыми вариантами контролируемого тонкого дообучения. Сравнительный анализ показывает, что P4IR превосходит ведущие модели, такие как Claude Opus, GPT-5.2 и Qwen-3-Max, в условиях нулевого показа (zero-shot). Кроме того, этап обучения с подкреплением обеспечил статистически значимое сокращение числа ложных срабатываний. Эта комбинация методов открывает путь к более надежным системам автоматического контроля соответствия кода.

arxiv arXiv cs.LG · 8 ч назад

Асимптотическое восстановление подпространства сигнала в моделях с механизмом softmax-внимания

В данном исследовании рассматриваются теоретические принципы, лежащие в основе механизмов softmax-внимания, путем анализа стилизованной модели, в которой вектор запроса обучается с помощью стохастического градиентного восхождения. Авторы используют симметрию модели для вывода популяционной целевой функции и характеризуют предельное обыкновенное дифференциальное уравнение, управляющее динамикой обучения. Применяя инструменты теории стохастического приближения и теории динамических систем, они устанавливают строгую связь между стохастическим алгоритмом обучения и его детерминированным пределом. При подходящих предположениях о высокомерном масштабировании и стандартных условиях выбора шага исследования демонстрируют, что обученный вектор запроса сходится почти наверное к одномерному подпространству сигнала. Это сходство означает, что запрос асимптотически восстанавливает скрытое информативное направление с точностью до внутренней неоднозначности знака. Полученные результаты обеспечивают теоретическую основу для понимания механизма внимания как процедуры извлечения сигнала в высокомерных зашумленных средах.

arxiv arXiv cs.LG · 8 ч назад

QeHDC: Вычисление гиперразмерности на основе квантово-усиленного связывания и построения суперклассов

Авторы предлагают QeHDC, новую архитектуру, расширяющую классическое вычисление гиперразмерности за счет использования квантовомеханических свойств для повышения вычислительной эффективности. Этот подход использует метод обучения в один проход, который применяет синусоидальное и квантовое кодирование для проецирования классических данных в амплитудные состояния квантовой системы. Ключевым нововведением является введение операции квантового связывания на основе опорного состояния, реализованной с помощью специфических квантовых схем. Кроме того, архитектура реализует стратегию генерации суперклассов на основе матрицы плотности, использующую разложение по собственным значениям для извлечения ключевых признаков квантового состояния. Эти механизмы обеспечивают более точные и устойчивые представления классов для задач классификации. Экспериментальные оценки на стандартных тестовых наборах данных демонстрируют превосходную производительность по сравнению с традиционными классическими и существующими квантово-усиленными методами. Результаты также подчеркивают устойчивость подхода к шумам и его вычислительную осуществимость, что указывает на практическую пользу для будущих парадигм, вдохновленных квантовыми технологиями.

arxiv arXiv cs.LG · 8 ч назад

GaRA: Графово-осознанная генерация LoRA для улучшения LLM в графовых задачах

Графовые нейронные сети часто демонстрируют ограниченную переносимость из-за их тесной связи с специфичными для набора данных пространствами признаков, тогда как языковые модели обеспечивают гибкую обобщающую способность благодаря единому интерфейсу. Существующие методы адаптации языковых моделей к графовым задачам испытывают трудности с кодированием информации о полном графе, что может приводить к значительной потере информации и субоптимальному пониманию. Чтобы устранить это ограничение, авторы предлагают GaRA — новую модель генерации LoRA, учитывающую структуру графа (Graph-aware), которая реализует парадигму инъекции информации на уровне весов. Этот подход генерирует обновления весов, специфичные для задачи, при условии заданных исходных структур графов, позволяя им напрямую взаимодействовать со скрытыми представлениями. Метод ограничивает норму этих сгенерированных обновлений для внедрения информации о полном графе, избегая при этом смещения оптимизации, присущего стандартной генерации весов. Эмпирические исследования демонстрируют, что GaRA последовательно превосходит базовые методы в различных задачах обучения на графах в режиме zero-shot.