Все статьи
media Hugging Face Forums · 4 ч назад

Пользователи сообщают о недоступности инструментов и MCP-сервера для Step 3.7 Flash в HuggingChat

Пользователь на форумах Hugging Face сообщил, что модель Step 3.7 Flash утратила возможность использовать инструменты и подключаться к MCP-серверам, начиная с того утра. Автор поста выразил высокую удовлетворённость производительностью модели, отметив её высокое качество в соотношении с низким потреблением ресурсов и стоимостью. Он подчеркнул желание продолжать использовать именно эту модель, а не переключаться на альтернативы, из-за её эффективности. Пользователь прямо спросил, является ли эта потеря функциональности постоянной и можно ли предпринять какие-либо шаги для восстановления доступа. Пост отражает обеспокоенность сообщества внезапным нарушением работы инструментов для популярной и экономичной модели.

media Hugging Face Forums · 4 ч назад

Вопрос о формате промпта для обучения Unsloth/Phi-3.5-mini-instruct

Пользователь ищет рекомендации по оптимальной стратегии форматирования промптов для обучения модели Phi-3.5-mini-instruct с использованием Unsloth. Запрос сравнивает сохранение пользовательского текстового формата с использованием стандартного шаблона чата при подготовке датасета. Текущая реализация использует функцию, которая структурирует данные в разделы '### Input:' и '### Output:', добавляя токен конца текста. Этот подход обрабатывает поля ввода и вывода в формате JSON, полученные из объекта Hugging Face Dataset. Приведенный пример демонстрирует сложную структуру, включающую финансовые инсайты, названия мерчантов, даты и суммы транзакций. Пользователь планирует развернуть обученную модель через пользовательский API и просит совета: следует ли сохранить этот формат или перейти на шаблон чата.

github llama.cpp · 4 ч назад

Выпуск llama.cpp b9785 с усиленной проверкой флагов и бинарными файлами для нескольких платформ

Проект llama.cpp выпустил версию b9785, включающую изменение кода для усиления проверки флагов, как подробно описано в pull request #24973. Это обновление предоставляет предварительно собранные бинарные файлы для macOS Apple Silicon, Mac на базе Intel и iOS через XCFramework, при этом поддержка KleidiAI отключена на Apple Silicon. Поддерживаются дистрибутивы Linux, включая Ubuntu, для CPU, Vulkan, ROCm 7.2, OpenVINO и SYCL-бэкендов на архитектурах x64, arm64 и s390x. Пользователи Android могут получить доступ к бинарным файлам CPU для arm64, а Windows предлагает широкий выбор вариантов: CPU, OpenCL Adreno, CUDA 12 и 13, Vulkan, OpenVINO, SYCL и HIP. В релиз также включены сборки для openEuler, ориентированные на процессоры x86 и aarch64 с поддержкой ACL Graph. Рядом с платформо-специфичными выпусками доступен автономный пакет UI для облегчения локального вывода моделей.

arxiv arXiv cs.CL · 5 ч назад

Бенчмарк Argus оценивает стабильность количественной оценки неопределённости для моделей «зрение-язык» и наборов данных GUI Grounding

Авторы представляют Argus, бенчмарк, предназначенный для оценки постхоковой количественной оценки неопределённости для агентов компьютерного использования, которые преобразуют предсказания моделей «зрение-язык» в исполняемые действия GUI. Исследование оценивает 28 методов с открытым исходным кодом на четырёх агентах VLM и четырёх наборах данных, а также восемь закрытых коммерческих методов от трёх поставщиков, где внутренние состояния моделей недоступны. Ключевые выводы выявляют селективную стабильность переноса: рейтинги неопределённости остаются согласованными для фиксированной модели в разных наборах данных, но значительно ухудшаются при переходе между различными классами моделей или наблюдаемыми интерфейсами. Среди методов с открытым исходным кодом техники оценки скрытых состояний и плотности продемонстрировали наивысшую стабильность, тогда как в определённых режимах предпочтительными оказались оценки на основе сэмплирования или вербализованной самооценки. Перенос внутри-модельных рейтингов оказался сильным со значениями ранговой корреляции Спирмена до 0,969, тогда как межуровневый перенос к закрытым коммерческим поставщикам в среднем составил лишь +0,08. Исследование также показывает, что конформные области кликов уменьшают радиусы на 40–60 процентов после калибровки, но страдают от снижения покрытия при несовпадении интерфейсов. Для поддержки выбора с учётом режима авторы публикуют записи по каждому элементу, разделения для калибровки, оценки UQ и скрипты анализа.

arxiv arXiv cs.CL · 5 ч назад

Экономия пространства при генерации языка в пределе

Настоящее исследование закладывает основы теории генерации языка в пределе, учитывающей ресурсы и ограничения по эффективности использования памяти. Обучающийся наблюдает за враждебной последовательностью положительных примеров из целевого языка K и должен выдать гипотезу L, свободную от галлюцинаций, пропустив не более Δ строк. В качестве класса гипотез для обучающихся с ограниченной памятью рассматриваются детерминированные конечные автоматы (DFAs) с s состояниями над алфавитом размера k. В режиме экспоненциальной памяти авторы доказывают, что обучающийся может точно идентифицировать целевой язык K. При более строгих ограничениях по объему памяти они представляют потоковый алгоритм, использующий O(poly(s,k)) памяти и сходящийся к гипотезе с разрывом генерации Δ = O(k^{2s-2}). Эта обученная гипотеза содержит все строки из K длины не менее 2s-1. Результаты дополняются нижней оценкой, близкой к достижимой, полученной из теории сложности коммуникации, показывающей, что достижение Δ ≤ k^{(1-ε)s} требует памяти объема k^{Ω(εs)}. Эти выводы демонстрируют резкий переход между генерацией в полиномиальной памяти и точной идентификацией в экспоненциальной памяти.

arxiv arXiv cs.CL · 5 ч назад

Как большие языковые модели формируют репутацию брендов в разных языках и рынках

В данном исследовании анализируются источники цитирования, используемые большими языковыми моделями при ответах на вопросы о брендах, с акцентом на лежащие в основе веб-ссылки, а не только на сгенерированный текст. Исследователи объединили три набора данных Rankfor.AI для изучения 167 551 URL-привязанной цитаты, относящейся к 128 брендам в 12 домашних рынках и на 13 языках. Анализ показывает, что ИИ опирается на ответы о брендах преимущественно на сторонние источники: 85,7% ссылок ведут на сайты, не принадлежащие бренду, по сравнению лишь с 14,3% для доменов, находящихся в собственности бренда. База источников сильно сконцентрирована и подчиняется закону Ципфа: 80% цитат происходят примерно от 18% доменов. Wikipedia становится доминирующим ссылочным ресурсом, являясь самым цитируемым доменом в 11 из 12 изученных языков. Единственным исключением является литовский язык, где деловая газета vz.lt немного опережает Wikipedia с долей 4,38%. Кроме того, состав источников демонстрирует вариации, специфичные для рынка: например, YouTube является самым цитируемым доменом для польских национальных брендов, а HR-порталы предоставляют больше ссылок, чем польская версия Wikipedia.

arxiv arXiv cs.CL · 5 ч назад

ToolBench-X: Оценка агентов, использующих инструменты, в ненадежных средах

Авторы представляют ToolBench-X, новый бенчмарк, предназначенный для оценки агентов на основе больших языковых моделей в условиях восстанавливаемой ненадежности инструментальной среды. В отличие от существующих бенчмарков, предполагающих чистые и стабильные среды, данная фреймворк внедряет пять структурированных типов опасностей: Specification Drift (дрейф спецификации), Invocation Error (ошибка вызова), Execution Failure (сбой выполнения), Output Drift (дрейф вывода) и Cross-source Conflict (конфликт между источниками). Набор данных содержит исполняемые многошаговые задачи в различных доменах с детерминированными инструментами и каноническими окончательными ответами для автоматической оценки. Ключевым аспектом является то, что каждый внедренный экземпляр остается решаемым через корректные пути восстановления, такие как повторная попытка, использование резервного варианта или проверка. Эксперименты выявляют существенный разрыв в надежности: агенты, демонстрирующие хорошие результаты при работе с надежными инструментами, часто терпят неудачу под воздействием этих опасностей. Дополнительный анализ показывает, что сбои обусловлены ограниченной способностью к диагностике опасностей и неэффективным восстановлением, а не объемом использования инструментов или вычислительным бюджетом на инференс. Целевые подсказки для восстановления успешно позволяют завершить многие упавшие задачи, тогда как масштабирование во время тестирования дает более скромные улучшения. Эти результаты указыва

arxiv arXiv cs.CL · 5 ч назад

SARA: Раскрытие многоязычных знаний в смеси экспертов через семантически закрепленную маршрутизацию

Архитектуры разреженной смеси экспертов (MoE) часто сталкиваются с трудностями при работе с языками с низким уровнем ресурсов из-за расхождения кросслингвистической маршрутизации, которое ограничивает совместное использование экспертов. Для решения этой проблемы исследователи предлагают SARA — фреймворк, который переносит специализированные возможности из высоко ресурсных языков-якорей на языки с низким уровнем ресурсов. SARA выравнивает внутренние распределения маршрутизации слоев MoE с помощью ограничения симметричного расхождения Дженсена-Шеннона, а не оперируя выходными логитами. Этот подход способствует механистической согласованности выбора экспертов для разных языков. Авторы оценили метод на двух больших языковых моделях (LLM) по пяти языкам с низким уровнем ресурсов и трем бенчмаркам. Результаты показывают, что SARA превосходит стандартное инструктивное обучение, достигая прироста +0,8% на Qwen3-30B-A3B и +1,2% на Phi-3.5-MoE-instruct для Global-MMLU. Эти выводы демонстрируют, что SARA эффективно устраняет узкие места производительности в контекстах с низким уровнем ресурсов.

arxiv arXiv cs.LG · 5 ч назад

Select-to-Act: Иерархическое обучение с подкреплением через адаптивное языковое руководство

В статье представлен HRLLI — иерархическая модель обучения с подкреплением, предназначенная для повышения эффективности выборки за счет использования инструкций на естественном языке. Рассматривается ограничение существующих подходов, которые рассматривают инструкции как статические входные данные, не учитывая их зависящую от этапа релевантность в сложных средах. Предлагаемый метод разбивает инструкции на последовательные элементы руководства, которые становятся релевантными на разных этапах взаимодействия. Сформулирована новая парадигма Select-to-Act, где высокоуровневая семантическая политика выступает в роли селектора наиболее релевантной части инструкции на основе текущего состояния. Это выбранное руководство обуславливает низкоуровневую политику, которая выполняет действия в среде, при этом обе политики обучаются одновременно для максимизации расширенных ожидаемых вознаграждений. Эксперименты на бенчмарке RTFM демонстрируют, что HRLLI последовательно превосходит сильные базовые методы RL с условием инструкции. Результаты подтверждают, что явное моделирование адаптивного выбора инструкций значительно повышает эффективность обучения с подкреплением.

arxiv arXiv cs.LG · 5 ч назад

SAFER: Адаптивное ансамблирование, управляемое надёжностью, для устойчивой адаптации во время тестирования

Авторы решают проблему хрупкости адаптации во время тестирования (TTA) в условиях потоков, загрязнённых состязательными воздействиями, предлагая SAFER — фреймворк для устойчивой TTA, не требующий обучения. SAFER действует как обёртка для аугментации, заменяя предсказания по одному представлению данных на агрегированный предиктор, управляемый надёжностью, для стабилизации онлайн-обновлений. Для каждого тестового образца метод генерирует стохастические аугментации и агрегирует их выходные данные с помощью корреляционно-взвешенного пулинга в сочетании с обнаружением выбросов. Также предлагается расширение с адаптивным смешиванием, которое корректирует веса между исходными и аугментированными входными данными на основе сигналов несогласованности признаков, чтобы сохранять качество работы на чистых данных. Исследователи оценили SAFER на наборах данных PACS, VLCS и OfficeHome в условиях атак PGD при различных уровнях интенсивности. Результаты показывают, что SAFER повышает устойчивость методов TTA к состязательным атакам, сохраняя конкурентоспособную точность на чистых данных.

arxiv arXiv cs.LG · 5 ч назад

Экономно активируемое обучение словарю связывает разреженность и хранение с генеративными моделями

В статье представлено экономно активируемое обучение словарю (PADL) — метод, накладывающий глобальную регуляризацию на количество активированных атомов словаря. Показано, что PADL эквивалентен оценке максимального апостериорного вероятности в рамках структурированной генеративной модели с вспомогательными латентными переменными. Эта эквивалентность позволяет вывести гарантии обобщения, которые трудно получить из исходной формулировки. Авторы дают аналитическую характеристику компромисса между разреженностью, стоимостью хранения и точностью реконструкции. Данная структура позволяет оценивать оптимальные гиперпараметры на основе данных без ручной настройки. На основе этой теоретической связи разработан эффективный и интерпретируемый алгоритм PADL. Экспериментальные результаты показывают улучшенную производительность реконструкции при сопоставимых уровнях разреженности на визуальных бенчмарках. Метод также демонстрирует практическую полезность в ускорении вывода для моделей "визия-язык".

arxiv arXiv cs.LG · 6 ч назад

ORBIT: Обучение без дообучения для многоатрибутивного поведенческого управления посредством ортогонального вращения подпространства

Авторы представляют ORBIT — метод, не требующий дообучения, для одновременного контроля нескольких поведенческих атрибутов в больших языковых моделях. Существующие техники активационного управления (activation steering) сталкиваются с трудностями при многоатрибутивном контроле из-за дисбаланса норм и направленной отмены при использовании наивного векторного суммирования. ORBIT решает эту проблему, конструируя совместное подпространство из плоскостей управления для каждого атрибута с помощью сингулярного разложения (SVD). Затем в этом подпространстве применяется единственное сохраняющее норму вращение к объединённому целевому направлению. Метод включает адаптивное посимвольное (per-token) гейтирование для выявления необходимых коррекций на каждой позиции и необязательное аддитивное усиление для слабых проекций. Для оценки подхода авторы представляют TraitFactory — бенчмарк, ориентированный на поведенческие тенденции, а не на поверхностный стиль. Эксперименты на моделях Llama-3.2-3B, Qwen-2.5-7B и Llama-3.1-8B демонстрируют, что ORBIT обеспечивает более сильное и сбалансированное управление по сравнению с базовыми методами, сохраняя при этом связность вывода.

arxiv arXiv cs.LG · 6 ч назад

Оценка физической согласованности в генерации видео на основе мировых моделей без опорных данных

Авторы предлагают методы оценки физической согласованности генерируемых видео без использования опорных данных, объединяющие оценку относительной и абсолютной точности. Этот подход устраняет пробел в оценке физической достоверности, который часто мешает инструментам генерации видео, таким как WorldGym или WorldEval, точно воспроизводить реальные показатели успешности выполнения задач для моделей VLA. В отличие от существующих методов, требующих дорогостоящего человеческого голосования или недоступных эталонных данных, новая архитектура использует DROID-SLAM и SEA-RAFT для количественной оценки несоответствий. Основываясь на WorldScore, оценка относительной согласованности позволяет фильтровать видео и повышать показатели успешности выполнения задач более чем на 8%. Кроме того, абсолютная оценка обеспечивает пространственно-временную локализацию, позволяющую визуализировать, когда и где в сгенерированном контенте возникают физические артефакты.

arxiv arXiv cs.LG · 6 ч назад

Kiwano: открытая библиотека PyTorch для исследований в области верификации говорящих

Исследователи представили Kiwano — открытую библиотеку, предназначенную для развития исследований и оценки в области верификации говорящих. Построенная на базе PyTorch, эта легковесная, но расширяемая фреймворк предоставляет стандартизированные рецепты обучения, предварительно обученные модели и интеграцию широко используемых архитектур. Проект делает акцент на воспроизводимости результатов за счет предоставления прозрачных конвейеров обучения, унифицированных протоколов оценки и готовых базовых реализаций (baselines) для нескольких корпусов данных. Помимо стандартных возможностей обучения и вывода, Kiwano включает специализированные инструменты для бенчмаркинга, отслеживания экспериментов и быстрого прототипирования новых архитектур. Для поощрения внедрения в сообществе библиотека распространяется под лицензией Apache 2.0 и сопровождается всесторонней документацией и воспроизводимыми экспериментами. Снижая порог входа и стандартизируя практики оценки, Kiwano стремится стать ценным ресурсом как для академических исследований, так и для прикладной разработки. Проект доступен в открытом доступе на GitHub по адресу https://github.com/kiwano-toolkit/kiwano/.

arxiv arXiv cs.LG · 6 ч назад

Многосеточное обучение для генерации молекул с использованием графовых нейронных сетей

Авторы предлагают стратегию многосеточного обучения для решения проблем высоких вычислительных затрат и нестабильности, связанных с моделированием биохимических молекулярных систем на полном разрешении. Этот подход использует оптимизацию на низком разрешении для ускорения обучения на более высоких разрешениях за счет передачи параметров между различными дискретизациями. Для графовых представлений молекул метод последовательно передает параметры от грубого графа к все более мелким графам с помощью взвешенной случайной ходьбы при повышении детализации. В задачах генерации 3D-молекул структуры вокселизируются на нескольких разрешениях, что позволяет сначала предварительно обучить условный вариационный автоэнкодер (CVAE) на грубом разрешении. Затем совместимые по форме сверточные параметры передаются из грубой модели для инициализации CVAE с высоким разрешением. Численные эксперименты по генерации 3D-лигандов, обусловленной рецептором, демонстрируют, что данный метод ускоряет сходимость по сравнению с обучением с нуля. Кроме того, исследование показывает, что многосеточное обучение улучшает способность к обобщению в задачах генерации молекул.

media r/LocalLLaMA · 6 ч назад

Опрос сообщества о запуске DwarfStar с моделью DeepSeek V4 Flash на DGX Spark

Пользователь Reddit из сообщества r/LocalLLaMA спрашивает об опыте использования DwarfStar (DS4) с моделью DeepSeek V4 Flash на одном устройстве NVIDIA DGX Spark. В запросе подчеркиваются технические характеристики, указывающие на то, что подход Mixture of Experts и стратегия единой памяти DS4 позволяют загрузить модель с 80 миллиардами активных параметров и полной максимальной длиной контекста. Автор поста ссылается на внешние ресурсы, включая репозиторий GitHub от antirez и демонстрационное видео, чтобы подтвердить эти утверждения о возможностях производительности. Обсуждение направлено на получение отзывов о практической жизнеспособности такой конфигурации, в частности, задавая вопрос о качестве выполнения агентных задач программирования при таких ограничениях. Этот запрос отражает сохраняющийся интерес к оптимизации вывода больших языковых моделей на потребительском или компактном аппаратном обеспечении.

media r/LocalLLaMA · 6 ч назад

Выпущены несексуризированные сбалансированные Gemma4-26B-A4B и 31B-QAT со ускорением за счёт MTP

HauhauCS выпустил две новые несексуризированные сбалансированные версии моделей Gemma 4: Gemma4-26B-A4B и Gemma4-31B-QAT. Оба варианта включают черновики для многозапросного предсказания (MTP) для обеспечения спекулятивного декодирования, что приводит к значительному ускорению вывода. Модель 26B-A4B демонстрирует примерно 35% прирост скорости, а модель 31B — увеличение на 53%, при этом качество вывода остаётся идентичным благодаря механизму черновиков модели. Эти релизы используют квантование, учитывающее QAT, что делает формат Q4_K_M оптимальным, поскольку более высокая точность не даёт улучшения качества для этих конкретных моделей. Модель 26B-A4B представляет собой архитектуру Mixture of Experts с примерно 4 миллиардами активных параметров на токен, тогда как вариант 31B является плотной моделью, предлагающей более высокие возможности для пользователей с достаточным объёмом VRAM. Обе модели поддерживают работу с изображениями через файлы mmproj и сохраняют контекстное окно длиной 262K токенов. Автор отмечает, что тестирование GenRM не выявило ни одного отказа в ответе на 465 запросов, подтверждая их несексуризированный характер.

arxiv arXiv cs.LG · 6 ч назад

HyperAdapter: Структурированная адаптация гиперребер для параметрически эффективной донастройки трансформеров зрения

Авторы предлагают HyperAdapter, новый метод параметрически эффективной донастройки, который адаптирует трансформеры зрения в пространстве гиперребер, а не в пространстве токенов. Существующие методы на основе адаптеров обычно выполняют независимую адаптацию для каждого токена, что игнорирует структурированные взаимосвязи и может приводить к избыточным обновлениям. HyperAdapter строит мягкий гиперграф над токенами ViT с использованием прототипно-базированных назначений, чтобы обеспечить группово-ориентированную адаптацию. Архитектура агрегирует признаки токенов в латентные представления гиперребер и применяет легковесную бутылочную адаптацию на уровне гиперребер. Затем обновления диффундируются обратно к отдельным токенам через структуру инцидентности гиперграфа, внедряя явную структурную индуктивную предвзятость. Масштабные эксперименты на разнообразных визуальных бенчмарках демонстрируют, что этот подход последовательно превосходит сильные базовые методы PEFT при сопоставимых бюджетах параметров. Результаты подчеркивают значительный прогресс в задачах, требующих структурированного рассуждения, и указывают на то, что выбор пространства адаптации является критическим аспектом для эффективного переноса.

arxiv arXiv cs.LG · 6 ч назад

Смещенно-инвариантный оценитель дисперсии устраняет смение минимизации в оценке локального коэффициента обучения

Теория сингулярного обучения использует локальный коэффициент обучения для количественной оценки геометрии ландшафта потерь нейронных сетей, однако оценители на основе среднего значения энергии опираются на аддитивную базовую линию потерь. В фазах обучения вне равновесия это минимальное значение неизвестно, и его замена зашумленными потерями мини-пакетов вносит систематическое смещение минимизации. Авторы предлагают Смещенно-инвариантный оценитель дисперсии (SIVE) для структурного устранения этой неизвестной базовой линии с помощью оператора дисперсии. Комбинируя SIVE с коррекцией, полученной из закона полной дисперсии, метод отделяет геометрические флуктуации потерь от шума оценки. Контролируемые эксперименты на аналитически разрешимых учебных моделях демонстрируют, что SIVE восстанавливает ожидаемые геометрические сигналы при конечной температуре там, где терпят неудачу оценители с закрепленным средним значением. Примененный к глубоким нейронным сетям, SIVE служит надежным диагностическим инструментом для отслеживания структурных фазовых переходов на протяжении всего процесса обучения.

arxiv arXiv cs.LG · 6 ч назад

Эффективный CNN с трансферным обучением для обнаружения множественных видов рака

Исследование представляет легковесную сверточную нейронную сеть, усиленную методом трансферного обучения, для обнаружения множественных видов рака на основе биомедицинских изображений. Архитектура направлена на снижение вычислительной сложности при сохранении высокой классификационной производительности для развертывания в условиях ограниченных ресурсов. Исследователи оценили модель на трех наборах данных опухолей, включающих МРТ головного мозга и КТ-снимки легких и почек. Система достигла точности тестирования 90,85%, 98,64% и 99,92% для рака головного мозга, легких и почек соответственно с использованием пятикратной стратифицированной перекрестной проверки. Трансферное обучение применялось путем предварительного обучения на одном виде рака и дообучения на других, требуя всего 20 дополнительных эпох для достижения уровня моделей, обученных с нуля. Процесс дообучения обновляет классификационную часть CNN и занимает примерно 0,014 секунды на изображение за эпоху на NVIDIA GeForce GTX 960. Сравнительные оценки демонстрируют, что данная модель превосходит современные архитектуры, такие как Xception, VGG16, VGG19, MobileNetV2 и DenseNet121.