Все статьи
arxiv arXiv cs.LG · 6 ч назад

Куркулярное обучение с подкреплением, учитывающее границы, расширяет способность к рассуждению больших языковых моделей за пределы ограничений базовой модели

Авторы утверждают, что основной подход обучения с подкреплением с проверяемыми наградами (RLVR) часто не способен расширить способность к рассуждению больших языковых моделей, ограничиваясь лишь перераспределением вероятностей среди существующих траекторий. Чтобы устранить это ограничение, они предлагают метод куркулярного обучения с подкреплением, учитывающего границы, направленный на преодоление эмпирической границы способности к рассуждению базовой модели. Метод сначала использует выборку pass@k для определения текущих пределов рассуждения, а затем применяет целенаправленное руководство учителя к примерам, находящимся вблизи этой границы или за ее пределами. Обучение с подкреплением затем используется для закрепления этих новых паттернов рассуждения на базовых моделях Qwen, Llama и DeepSeek. Экспериментальные результаты демонстрируют значительное улучшение как показателей pass@1, так и pass@256, которые служат прокси-метрикой для границы способности к рассуждению. В частности, средний показатель pass@256 улучшился на 9,8 процентных пункта по сравнению с базовыми моделями и на 10,3 процентных пункта по сравнению с базовым RLVR (Vanilla RLVR). Эти выводы указывают на то, что данная стратегия на основе куррикулума предлагает масштабируемый путь для непрерывного улучшения способностей к рассуждению больших языковых моделей.

arxiv arXiv cs.LG · 6 ч назад

Синки внимания и коллапс — универсальные следствия маршрутизации на основе контента

Исследование демонстрирует, что синки внимания, коллапс представлений и стратификация норм не являются уникальными для архитектур трансформеров, а представляют собой неотъемлемые следствия маршрутизации на основе контента при фиксированной метрике сходства. Устанавливается тождество, показывающее, что функции внимания softmax выступают в качестве агрегации с весами Больцмана по евклидовым расстояниям при постоянных нормах ключей, делая их нечувствительными к величине ключа из-за отсутствия специфического нормировочного члена. Эта рамка предсказывает, что любой маршрутизатор, использующий метрику, плохо согласованную с его представлениями, будет компенсировать это путем концентрации маршрутизации и коллапса маршрутизируемых представлений. Авторы проверяют эту гипотезу на разнообразных моделях, включая девять предварительно обученных трансформеров, графовые сети внимания, модели селективного пространственного состояния, рекуррентные миксеры и обучаемые остаточные слои. Экспериментальные результаты подтверждают, что все протестированные архитектуры демонстрируют этот идентичный признак коллапса независимо от их конкретной области или структуры. Кроме того, аблиационные исследования внутри модели выделяют механизм маршрутизации как основную причину, а не случайные динамики обучения. Показано, что начало этого явления зависит от силы позиционного тормоза, сопровождающего контентный счет, что может смещать эффект в пределах его диапазона. Однако лежащий в основе механизм остается и

media r/LocalLLaMA · 7 ч назад

Пользователи сообщают о высокой производительности модели siq1 на Kebab Bench

Пользователь Reddit поделился результатами, показывающими, что его модель, названная siq1, демонстрирует отличные результаты на оценке Kebab Bench. В посте подчеркиваются возможности модели с помощью демонстрации, размещенной в Hugging Face Spaces. В частности, пользователь ссылается на пространство под названием 'hermes-agent-zerogpu', созданное AlexWortega, как доказательство этой производительности. Этот пост был опубликован пользователем Reddit /u/Mysterious_Hearing14 в сообществе r/LocalLLaMA. Оригинальный пост содержит ссылку на интерфейс Hugging Face, где можно протестировать модель. Кроме того, для дополнительной проверки доступна видеодемонстрация по ссылке V.redd.it.

media r/LocalLLaMA · 7 ч назад

Запрос о наличии современных моделей, не предназначенных для завершения диалога

Пользователь на сабреддите LocalLLaMA задался вопросом, все ли современные большие языковые модели настроены исключительно для взаимодействия в формате чата. Запрос был направлен на выявление моделей, поддерживающих простое завершение текста, а не разговорные форматы. Автор поста отметил сложность поиска таких моделей в репозитории Hugging Face. Это подчеркивает воспринимаемый пробел в доступности архитектур, не ориентированных на чат, для пользователей, нуждающихся в возможностях сырого завершения текста. Обсуждение отражает более широкие опасения по поводу смещения индустрии в сторону моделей, настроенных на инструкции и ориентированных на чат.

arxiv arXiv cs.LG · 7 ч назад

Отсутствие обобщения без эталона в квантовом машинном обучении

В данном исследовании рассматривается проблема идентифицируемости в квантовом машинном обучении, когда обучающие данные не имеют предпочтительного базиса или системы отсчета. Авторы формулируют задачу обучения с учителем без внешнего квантового эталона, требуя от классификаторов сохранения унитарных симметрий, не нарушенных обучающими данными. Они доказывают, что если обучающие состояния не порождают полное гильбертово пространство, то все чистые состояния, ортогональные этому подпространству, получают одинаковые предсказания. Это ограничение возникает из-за отсутствия эталонной информации, а не из-за ограничений на различение состояний или вычислительных возможностей. Исследование устанавливает устойчивую версию в условиях слабого нарушения симметрии и показывает, что обучение общим концепциям требует экспоненциально большого числа ориентированных обучающих направлений. Численные иллюстрации визуализируют коллапс предсказаний и его контролируемое смягчение. Результаты показывают, что отображения признаков, базисы измерений и разнообразные обучающие состояния являются необходимыми операционными ресурсами для обобщения.

arxiv arXiv cs.LG · 7 ч назад

Носимый A-режимный ультразвук обеспечивает отслеживание кинематики всей руки на микроконтроллере

Исследователи предлагают надежную систему отслеживания кинематики всей кисти и запястья с использованием носимой платформы WULPUS и зонда A-режимного ультразвука. Система решает задачу регрессии 23 степеней свободы непосредственно на устройстве, преодолевая ограничения предыдущих неносимых систем. В качестве инструмента применяется компактная многовыходная сверточная нейронная сеть с 11 285 параметрами в сочетании со стратегией инкрементального обучения для повышения обобщающей способности. Этот подход снижает среднюю абсолютную ошибку более чем на 17% по сравнению с неинкрементальными методами. Модель развернута на микроконтроллере WULPUS nRF52832, обеспечивая сквозное отслеживание полностью на устройстве. Расход энергии при выводе составляет всего 0,73 мДж при задержке 29,1 мс. Система поддерживает полную работу в пределах 33 мВт, что позволяет осуществлять непрерывную работу до 36 часов. Этот метод также снижает требования к пропускной способности беспроводной связи на 88% по сравнению с передачей необработанных данных.

arxiv arXiv cs.LG · 7 ч назад

Нуль-калиброванный конформный отбор через оценки принадлежности к цели

В статье представлен метод нуль-калиброванного конформного отбора (NCCS), который использует оценки вероятности принадлежности к цели для выявления кандидатов в тесте внутри целевой области при контроле уровня ложных открытий. Авторы утверждают, что эти оценки принадлежности обеспечивают более естественный ранжирование для задач отбора по сравнению с традиционными показателями несогласованности, ориентированными на прогнозирование, особенно для сложных целей. Это различие имеет критическое значение для целей со значениями в виде интервалов, управляемых дисперсией, многомодальных или многоусловных, где традиционные показатели могут не соответствовать мощности отбора. NCCS ранжирует тестовые оценки по подтвержденным примерам калибровки с нулевым результатом (не-цель), чтобы получить валидные для конечной выборки нулевые p-значения при условии нулевой обменности. Эти p-значения могут быть объединены с процедурой Бенjamини-Екутиели при произвольной зависимости или с процедурой Бенjamини-Хохберга при стандартных условиях положительной зависимости. Эксперименты демонстрируют, что оценки принадлежности совпадают с традиционными показателями на монотонных по среднему значениях целях, но существенно улучшают производительность на целях, управляемых дисперсией. В режимах редких целей NCCS жертвует мощностью ради нулевой валидности для конечной выборки, решая проблемы, при которых прямое пороговое значение эмпирического FDP (False Discovery Proportion) может быть излишне оптимистичным.

arxiv arXiv cs.LG · 7 ч назад

RoboMME-Interference: тестирование памяти роботов в условиях отвлекающих факторов

Введение RoboMME-Interference решает потребность в оценке памяти роботов в реалистичных сценариях с длинным контекстом, где системы должны вспоминать информацию из нескольких предыдущих сеансов. Этот новый кросс-сеансный бенчмарк построен на основе существующей платформы RoboMME для измерения производительности, когда роботы сталкиваются с отвлекающими факторами от нерелевантного предыдущего опыта. Для каждого эпизода запроса бенчмарк формирует историю сеанса, состоящую из релевантных демонстраций, за которыми следует контролируемое количество нерелевантных сеансов, предоставляемых в качестве памяти моделям Vision-Language-Action (VLA). Исследователи протестировали выпущенные модификации модели π_0.5 с дополненной памятью без изменений, чтобы оценить их устойчивость в этих условиях. Результаты показывают, что хотя варианты с перцептивной памятью улучшают показатели успеха при отсутствии отвлекающих факторов, их точность стабильно и сильно снижается по мере накопления нерелевантных сеансов. Эти выводы подчеркивают критический недостаток текущих систем в отношении памяти длинного контекста и устойчивости к интерференции. Страница проекта, видео, код и данные для этого бенчмарка доступны по адресу https://robotmemorybench.com.

arxiv arXiv cs.LG · 7 ч назад

Послойная аннигиляция потока для сэмплирования апостериорного распределения в регрессии в пространстве функций и обратных задачах

Авторы представляют Flow Annealing Posterior Sampling (FAPS), новую рамку, объединяющую регрессию стохастических процессов с обратными задачами УЧП в пространстве функций. Опираясь на предварительно обученные априорные распределения для flow-matching в пространстве функций, FAPS обеспечивает апостериорный вывод, направляемый правдоподобием, на основе разреженных и зашумленных наблюдений. Метод поддерживает различные дискретизации точек запроса и избегает необходимости явной оценки плотности априорного распределения во время сэмплирования. Он использует механизм коррекции Ланжевена, который применяет предобусловливатель низкого ранга для использования доминирующих корреляций в пространстве функций между различными дискретизациями. Тестирование на гауссовских и не-гауссовских стохастических процессах показывает, что FAPS генерирует согласованные апостериорные выборки с точной количественной оценкой неопределенности. Подход значительно превосходит существующие базовые методы функциональной регрессии в этих стандартных задачах. Кроме того, он демонстрирует конкурентоспособную или превосходную производительность в зашумленных обратных задачах УЧП по сравнению с диффузионными сэмплерами при одновременном снижении затрат на сэмплирование во время тестирования.

media r/LocalLLaMA · 8 ч назад

Сэмплер и верификатор с возвратом назад кардинально улучшают производительность маленьких моделей в задачах программирования

Новый сэмплер с возвратом назад, объединенный с моделью-верификатором, значительно повышает качество кодогенерации у крошечных моделей объемом 0.5B параметров, потенциально делая их конкурентоспособными по сравнению с моделями класса 2–4B без изменения весов. Этот подход теоретически решает проблему галлюцинаций в больших моделях за счет исправления ошибок во время генерации путем повторного сэмплирования. Однако данный метод приводит к снижению скорости декодирования на 5–30% из-за необходимости выполнения обратных проходов и требует обучения модели-верификатора, сопоставимой по размеру с исходной. Это требование удваивает использование VRAM и увеличивает вычислительные затраты в 1,5–3 раза по сравнению со стандартным инференсом. Несмотря на эти издержки, верификатор обобщается на модели равного или меньшего веса, если он обучен на разнообразных распределениях данных. Обучение верификатора очень эффективно и требует лишь около 0,01% от объема токенов, используемых для полного предварительного обучения.

media r/LocalLLaMA · 8 ч назад

NVIDIA выпустила Nemotron-TwoTower-30B-A3B — языковую модель на основе диффузии

Компания NVIDIA выпустила модель Nemotron-TwoTower-30B-A3B-Base-BF16, построенную на базе Nemotron 3 Nano 30B-A3B. Эта архитектура отличается от стандартных авторегрессионных моделей за счет использования замороженной контекстной башни вместе с башней диффузионного шумоподавления. Система итеративно заполняет блоки токенов параллельно, а не генерирует их строго по одному. По словам NVIDIA, эта настройка маски-диффузии по умолчанию сохраняет 98,7% совокупного качества бенчмарков, характерного для авторегрессионной базовой модели. При сохранении высокого качества модель достигает в 2,42 раза большей пропускной способности генерации во времени выполнения. В релизе подчеркивается новый подход к языковому моделированию, сочетающий техники диффузии с возможностями больших языковых моделей.

media r/LocalLLaMA · 8 ч назад

Экспериментальная реализация RDMA через USB4 продемонстрирована на базе Strix Halo

В блоге Hellas.ai описана экспериментальная реализация удаленного прямого доступа к памяти (RDMA) через Thunderbolt. Демонстрация была проведена с использованием двух устройств, оснащенных процессорами AMD Strix Halo. Этот подход обеспечивает высокоскоростную передачу данных посредством стандарта USB4. Автор отмечает, что эта технология может быть значимой, поскольку она совместима с любым хостом, поддерживающим USB4. Предшествующих публичных обсуждений данной конкретной реализации автор не обнаружил. Работа подчеркивает потенциал использования существующих аппаратных интерфейсов для решения сложных сетевых задач.

media r/LocalLLaMA · 8 ч назад

GLM 5.2 на конфигурации с двумя Strix Halo (256 ГБ): стоит ли того?

Пользователь Reddit под именем Intrepid_Rub_3566 опубликовал видеообзор, оценивающий производительность GLM 5.2 в конфигурации с двумя процессорами AMD Strix Halo и 256 ГБ оперативной памяти. Обсуждение сосредоточено на том, обеспечивает ли данная конкретная аппаратная конфигурация достаточную ценность для локального вывода больших языковых моделей. Материал подчеркивает техническую возможность развертывания GLM 5.2 в такой среде, уделяя внимание использованию ресурсов и скорости. Зрителям предлагается перейти по ссылке на YouTube для получения подробных бенчмарков и метрик производительности. В теме также присутствуют комментарии сообщества, обсуждающие практическую применимость и рентабельность такого подхода с использованием двух GPU.

media r/LocalLLaMA · 8 ч назад

Вопрос на Reddit о использовании локальных моделей для самостоятельного взлома

Пользователь сабреддита r/LocalLLaMA спросил, пробовал ли кто-то получать root-доступ к своей собственной системе с помощью локальной большой языковой модели. Этот вопрос был вызван недавними обсуждениями предполагаемой способности Mythos взламывать системы правительств США. Пост призывает сообщество поделиться практическим опытом относительно осуществимости подобных действий. Он конкретно касается применения локальных моделей для самостоятельного пентеста или несанкционированного доступа. Вопрос подчеркивает обеспокоенность по поводу последствий для безопасности, связанных с тем, что мощные инструменты ИИ оказываются в руках отдельных лиц.

media r/LocalLLaMA · 8 ч назад

Пользователи сообщают о снижении качества и эффективности моделей MTP в Qwen 3.6 и Gemma 4

Пользователь, тестирующий самохостинговые модели Qwen 3.6 27B и Gemma 4 на четырех видеокартах RTX 5070 Ti, сообщает, что многозадачное предсказание токенов (MTP) ухудшает качество вывода по сравнению с вариантами без MTP. При задачах рецензирования кода модель без MTP выдавала более детальные результаты с предложениями по исправлению, потребляя меньше токенов, чем её аналог с MTP. Метрики производительности показали, что конфигурация без MTP достигала примерно 2000 обрабатываемых токенов промпта в секунду и скорости генерации 50-60 токенов в секунду. Напротив, конфигурация MTP обеспечивала более высокую скорость генерации 100-120 tg/s, но более низкую скорость обработки промптов около 1300 pp/s. Несмотря на более высокую пропускную способность генерации, реальное время выполнения задач агентами было ускорено с помощью MTP всего на 20% из-за увеличенного потребления контекста. Пользователь использовал llama.cpp со специфичными GGUF-файлами от Unsloth и отметил аналогичный негативный опыт при тестировании Gemma 4.

media r/LocalLLaMA · 8 ч назад

Разработчик просит протестировать поддержку MTP для GLM-4.7-Flash через llama.cpp

Разработчик ищет помощь сообщества для тестирования поддержки многозадачного прогнозирования (MTP) модели GLM-4.7-Flash в рамках фреймворка llama.cpp. Автор признаёт, что предыдущие модели, такие как GLM Air и GLM Flash, устарели, но выражает личный интерес к включению MTP для них. Запрос ориентирован на пользователей, обладающих необходимым оборудованием для запуска GLM-4.7-Flash и техническими навыками компиляции llama.cpp из исходного кода. Участникам предлагается оценить функциональность предоставленной модели GGUF и сообщить о любых возникших проблемах. Кроме того, тестировщикам поручено измерить и поделиться показателями прироста скорости производительности, достигнутого благодаря внедрению MTP. Разработчик загрузил тестовую модель в репозиторий Hugging Face для немедленного доступа. Пользователям, нуждающимся в меньших вариантах квантования, предлагается связаться с автором напрямую для получения альтернативных версий.

media r/LocalLLaMA · 8 ч назад

Вопрос о том, почему стеки ROCm и Intel отстают от CUDA в зрелости программной экосистемы

Автор задаётся вопросом, почему программные экосистемы для AMD ROCm и Intel не смогли быстро развиться до уровня NVIDIA CUDA. Утверждается, что пока программное обеспечение конкурирующих вендоров не догонит CUDA, NVIDIA будет продолжать взимать огромную премию за свои удобные продукты. Автор идентифицирует себя как пользователь оборудования NVIDIA и Apple Silicon для разработки ИИ. Он выражает желание видеть более доступные цены на рынке. Аргумент предполагает, что снижение цен произойдёт только при наличии реальной конкуренции. Эта точка зрения подчеркивает текущее доминирование CUDA в ландшафте аппаратного обеспечения для ИИ.

media r/LocalLLaMA · 8 ч назад

Обсуждение в сообществе по запуску DeepSeek V4 Flash с выгрузкой MoE

Пользователь Reddit спросил о возможности запуска модели DeepSeek V4 Flash с использованием техник выгрузки Mixture of Experts. Автор поста отметил, что предыдущие попытки разместить нужную модель и её KV-кэш в VRAM требовали дополнительного запаса памяти в 5–10 ГБ. Он выделил несколько ресурсов сообщества, включая GGUF-версию модели, доступную на Hugging Face от команды huihui-ai. Кроме того, пользователь указал на форк репозитория antirez, который вводит тензорный параллелизм и улучшения для сокетов с целью повышения производительности. В обсуждении также упоминалась специфическая реализация Fringe, предназначенная для поддержки CUDA в DeepSeek V4 Flash. В результате пользователь решил скомпилировать модель и скачать почти 100 ГБ файлов, чтобы протестировать возможности выгрузки.

media r/LocalLLaMA · 8 ч назад

Anthropic обвиняет Alibaba в незаконной кампании по извлечению возможностей ИИ

Anthropic официально обвинила Alibaba в проведении кампании по откровенному и незаконному извлечению возможностей из своих моделей искусственного интеллекта. Компания утверждает, что эта деятельность включала несанкционированные методы доступа, предназначенные для обхода стандартных протоколов безопасности. Эти обвинения подчеркивают растущие опасения относительно защиты проприетарных технологий машинного обучения в конкурентной сфере ИИ. Сообщается, что предполагаемые усилия по извлечению носили систематический, а не случайный характер. Этот спор подчеркивает усиливающееся соперничество между крупными технологическими компаниями в области разработки передовых моделей. Конкретные технические детали методов извлечения остаются предметом расследования обеих сторон.

media r/LocalLLaMA · 8 ч назад

SupraWeather-Nano-Preview: небольшой FT-Transformer для классификации погоды

Компания SupraLabs выпустила модель SupraWeather-Nano, предварительную версию, предназначенную для классификации погодных явлений по сырым табличным метеорологическим данным. Архитектура использует выделенный Feature Tokenizer и Transformer Encoder, где каждому входному признаку присваивается свой обучаемый токен, который агрегируется токеном CLS перед обработкой через небольшой стек трансформеров. Такой подход устраняет необходимость в текстовых вводах или системных подсказках, позволяя пользователям напрямую вводить числовые значения для получения результата классификации. Модель принимает девять конкретных входных параметров: температуру, влажность, давление, тренд давления, скорость ветра, направление ветра, высоту, месяц и воздушную массу. Она обучена исключительно на синтетическом наборе данных, сгенерированном методами, основанными на правилах, содержащем 120 000 образцов. SupraLabs отмечает, что это эксперимент с архитектурой, а не инструмент для реального прогнозирования, при этом успешно пройдено пять из шести внутренних стресс-тестов.