Все статьи
arxiv arXiv cs.LG · 8 ч назад

Выход из ловушки дисперсии: Якоби-свободная динамика для двуровневой оптимизации поиска корней

Авторы выявляют критический недостаток, называемый "ловушкой дисперсии" (Variance Trap), который возникает при попытке свести стохастические задачи поиска корней к задачам минимизации с помощью квадратов невязок. Стандартные алгоритмы двуровневой минимизации требуют оценки гиперградиентов, включающих неявные якобианы, которые действуют как усилители шума в стохастических условиях. Чтобы решить эту проблему, статья формализует класс задач "Двуровневая оптимизация поиска корней" (Root-Finding Bilevel Optimization, RF-BO) как отдельный класс задач, позволяющий обойти эту патологическую ситуацию. Предложено решение без вычисления якобиана на основе стохастического приближения с двумя временными масштабами (Two-Time-Scale Stochastic Approximation, TTSA), которое обновляет параметры непосредственно вдоль ошибки поиска корня. Исследование предоставляет первые неасимптотические гарантии сходимости для TTSA в данной постановке при марковском шуме. Эксперименты показывают увеличение точности top-1 на 2,6% в SimCLR и ускорение сходимости в 17 раз в задаче управления нелинейными ОДУ по сравнению с базовыми методами. Кроме того, предложенная рамка обеспечивает значительно улучшенную стабильность энтропии в обучении с подкреплением и повышение качества на 11,1% в генеративном моделировании.

arxiv arXiv cs.LG · 8 ч назад

RQ-TTSA: Распределенно-осозданная устойчивая биуровневая оптимизация с квантильно-управляемыми обновлениями Хубера

Авторы предлагают RQ-TTSA — фреймворк, учитывающий распределение, предназначенный для устранения нестабильности в биуровневой оптимизации, вызванной стохастическим шумом с тяжелыми хвостами. В отличие от существующих методов снижения дисперсии, опирающихся на краткосрочные проверки величины, этот метод использует буферы исторических градиентов для оценки скользящих квантилей и адаптивного обрезания в стиле Хубера. Такой подход сохраняет локальную геометрию оптимизации и строго ограничивает эффективную дисперсию при допущениях о невыпуклой сильно выпуклой функции и шуме с бесконечной дисперсией. Теоретический анализ выводит скорость сходимости O(T^(-(p-1)/(3p-2))), которая восстанавливает оптимальную зависимость от параметра тяжелых хвостов p. Эмпирические оценки на шести разнообразных задачах, включая бенчмарки компьютерного зрения и офлайн-обучение с подкреплением, демонстрируют стабильное превосходство над современными базовыми методами. RQ-TTSA устраняет всплески расхождения и обеспечивает устойчивую сходимость при пренебрежимо малых вычислительных накладных расходах примерно в 2,7 процента.

arxiv arXiv cs.LG · 8 ч назад

Deezer внедряет систему генерации описаний плейлистов на основе больших языковых моделей

Deezer внедрил автоматизированную систему генерации описаний плейлистов, работающую на базе больших языковых моделей (LLM), для улучшения функции Daily Mix. Эта технология создает текстовые описания на естественном языке для персонализированных плейлистов, помогая пользователям понять содержание каждой рекомендации. Система использует последние достижения в области LLM для обработки разнообразных источников данных при строгом контроле качества выходных данных. Она уже активна для миллионов пользователей, значительно улучшив показатели вовлеченности. Внедрение демонстрирует, как семантическое оформление влияет на восприятие пользователями в онлайн-персонализированных средах. Эта инициатива решает задачу эффективного масштабирования генерации описаний плейлистов.

arxiv arXiv cs.LG · 8 ч назад

VRA-FedSGD: Снижение дисперсии в федеративном обучении для тяжёлых хвостов шума

Авторы предлагают VRA-FedSGD — алгоритм на основе снижения дисперсии, разработанный для федеративного обучения в средах с градиентным и коммуникационным шумом с тяжёлыми хвостами. Этот подход решает проблемы, характерные для крупномасштабного машинного обучения в беспроводных сетях и развертываниях Интернета вещей (IoT). Метод использует снижение дисперсии на основе импульса в сочетании с нелинейным отображением для смягчения градиентного шума с тяжёлыми хвостами. Он также применяет механизм агрегации со сниженной дисперсией для подавления коммуникационного шума с тяжёлыми хвостами. Для невыпуклых целевых функций VRA-FedSGD достигает скорости сходимости по среднему значению O(K^(-(p-1)/(2p-1))), где p — индекс хвоста. В смысле почти наверное достигается скорость Õ(K^(-(1-1/(p-ε))) для сильно выпуклых целевых функций, где ε — произвольно малая константа. Симуляционные эксперименты на логистической регрессии с реальными данными подтверждают эффективность алгоритма.

media r/LocalLLaMA · 9 ч назад

GLM-5.2 на 4x DGX Spark: Восстановление недостающих шагов сборки для MTP спекулятивного декодирования

Автор успешно развернул GLM-5.2 со спекулятивным декодированием MTP на кластере из четырех узлов NVIDIA GB10 (DGX Spark), достигнув скорости около 9,4 токенов в секунду. Эта конфигурация использует vLLM с тензорным параллелизмом, портированные ядра Triton для разреженного MLA и детерминированное отсечение 15% экспертов для размещения весов AWQ-INT4. Ключевым выводом стало то, что исходные инструкции по сборке Docker-образа неполны, что требует восстановления недостающих патчей для файлов deep_gemm.py и sparse_attn_indexer.py. Автор также выявил, что использование любой версии vLLM, отличной от конкретного зафиксированного коммита, приводит к падению загрузки реальных весов AWQ из-за ошибок CUDA. Для воспроизведения среды пользователям необходимо применить пользовательский скрипт, который внедряет ядра и маршрутизирует функции в fallback-решения для sm12x. Преимущества производительности включают примерно двукратное увеличение скорости по сравнению с предыдущими реализациями llama.cpp, хотя пропускная способность между узлами остается узким местом для масштабирования с использованием двойных шин (dual-rail).

media r/LocalLLaMA · 9 ч назад

Восстановленный док-станция MINISFORUM DEG1 Oculink для eGPU доступна за $59

Восстановленная версия док-станции MINISFORUM DEG1 Oculink для внешних видеокарт (eGPU) сейчас доступна по цене 59 долларов. В описании товара подчеркивается ее прочная конструкция: устройство обладает достаточной массой, чтобы надежно удерживать видеокарту. В отличие от некоторых более дешевых аналогов, данная док-станция оснащена редрайверами (redrivers) для обеспечения целостности сигнала. Пользователь, купивший такое устройство в прошлом году, отметил положительный опыт использования, связанный с его производительностью и стабильностью. Товар можно приобрести напрямую на странице восстановленных продуктов производителя.

media r/LocalLLaMA · 9 ч назад

Вопрос о кластеризации Nvidia DGX Spark и AMD Ryzen AI Max 395 для вывода с использованием единой памяти

Пользователь спросил о возможности кластеризации Nvidia DGX Spark и AMD Ryzen AI Max 395 для запуска одной большой языковой модели. Оба устройства имеют 128 ГБ единой памяти, что обеспечивает потенциальную суммарную ёмкость около 256 ГБ за вычетом накладных расходов операционной системы. DGX Spark оснащён сетевым интерфейсом со скоростью 200 Гбит/с, тогда как система AMD Strix в настоящее время имеет только Ethernet на 5 Гбит/с, но включает слот PCIe Gen 4x4. Пользователь отметил, что DeepSeek v4 Flash может разместиться на двух DGX Spark, и поинтересовался, может ли Strix служить альтернативным узлом. Для улучшения подключения он предложил добавить в систему AMD адаптер Mellanox ConnectX-6 QSFP+28 для достижения более высокой пропускной способности канала.

media r/LocalLLaMA · 9 ч назад

Colony: Образовательная симуляция механизмов внимания LLM с использованием аналогий на основе агентов

Colony — это образовательный ресурс, предназначенный для объяснения механизма внимания больших языковых моделей (LLM) посредством простых аналогий с участием агентов. Симуляция помещает этих агентов в среду-поле, вдохновлённую игрой «Жизнь» Конвея. Каждый агент в системе представляет определённую роль внутри механизма блока самовнимания LLM. Такой визуальный подход позволяет пользователям наблюдать за тем, как информация течёт и взаимодействует в процессе внимания. Проект доступен как инструмент с открытым исходным кодом для тех, кто заинтересован в изучении этих концепций без сложной математики. Он служит увлекательным и доступным способом понять внутреннее устройство трансформерных моделей.

media r/LocalLLaMA · 9 ч назад

Пользователь замечает, что облачные чат-боты кажутся менее интеллектуальными, чем локальные модели

Пользователь Reddit сообщает, что облачные чат-боты, такие как ChatGPT и Claude, часто кажутся менее способными, чем открытые модели, такие как Kimi или GLM, при обсуждении абстрактных концепций. Автор отмечает, что эти коммерческие модели часто делают поспешные выводы, упрощают идеи и полагаются на повторяющиеся языковые паттерны. Это воспринимаемое снижение интеллектуальности объясняется системными промптами, предназначенными для формирования определённого персонажа с целью повышения вовлечённости пользователей. Хотя такое поведение было особенно заметно в эпоху GPT-4o, по сообщениям, оно сохраняется и в текущих версиях. Пользователь задаётся вопросом, устраняет ли доступ к этим моделям через сырой API ограничивающие системные промпты или же они остаются встроенными. В посте запрашивается обратная связь от сообщества о том, работают ли облачные модели лучше без этих ограничений.

media r/LocalLLaMA · 9 ч назад

Gefen: готовая замена AdamW с заявленным снижением потребления памяти в 8 раз

Gefen позиционируется как готовая замена оптимизатора AdamW, предлагающая восьмикратное снижение использования памяти во время обучения. Проект включает репозиторий GitHub по адресу ndvbd/Gefen и соответствующую исследовательскую статью на arXiv под идентификатором 2606.13894. Эта публикация подчеркивает потенциал Gefen в оптимизации эффективности использования ресурсов для рабочих процессов машинного обучения. Предоставленные исходные материалы содержат прямые ссылки на техническую документацию и кодовую базу для дополнительной проверки. В доступном тексте не приводятся дополнительные метрики производительности или сравнительные бенчмарки.

media Hugging Face Forums · 9 ч назад

Пользователь сообщает о взимании платы за неиспользуемые вычисления L40S в Spaces на HuggingFace

Пользователь на форуме обсуждений Hugging Face сообщил о проблеме, при которой его Space завис на этапе запуска при использовании GPU L40S. Пользователь выразил недовольство тем, что с него взимается плата за вычислительные ресурсы, несмотря на то, что приложение не удалось запустить или оно не использовало никакой фактической вычислительной мощности. Этот инцидент подчеркивает опасения по поводу прозрачности биллинга и надежности инфраструктуры в среде Spaces платформы. Пост представляет собой жалобу на финансовые потери из-за технических сбоев, а не объявление о новой функции. В сокращенном исходном содержании не было приведено никаких дополнительных технических деталей или официальных ответов.

media Hugging Face Forums · 9 ч назад

Пользователи сообщают о сбое доступа к инструменту Flash модели Step 3.7 в HuggingChat

Пользователь на форуме обсуждений Hugging Face сообщил, что модель Step 3.7 Flash от StepFun AI потеряла возможность использовать инструменты, включая серверы MCP, начиная с утра момента публикации сообщения. Автор выразил обеспокоенность тем, является ли этот сбой временным или постоянным, отметив свою сильную предпочтительность к данной конкретной модели из-за её высокой производительности и низких затрат ресурсов по сравнению с конкурентами. Несмотря на высокую оценку качества и доступности модели, пользователь подчеркнул немедленные проблемы, вызванные невозможностью выполнения функций, основанных на использовании инструментов. Сообщение призывает сообщество поделиться опытом решения подобных проблем и предложить возможные пути устранения неполадки. Этот инцидент подчеркивает критическую зависимость пользователей от доступности инструментов при использовании данной конкретной конфигурации ИИ.

media Hugging Face Forums · 10 ч назад

Онтологическая инверсия: переключение эмоциональных концепций LLM с помощью отрицательного градиента

Автор представляет «онтологическую инверсию» — технику, предназначенную для расширения однонаправленной природы вывода больших языковых моделей. Этот метод позволяет моделям улавливать тонкие, многогранные концепции, такие как воспоминания, вызывающие одновременно печаль и радость. Подход был разработан путем применения коэффициента отрицательного градиента при проходах в архитектуре управления Niodoo. Он решает распространенное ограничение, при котором LLM переобучаются на единственные эмоциональные метки при запросе личных воспоминаний. Инвертируя концепции аналогично инволюции в физике, техника позволяет моделям менять эмоциональные состояния, например, превращать печальные воспоминания в радостные. Работа опубликована в репозитории GitHub под названием 'ontological-inversion' пользователем Ruffian-L.

media Hugging Face Forums · 10 ч назад

Пользователь спрашивает о процессе переименования организации на Hugging Face

Пользователь разместил сообщение на форуме обсуждений Hugging Face, ища помощь в переименовании своей организации. Автор указал, что 15 июня отправил электронное письмо на адрес website@huggingface.co с запросом на изменение названия с DZER-Studios на Vexion-LM. Несмотря на отправку первоначального запроса, пользователь сообщил об отсутствии ответа и отметил, что название организации осталось неизменным. В связи с этим автор вопроса спросил, поддерживает ли платформа процесс переименования организаций в настоящее время. Он также попросил указать альтернативные способы связи с командой Hugging Face для решения этого административного запроса.

media Hugging Face Forums · 10 ч назад

Вопрос сообщества о методах бенчмаркинга моделей

Пользователь форума обсуждений Hugging Face задал вопрос, ища совета по поводу того, как проводить бенчмаркинг моделей машинного обучения. Запрос был инициирован человеком, который новичок в области дообучения (fine-tuning) и хочет оценить свои модели после завершения работы. В посте явно спрашивается о устоявшихся методах или стратегиях, которые использует сообщество для этой цели. Это подчеркивает общую потребность среди практиков в понимании стандартных практик оценки при разработке моделей. В текущей ветке обсуждения содержится только один пост от одного участника. В видимом содержании источника не было предоставлено никаких конкретных бенчмарков, метрик или технических решений.

media Hugging Face Forums · 10 ч назад

Qwen3/Gemma3 пропускают маски внимания для батчей одинаковой длины в режиме CPU

Пользователь сообщил об ошибке в библиотеке text-embeddings-inference от Hugging Face, затрагивающей модели Qwen3 и Gemma3. Проблема возникает при выполнении инференса на процессорах с одновременными запросами, что приводит к значительному снижению точности. В частности, бэкенд Candle неправильно пропускает маски внимания для батчей, в которых все входные последовательности имеют одинаковую длину. Этот дефект ставит под угрозу надежность генерируемых эмбеддингов при таких условиях. Для решения проблемы автор подготовил pull request с исправлением, которое было тщательно протестировано на его локальных машинах. Ошибка подчеркивает потенциальные риски стабильности сервисов встраивания на основе CPU, обрабатывающих батчированные входные данные.

github LlamaIndex · 10 ч назад

Примечания к выпуску Llama Index v0.14.23

Llama Index выпустила версию 0.14.23 24 июня 2026 года, добавив значительные мультимодальные возможности и различные исправления ошибок. Основное обновление включает функции мультимодального синтеза и внедрение мультимодальных механизмов запросов для поддержки разнообразных типов данных. Ключевые исправления касаются обработки блоков документов и видео в выводах FunctionTool, а также обеспечения корректного сохранения блоков памяти, основанных на URL. Улучшения производительности были реализованы за счет использования множеств для дедупликации внутри пакетов в конвейере загрузки и оптимизации логики разделения текста на токены. Выпуск также устраняет ZeroDivisionError при пустых входных последовательностях и исправляет ошибки рекурсии в сплиттерах, когда единицы превышают размеры чанков. Кроме того, в операции ввода-вывода файлов добавлено явное кодирование UTF-8, а глубокое копирование начальных состояний предотвращает утечку мутаций между запусками рабочих процессов.

lab Claude Code Releases · 10 ч назад

Примечания к выпуску Claude Code v2.1.191

Версия Claude Code 2.1.191 добавляет поддержку команды /rewind, позволяя пользователям возобновлять разговоры с момента до выполнения команды /clear. Обновление устраняет несколько критических проблем, включая повторное появление фоновых агентов после их остановки и скачки позиции прокрутки во время потоковой передачи ответов. Также исправлено поведение, при котором команда /voice отображала общие сообщения об ошибках, а URL-адреса для /login усечались в Windows Terminal. Значительные улучшения повышают надёжность работы с MCP-серверами за счёт добавления логики повторных попыток при временных сетевых ошибках во время обнаружения возможностей и потоков OAuth. В безголовых средах теперь пропускаются всплывающие окна браузера для OAuth, а разрешения сети для песочницы запоминаются на протяжении всей сессии. Оптимизации производительности снижают использование процессора во время потоковой передачи примерно на 37% за счёт объединения обновлений текста и предотвращают рост потребления памяти при длительных сессиях из-за кэша вывода терминала.

github CrewAI · 12 ч назад

Примечания по выпуску v1.14.8a4

v1.14.8a4 добавляет поддержку диалогового потока в CLI TUI. В нём включены исправления для прокрутки по ссылкам при извлечении и проверке архивов навыков и проверки путей определения декларативного потока. Документация по v1.14.8a3 обновлена.

github llama.cpp · 12 ч назад

Релиз LLaMA.cpp b9784: оптимизации для операций MM на основе Hexagon и бинарники для разных платформ

LLaMA.cpp выпускает версию b9784 с существенными оптимизациями для операций MM на основе Hexagon, включая тайлинг весов 32x32, улучшенную обработку dyn.quant и единое управление параметрами ядра. В релизе представлены новые бинарники для macOS (arm64 и x64), iOS и нескольких архитектур Linux с поддержкой Vulkan, ROCm и OpenVINO.