Все статьи
media r/LocalLLaMA · 6 ч назад

Восстановленный док-станция MINISFORUM DEG1 Oculink для eGPU доступна за $59

Восстановленная версия док-станции MINISFORUM DEG1 Oculink для внешних видеокарт (eGPU) сейчас доступна по цене 59 долларов. В описании товара подчеркивается ее прочная конструкция: устройство обладает достаточной массой, чтобы надежно удерживать видеокарту. В отличие от некоторых более дешевых аналогов, данная док-станция оснащена редрайверами (redrivers) для обеспечения целостности сигнала. Пользователь, купивший такое устройство в прошлом году, отметил положительный опыт использования, связанный с его производительностью и стабильностью. Товар можно приобрести напрямую на странице восстановленных продуктов производителя.

media r/LocalLLaMA · 6 ч назад

Вопрос о кластеризации Nvidia DGX Spark и AMD Ryzen AI Max 395 для вывода с использованием единой памяти

Пользователь спросил о возможности кластеризации Nvidia DGX Spark и AMD Ryzen AI Max 395 для запуска одной большой языковой модели. Оба устройства имеют 128 ГБ единой памяти, что обеспечивает потенциальную суммарную ёмкость около 256 ГБ за вычетом накладных расходов операционной системы. DGX Spark оснащён сетевым интерфейсом со скоростью 200 Гбит/с, тогда как система AMD Strix в настоящее время имеет только Ethernet на 5 Гбит/с, но включает слот PCIe Gen 4x4. Пользователь отметил, что DeepSeek v4 Flash может разместиться на двух DGX Spark, и поинтересовался, может ли Strix служить альтернативным узлом. Для улучшения подключения он предложил добавить в систему AMD адаптер Mellanox ConnectX-6 QSFP+28 для достижения более высокой пропускной способности канала.

media r/LocalLLaMA · 7 ч назад

Colony: Образовательная симуляция механизмов внимания LLM с использованием аналогий на основе агентов

Colony — это образовательный ресурс, предназначенный для объяснения механизма внимания больших языковых моделей (LLM) посредством простых аналогий с участием агентов. Симуляция помещает этих агентов в среду-поле, вдохновлённую игрой «Жизнь» Конвея. Каждый агент в системе представляет определённую роль внутри механизма блока самовнимания LLM. Такой визуальный подход позволяет пользователям наблюдать за тем, как информация течёт и взаимодействует в процессе внимания. Проект доступен как инструмент с открытым исходным кодом для тех, кто заинтересован в изучении этих концепций без сложной математики. Он служит увлекательным и доступным способом понять внутреннее устройство трансформерных моделей.

media r/LocalLLaMA · 7 ч назад

Пользователь замечает, что облачные чат-боты кажутся менее интеллектуальными, чем локальные модели

Пользователь Reddit сообщает, что облачные чат-боты, такие как ChatGPT и Claude, часто кажутся менее способными, чем открытые модели, такие как Kimi или GLM, при обсуждении абстрактных концепций. Автор отмечает, что эти коммерческие модели часто делают поспешные выводы, упрощают идеи и полагаются на повторяющиеся языковые паттерны. Это воспринимаемое снижение интеллектуальности объясняется системными промптами, предназначенными для формирования определённого персонажа с целью повышения вовлечённости пользователей. Хотя такое поведение было особенно заметно в эпоху GPT-4o, по сообщениям, оно сохраняется и в текущих версиях. Пользователь задаётся вопросом, устраняет ли доступ к этим моделям через сырой API ограничивающие системные промпты или же они остаются встроенными. В посте запрашивается обратная связь от сообщества о том, работают ли облачные модели лучше без этих ограничений.

media r/LocalLLaMA · 7 ч назад

Gefen: готовая замена AdamW с заявленным снижением потребления памяти в 8 раз

Gefen позиционируется как готовая замена оптимизатора AdamW, предлагающая восьмикратное снижение использования памяти во время обучения. Проект включает репозиторий GitHub по адресу ndvbd/Gefen и соответствующую исследовательскую статью на arXiv под идентификатором 2606.13894. Эта публикация подчеркивает потенциал Gefen в оптимизации эффективности использования ресурсов для рабочих процессов машинного обучения. Предоставленные исходные материалы содержат прямые ссылки на техническую документацию и кодовую базу для дополнительной проверки. В доступном тексте не приводятся дополнительные метрики производительности или сравнительные бенчмарки.

media Hugging Face Forums · 7 ч назад

Пользователь сообщает о взимании платы за неиспользуемые вычисления L40S в Spaces на HuggingFace

Пользователь на форуме обсуждений Hugging Face сообщил о проблеме, при которой его Space завис на этапе запуска при использовании GPU L40S. Пользователь выразил недовольство тем, что с него взимается плата за вычислительные ресурсы, несмотря на то, что приложение не удалось запустить или оно не использовало никакой фактической вычислительной мощности. Этот инцидент подчеркивает опасения по поводу прозрачности биллинга и надежности инфраструктуры в среде Spaces платформы. Пост представляет собой жалобу на финансовые потери из-за технических сбоев, а не объявление о новой функции. В сокращенном исходном содержании не было приведено никаких дополнительных технических деталей или официальных ответов.

media Hugging Face Forums · 7 ч назад

Пользователи сообщают о сбое доступа к инструменту Flash модели Step 3.7 в HuggingChat

Пользователь на форуме обсуждений Hugging Face сообщил, что модель Step 3.7 Flash от StepFun AI потеряла возможность использовать инструменты, включая серверы MCP, начиная с утра момента публикации сообщения. Автор выразил обеспокоенность тем, является ли этот сбой временным или постоянным, отметив свою сильную предпочтительность к данной конкретной модели из-за её высокой производительности и низких затрат ресурсов по сравнению с конкурентами. Несмотря на высокую оценку качества и доступности модели, пользователь подчеркнул немедленные проблемы, вызванные невозможностью выполнения функций, основанных на использовании инструментов. Сообщение призывает сообщество поделиться опытом решения подобных проблем и предложить возможные пути устранения неполадки. Этот инцидент подчеркивает критическую зависимость пользователей от доступности инструментов при использовании данной конкретной конфигурации ИИ.

media Hugging Face Forums · 7 ч назад

Онтологическая инверсия: переключение эмоциональных концепций LLM с помощью отрицательного градиента

Автор представляет «онтологическую инверсию» — технику, предназначенную для расширения однонаправленной природы вывода больших языковых моделей. Этот метод позволяет моделям улавливать тонкие, многогранные концепции, такие как воспоминания, вызывающие одновременно печаль и радость. Подход был разработан путем применения коэффициента отрицательного градиента при проходах в архитектуре управления Niodoo. Он решает распространенное ограничение, при котором LLM переобучаются на единственные эмоциональные метки при запросе личных воспоминаний. Инвертируя концепции аналогично инволюции в физике, техника позволяет моделям менять эмоциональные состояния, например, превращать печальные воспоминания в радостные. Работа опубликована в репозитории GitHub под названием 'ontological-inversion' пользователем Ruffian-L.

media Hugging Face Forums · 7 ч назад

Пользователь спрашивает о процессе переименования организации на Hugging Face

Пользователь разместил сообщение на форуме обсуждений Hugging Face, ища помощь в переименовании своей организации. Автор указал, что 15 июня отправил электронное письмо на адрес website@huggingface.co с запросом на изменение названия с DZER-Studios на Vexion-LM. Несмотря на отправку первоначального запроса, пользователь сообщил об отсутствии ответа и отметил, что название организации осталось неизменным. В связи с этим автор вопроса спросил, поддерживает ли платформа процесс переименования организаций в настоящее время. Он также попросил указать альтернативные способы связи с командой Hugging Face для решения этого административного запроса.

media Hugging Face Forums · 7 ч назад

Вопрос сообщества о методах бенчмаркинга моделей

Пользователь форума обсуждений Hugging Face задал вопрос, ища совета по поводу того, как проводить бенчмаркинг моделей машинного обучения. Запрос был инициирован человеком, который новичок в области дообучения (fine-tuning) и хочет оценить свои модели после завершения работы. В посте явно спрашивается о устоявшихся методах или стратегиях, которые использует сообщество для этой цели. Это подчеркивает общую потребность среди практиков в понимании стандартных практик оценки при разработке моделей. В текущей ветке обсуждения содержится только один пост от одного участника. В видимом содержании источника не было предоставлено никаких конкретных бенчмарков, метрик или технических решений.

media Hugging Face Forums · 7 ч назад

Qwen3/Gemma3 пропускают маски внимания для батчей одинаковой длины в режиме CPU

Пользователь сообщил об ошибке в библиотеке text-embeddings-inference от Hugging Face, затрагивающей модели Qwen3 и Gemma3. Проблема возникает при выполнении инференса на процессорах с одновременными запросами, что приводит к значительному снижению точности. В частности, бэкенд Candle неправильно пропускает маски внимания для батчей, в которых все входные последовательности имеют одинаковую длину. Этот дефект ставит под угрозу надежность генерируемых эмбеддингов при таких условиях. Для решения проблемы автор подготовил pull request с исправлением, которое было тщательно протестировано на его локальных машинах. Ошибка подчеркивает потенциальные риски стабильности сервисов встраивания на основе CPU, обрабатывающих батчированные входные данные.

github LlamaIndex · 7 ч назад

Примечания к выпуску Llama Index v0.14.23

Llama Index выпустила версию 0.14.23 24 июня 2026 года, добавив значительные мультимодальные возможности и различные исправления ошибок. Основное обновление включает функции мультимодального синтеза и внедрение мультимодальных механизмов запросов для поддержки разнообразных типов данных. Ключевые исправления касаются обработки блоков документов и видео в выводах FunctionTool, а также обеспечения корректного сохранения блоков памяти, основанных на URL. Улучшения производительности были реализованы за счет использования множеств для дедупликации внутри пакетов в конвейере загрузки и оптимизации логики разделения текста на токены. Выпуск также устраняет ZeroDivisionError при пустых входных последовательностях и исправляет ошибки рекурсии в сплиттерах, когда единицы превышают размеры чанков. Кроме того, в операции ввода-вывода файлов добавлено явное кодирование UTF-8, а глубокое копирование начальных состояний предотвращает утечку мутаций между запусками рабочих процессов.

lab Claude Code Releases · 7 ч назад

Примечания к выпуску Claude Code v2.1.191

Версия Claude Code 2.1.191 добавляет поддержку команды /rewind, позволяя пользователям возобновлять разговоры с момента до выполнения команды /clear. Обновление устраняет несколько критических проблем, включая повторное появление фоновых агентов после их остановки и скачки позиции прокрутки во время потоковой передачи ответов. Также исправлено поведение, при котором команда /voice отображала общие сообщения об ошибках, а URL-адреса для /login усечались в Windows Terminal. Значительные улучшения повышают надёжность работы с MCP-серверами за счёт добавления логики повторных попыток при временных сетевых ошибках во время обнаружения возможностей и потоков OAuth. В безголовых средах теперь пропускаются всплывающие окна браузера для OAuth, а разрешения сети для песочницы запоминаются на протяжении всей сессии. Оптимизации производительности снижают использование процессора во время потоковой передачи примерно на 37% за счёт объединения обновлений текста и предотвращают рост потребления памяти при длительных сессиях из-за кэша вывода терминала.

github CrewAI · 9 ч назад

Примечания по выпуску v1.14.8a4

v1.14.8a4 добавляет поддержку диалогового потока в CLI TUI. В нём включены исправления для прокрутки по ссылкам при извлечении и проверке архивов навыков и проверки путей определения декларативного потока. Документация по v1.14.8a3 обновлена.

github llama.cpp · 9 ч назад

Релиз LLaMA.cpp b9784: оптимизации для операций MM на основе Hexagon и бинарники для разных платформ

LLaMA.cpp выпускает версию b9784 с существенными оптимизациями для операций MM на основе Hexagon, включая тайлинг весов 32x32, улучшенную обработку dyn.quant и единое управление параметрами ядра. В релизе представлены новые бинарники для macOS (arm64 и x64), iOS и нескольких архитектур Linux с поддержкой Vulkan, ROCm и OpenVINO.

arxiv arXiv cs.LG · 10 ч назад

Дифференцируемая атари ВЦС для объяснимой ИИ

Представлена полностью дифференцируемая эмуляция атари 2600 ВЦС, воспроизводящая все 64 игры ALE с точностью до бита в памяти и выводе экрана. Система обеспечивает объяснимую ИИ на основе градиентов, предоставляя сложную, полностью известную истину, с реализацией на Julia и JAX, проверенной в отношении отсылки эмулятора и поддерживающей высокую производительность обучения на GPU.

arxiv arXiv cs.LG · 10 ч назад

AdaR: адаптивный рекуррентный передача сообщений для графовых вычислений на этапе тестирования

AdaR обеспечивает гибкие вычисления на этапе тестирования для графов без изменения параметров, используя адаптивную рекурсию. Оно выявляет зависимость шага как необходимое и достаточное условие сходимости и включает нормализованные данные шага и отношения к целевым представлениям в рекуррентные обновления, направляя их по сигналам надзора на основе градиентов. Эмпирические результаты показывают, что AdaR превосходит сильные базовые модели как в индуктивных, так и в трансдуктивных настройках обучения графов.

arxiv arXiv cs.LG · 10 ч назад

Модели речи-текста латентно транскрибируют речь в промежуточных слоях

Модели речи-текста, встроенные друг в друга, проходят фазу неявной транскрипции, при которой речевые слова превращаются в декодируемые текстовые токены в промежуточных слоях, несмотря на отсутствие обучения по распознаванию речи. До 77% данных показывают, что речевое слово появляется как наиболее вероятный текстовый предсказываемый токен, после чего происходит переход к текстовому предсказанию следующего слова, прежде чем возвращение к речи. Это поведение влияется встроенными процессами обучения и инициализацией текстовых моделей, и коррелирует с производительностью по знанию речи.

arxiv arXiv cs.LG · 10 ч назад

Недостатки приложения с интеграцией LLM показывают пробелы в тестировании

Помощник по поиску аренды с функциями LLM и поддержкой нескольких рынков сталкивался с постоянными дефектами пользователей, несмотря на 1553 прошедших автоматизированных тестов. Анализ 252 коммитов по устранению багов показал, что 44% исправлений происходили в четырех незамеченных местах: в среде браузера, в неподходящих рынках, в цепочках конечных процессов и на уровне всей системы. Исправление без защиты на месте привело к тому, что дефект был выпущен дважды, что подчеркивает необходимость целенаправленного тестирования на этих границах.

arxiv arXiv cs.LG · 10 ч назад

Fed-CausalDiff: Разделенная синхронизация для распределенной симуляции действий

Fed-CausalDiff представляет федеративную систему каскадного диффузии, которая позволяет проводить симуляцию действий и оценку политик в распределенных средах. Она разделяет эволюцию скрытого состояния на глобальные и локальные компоненты, что позволяет достигать разделенной синхронизации, снижая стоимость передачи данных, при этом сохраняя точность каскадного вывода.