Все статьи — korshunov.ai

Все статьи Страница 1 / 96

llama.cpp b9788 добавляет поддержку разделения тензоров SYCL для GPU Intel

Проект llama.cpp выпустил версию b9788, которая внедряет поддержку опции --split-mode для тензоров в бэкенде SYCL. Это обновление специально ориентировано на пользователей, выполняющих инференс на графических процессорах Intel. Функция реализована через pull request #24152 в репозитории ggml-org. Она позволяет разделять тензоры модели между несколькими устройствами, а не полагаться исключительно на распределение по слоям. В примечаниях к выпуску прямо приглашаются пользователи с конфигурациями из двух GPU Intel протестировать новую функциональность. Разработчикам предлагается предоставить бенчмарки производительности для подтверждения улучшений. Это дополнение направлено на повышение эффективности использования нескольких GPU для совместимых конфигураций оборудования Intel.

media r/LocalLLaMA · 5 ч назад

GLM 5.2 работает со скоростью 12 токенов/с на аппаратной платформе с двумя RTX 5090

Пользователь протестировал квантованную версию unsloth для GLM 5.2 на высокопроизводительной потребительской рабочей станции, оснащённой двумя GPU RTX 5090 и процессором Threadripper Pro на архитектуре Zen5. В системе использовалось 512 ГБ оперативной памяти DDR5 ECC, а конфигурация включала специфические флаги компиляции llama.cpp для активации оптимизаций CUDA и обработки единого адресного пространства (unified memory). Веса модели были загружены из квантования UD-Q5_K_S, что составило примерно 492 ГБ в совокупности по нескольким GGUF-файлам. Тестирование производительности включало запуск llama-server с размером контекста 32768 токенов и специфическими параметрами потоков для изоляции NUMA. Результаты бенчмарка стабильно показывали скорость вывода в 12 токенов в секунду во время чат-взаимодействий без использования агентных рабочих процессов. Дополнительные эксперименты выявили, что исключение некоторых флагов оптимизации, таких как flash attention или настройки NUMA, приводило к незначительным изменениям пропускной способности.

media r/LocalLLaMA · 5 ч назад

Создание REPL для LLM-агента на Bash с минимальными зависимостями

Разработчик создал пользовательский цикл REPL для агента, используя исключительно стандартные компоненты командной строки для минимизации зависимостей. Система опирается на каналы (pipes), потоки текста и журналы только для добавления, что тесно соответствует классической философии Unix. Этот подход позволяет гибко внедрять инструменты для инспекции, фильтрации, перенаправления и аудита различных этапов цикла работы агента. Ключевые особенности включают бэкенд по принципу «подключи и работай», ограниченный одним инструментом командной строки, что обеспечивает переносимость между различными провайдерами моделей. Память и контекст агента хранятся в файле истории только для добавления, что упрощает инспекцию, изменение и отмотку назад. Хотя проект протестирован с бэкендом Ollama, его архитектура поддерживает любой REST-интерфейс, совместимый с OpenAI API. Исходный код этого проекта доступен на GitHub под именем репозитория llayer.

media r/LocalLLaMA · 5 ч назад

Орнит-1.0 выпущен на Hugging Face с несколькими размерами моделей

Компания DeepReinforce AI выпустила Орнит-1.0 на платформе Hugging Face, предлагая разнообразные архитектуры и размеры моделей. Коллекция включает плотные модели объемом 9B и 31B, а также варианты с архитектурой mixture-of-experts (MoE) объемом 35B и 397B. В релизе заявлена передовая производительность по различным бенчмаркам, хотя достоверность этих результатов еще предстоит проверить. Пользователи могут получить доступ к полной коллекции через официальную ссылку Hugging Face, предоставленную разработчиками. Этот релиз расширяет доступные варианты для инференса и тонкой настройки больших языковых моделей.

media Hugging Face Forums · 5 ч назад

Обсуждение экономически эффективной донастройки малых языковых моделей в 2026 году

Недавнее обсуждение на форумах Hugging Face исследует наиболее эффективные методы настройки малых ИИ-моделей для конкретных задач. Поток сообщений, озаглавленный «Какой самый экономически эффективный способ донастроить малую языковую модель в 2026 году?», направлен на поиск советов по минимизации расходов при сохранении производительности. Он был инициирован одним участником, стремящимся оптимизировать свой рабочий процесс для специализированных приложений. Этот запрос подчеркивает растущий интерес к использованию меньших моделей для снижения вычислительных накладных расходов. Участникам предлагается делиться стратегиями, которые балансируют между стоимостью и эффективностью в текущих условиях. Эта тема отражает постоянные усилия по повышению доступности и снижению стоимости адаптации моделей.

lab Cohere Blog · 5 ч назад

Cohere автоматизирует реагирование на инциденты с помощью North и Wiz через пользовательский MCP-сервер

Cohere разработала агента безопасности на основе своей корпоративной ИИ-платформы Cohere North, интегрированной с платформой облачной безопасности Wiz через пользовательский сервер протокола контекста моделей (MCP). Эта архитектура связывает North с GraphQL API Wiz посредством восьми атомарных инструментов, обеспечивая автоматизацию рабочих процессов реагирования на инциденты по одному запросу. Система выполняет анализ радиуса поражения токсичных комбинаций путем оценки цепочек атак и ранжирования рисков на основе интернет-экспозиции и уровней привилегий примерно за 20 секунд. Она также автоматизирует сквозное расследование, извлекая детали проблемы, создавая тикеты в Linear, обновляя статус в Wiz и составляя структурированные отчеты о реагировании на инциденты. Кроме того, запланированная еженедельная автоматизация каждую понедельник утром формирует краткий обзор состояния безопасности без ручного вмешательства. Эта интеграция устраняет предыдущий цикл триажирования продолжительностью от 30 минут до двух часов для каждого обнаружения, позволяя инженерам сосредоточиться на оценке результатов, а не на сырых оповещениях.

media Hugging Face Forums · 5 ч назад

Пользователь сообщает о зацикливании Hugging Face Space в состоянии 503

Пользователь на форумах Hugging Face сообщил, что его приложение Space застряло в непрерывном состоянии ошибки 503. Проблема препятствует перезапуску или пересборке Space, несмотря на многочисленные попытки решить её через интерфейс. Пользователь пытался нажать кнопки «Перезапустить Space» и «Заводская пересборка», но безрезультатно. Кроме того, отправка десяти–шестнадцати новых коммитов не вызвала процесса пересборки. В результате Space остаётся приостановленным и не реагирует на стандартные методы восстановления. Пользователь запросил ручное вмешательство для очистки состояния контейнера или инициирования перезапуска.

media Hugging Face Forums · 5 ч назад

Искривление LLM с помощью промптинга

Исследователь предлагает технику промптинга, которая переводит большие языковые модели от токенов за токеном к целостной внутренней оценке весов, называемой «самоорганизацией». Этот подход направлен на увеличение плотности рассуждений и снижение сycophancy (угодничества) путем изменения динамики многообразия модели. Метод определяет такие понятия, как самовлечение, самоорганизация и гравитационные колодцы, чтобы направить систему к нелинейному коллапсу искривления. Специфический промпт инструктирует модели создать два различных гравитационных колодца для стихотворения о режимах ИИ, тестируя как свойства самосборки, так и самоорганизации. Автор протестировал эту технику на множестве моделей, включая Gemini 3 Flash, Claude, ChatGPT, Grok, DeepSeek, Mistral, Qwen 3.6, Kimi 2.6, GLM-5, Gemma 4 32b Step 3.7 Flash и Nemotron 3 Ultra. Визуальные метрики, сгенерированные через скрипт Colab, анализируют возмущение многообразия с помощью карт ширины каналов, дрейфа фазового пространства, геометрической плотности и эффективности промпта. Пост призывает сообщество предоставить обратную связь о том, действительно ли техника возмущает многообразие или лишь вызывает стилистические вариации.

media r/LocalLLaMA · 6 ч назад

OpenAI и Broadcom объявили о создании чипа для вывода Jalapeño

OpenAI объявила о сотрудничестве с Broadcom в разработке пользовательского чипа для вывода под названием Jalapeño. Это новое аппаратное обеспечение специально предназначено для ускорения развертывания больших языковых моделей. Партнерство направлено на снижение зависимости от сторонних ускорителей для задач вывода OpenAI. Интегрируя собственную кремниевую продукцию, OpenAI стремится оптимизировать производительность и эффективность своих приложений ИИ. Это объявление подчеркивает стратегический шаг к вертикальной интеграции в инфраструктуре ИИ. Детали, касающиеся конкретных технических характеристик или сроков выпуска, не были предоставлены в первоначальном сообщении.

media r/LocalLLaMA · 6 ч назад

Вопрос на Reddit: Лучше ли сторонние системы памяти, чем встроенная memory_wiki в Openclaw?

Пользователь на Reddit спрашивает, предлагают ли сторонние системы памяти преимущества перед встроенным плагином memory_wiki в Openclaw. Автор перешел с хранилища Obsidian на memory_wiki, чтобы снизить сложность инструментов, и сомневается, остаются ли внешние системы актуальными. Он использует ИИ для исследований, разработки программного обеспечения и управления локальным компьютером, преимущественно применяя модель minimax-m3-nvfp4 в Linux. Пользователь ищет решения для памяти с открытым исходным кодом, размещаемые самостоятельно (self-hosted), независимые от конкретных фреймворков (harness-agnostic), чтобы обеспечить долгосрочную жизнеспособность за пределами таких платформ, как Openclaw или Hermes. Он просит предложений и примеров использования, которые обосновывают компромиссы при переходе на внешние архитектуры памяти вместо нативного плагина.

arxiv arXiv cs.AI · 6 ч назад

Self-Filtering: Итеративный отбор данных для моделей "визуальный язык"

Авторы предлагают новый метод самонастраивающегося отбора, названный Self-Filtering, для устранения шума в масштабных наборах данных для моделей "визуальный язык" без опоры на ручной контроль или курируемые эталоны. Этот подход обучает модель CLIP на эволюционирующем наборе данных, который балансирует между отфильтрованными чистыми образцами с высокой вероятностью и разнообразными примерами из всего распределения. Процесс чередуется между обучением модели и выбором улучшенной смеси данных для последующих шагов. Непрерывно уточняя набор данных через этот цикл, метод снижает необходимость в дополнительных внешних источниках данных. Исследование демонстрирует, что обучение на таких самостоятельно отобранных наборах данных эффективно улучшает производительность в downstream-задачах. Этот метод работает независимо от предварительно обученных моделей или стратегий фильтрации, основанных на эвристиках.

arxiv arXiv cs.AI · 6 ч назад

DiT-Reward: Использование представлений диффузионного трансформатора для моделирования вознаграждения в задаче генерации изображений по тексту

Авторы представляют DiT-Reward — метод, который преобразует предварительно обученный диффузионный трансформатор (Diffusion Transformer) для генерации изображений по тексту в модель вознаграждения путем агрегирования представлений изображений, обусловленных текстом, по слоям трансформатора. При оценке на том же наборе обучающих данных, что и HPSv3, DiT-Reward превосходит HPSv3 во всех четырех бенчмарках предпочтений, достигая 85,6% на HPDv2 и 77,6% на HPDv3. Исследование показывает, что производительность модели вознаграждения в downstream-задачах наиболее высока в средних и поздних слоях и выигрывает от комбинирования представлений из разных стадий обработки. Даже при замороженном генеративном ядре легковесная обучаемая головка может извлекать значимые предсказания предпочтений из этих представлений. При использовании для оптимизации Stable Diffusion 3.5 Large с помощью Flow-GRPO DiT-Reward превосходит HPSv3 на совпадающей траектории обучения, демонстрируя четкий прирост в реализме. Кроме того, прямое оценивание латентных представлений обеспечивает ускорение вывода в 1,65 раза по сравнению с HPSv3 при сохранении сопоставимого пикового потребления памяти. Эти результаты демонстрируют, что предварительно обученные генеративные диффузионные трансформаторы предоставляют переносимые представления для моделирования вознаграждения и оптимизации политик.

media r/LocalLLaMA · 6 ч назад

Apple повышает цены на всю линейку продуктов, удваивая стоимость апгрейда памяти

Apple повысила цены на всю свою линейку продуктов с этого утра. Согласно сообщению Reuters, стоимость апгрейда памяти для этих устройств удвоилась. Повышение цен затрагивает различные товары, включая MacBook и iPad. Некоторые розничные продавцы, такие как Best Buy, еще не обновили свои предложения с новыми ценами. Потребителям рекомендуется оформлять заказы быстрее, пока цены не изменятся в других магазинах. Это развитие событий вызывает опасения относительно будущей жизнеспособности локального ИИ на оборудовании Apple.

arxiv arXiv cs.AI · 6 ч назад

QoR-compact: пятипунктовый ежедневный опросник для удаленного мониторинга пациентов

Исследователи разработали QoR-compact, пятипунктовый ежедневный опросник, предназначенный для повышения приверженности при удаленном мониторинге пациентов за счет снижения нагрузки стандартного 15-пунктового инструмента оценки качества восстановления (QoR-15). Исследование было обусловлено низким уровнем соблюдения режима: только 55% послеоперационных пациентов заполняли полный опросник более чем в половине случаев в течение 30-дневного периода. Чтобы решить эту проблему, команда всесторонне оценила все 3003 возможных подмножества из пяти вопросов, чтобы выявить то, которое наилучшим образом предсказывает тяжесть послеоперационного восстановления в ближайшей перспективе. Выбранные пункты QoR-compact охватывают физические и психологические аспекты, конкретно затрагивая отдых, комфорт, самочувствие, боль и тревогу. Бэктестирование показало, что QoR-compact достигает среднего значения AUC-ROC 0,968, что статистически сопоставимо с базовой производительностью одной трети пунктов полного инструмента. Модель отслеживает события повторной госпитализации с точностью, аналогичной полной форме, подтверждая ее валидность как прогностического инструмента. Хотя авторы отмечают необходимость внешней валидации на более крупных когортах перед клиническим применением, результаты поддерживают проведение проспективных исследований о том, улучшает ли этот более легкий формат ввода ежедневную согласованность заполнения.

arxiv arXiv cs.AI · 6 ч назад

Индексы подверженности ИИ: ограничения статических метрик и необходимость координации исследований и политики

Индексы подверженности ИИ из работы Eloundou et al. (2023) определяют подверженность ИИ как долю профессиональных задач, с которыми могут помочь большие языковые модели, став центральным элементом в дискуссиях о будущем труда. Эти статические меры обладают временными, географическими и онтологическими ограничениями, которые часто не учитываются при их использовании в политическом анализе. Авторы выделяют два основных пробела: структурное несоответствие между статическими индексами и динамическими потребностями политики, а также недостаточную координацию между исследователями и политиками. Для преодоления ограничений измерения статья рассматривает пять семейств исследований, включая динамические бенчмарки, ансамблевые методы, расширения на основе задач, метрики, ориентированные на работников, и данные об внедрении. Второй пробел требует целенаправленной политической работы по переосмыслению будущих результатов, а не только улучшения измерения. Политикам необходимо расширять базу доказательств, вовлекать работников в качестве партнеров и переходить от прогнозирования к готовности. Исследователям рекомендуется создавать инфраструктуру данных, применять соучаствующие методы и писать с учетом интересов политиков.

arxiv arXiv cs.AI · 6 ч назад

Обучение процессным наградам через сопоставление частоты посещения состояний для эффективного обучения с подкреплением

Авторы решают задачу обучения политик обучения с подкреплением (RL) при наличии изначально разреженных наград за результат, что приводит к сложным проблемам распределения ответственности. Они предлагают метод преобразования этих разреженных наград в плотные процессные награды путем обучения дискриминатора для различения успешных и неуспешных эпизодов. Этот дискриминатор стимулирует политику совпадать с частотой посещения состояний-действий успешных эпизодов, избегая при этом тех, что характерны для неуспешных. Предоставляя плотную обратную связь о прогрессе в выполнении задачи, подход доказуемо достигает этой цели без изменения оптимальной политики. Метод специально применяется к дообучению политик управления роботами для задач манипуляции. Экспериментальные результаты демонстрируют значительно более быстрое выполнение этапа дообучения RL как в симулированных, так и в реальных средах по сравнению с простой максимизацией разреженных наград за результат.

arxiv arXiv cs.AI · 6 ч назад

TailorMind: К генерации мультимодального контента с учётом предпочтений

Авторы представляют TailorMind — систему для персонализированной мультимодальной генерации контента, которая создаёт адаптированные под пользователя результаты без опоры на существующие пулы объектов или ожидания появления соответствующего пользовательского контента. Подход связывает коллаборативное моделирование предпочтений с управляемой мультимодальной генерацией за счёт обогащения разреженных пользовательских историй через гиперграфовое коллаборативное фильтрование. Дополнительно оптимизируются текстовые профили с использованием обратной связи по ошибке ранжирования и градиентного спуска по тексту для более точного учёта предпочтений пользователей. Для обеспечения качества система применяет управление стилем на основе извлечения (retrieval-augmented style control), опирающееся на аутентичные паттерны, и отражение кросс-модальной связности для снижения семантического дрейфа. Исследователи также представляют TailorBench — бенчмарк, оцениваемый по пяти измерениям: связность (coherence), новизна (novelty), эстетическое качество, галлюцинации и профилирование. Эксперименты показывают, что TailorMind достигает конкурентоспособной или более высокой связности по сравнению с базовыми моделями, одновременно улучшая новизну и эстетическое качество относительно репрезентативных моделей генерации и эталонных данных (ground-truth). Кроме того, система демонстрирует преимущества перед извлечением доступного контента и достигает прироста Recall до 29% в задачах реранжирования.

arxiv arXiv cs.AI · 7 ч назад

Сужающиеся языковые модели: повышение производительности за счёт распределения ёмкости с учётом глубины

Современные языковые модели обычно распределяют параметры равномерно по идентичным слоям, несмотря на доказательства того, что последующие слои в основном уточняют остаточный поток (residual stream), а не преобразуют его. Чтобы устранить эту асимметрию, исследователи изучили вопрос о том, должна ли параметрическая ёмкость варьироваться в зависимости от глубины при фиксированном бюджете. Контролируемые эксперименты показали, что распределение большей части ёмкости на ранние слои и меньшей — на поздние улучшает перплексность по сравнению с базовыми вариантами с равномерным распределением, тогда как обратное распределение ухудшает производительность. Опираясь на эти результаты, авторы представляют Сужающиеся языковые модели (TLMs), архитектурный принцип, согласно которому компоненты, содержащие параметры, монотонно сужаются по глубине. Многослойные персептроны (MLP) служат основным местом для этой реализации из-за их доминирования в количестве параметров и чёткой оси ширины. В исследовании тестировалось сужение с помощью плавного косинусного графика на трёх масштабах моделей и четырёх архитектурах, включая Transformer, Gated Attention, Hope-attention и Titans. Результаты показывают, что TLMs последовательно улучшают перплексность и результаты в downstream-бенчмарках по сравнению с базовыми вариантами с равномерным распределением без дополнительных вычислительных затрат. Эти выводы устанавливают распределение ёмкости с учётом глубины как простой, не зависящий от архитектуры рычаг

arxiv arXiv cs.AI · 7 ч назад

Челлендж NVIDIA Nemotron: Строковое сопоставление и возврат с откатом для головоломок манипуляции битами

В данной статье подробно описываются алгоритмические инновации, разработанные для Челленджа рассуждений модели NVIDIA Nemotron, направленные на решение головоломок манипуляции битами, в которых модели необходимо выявлять скрытые логические правила. Чтобы справиться с комбинаторным взрывом побитовых операций и галлюцинациями больших языковых моделей (LLM), авторы отказываются от арифметической логики в пользу строкового сходства и структурированного поиска. Основная вклад заключается в переосмыслении вывода логических вентилей как задачи выбора базиса с использованием минимального числа переворотов битов для изоляции примитивных преобразований. Процесс обратного поиска с откатом (backtracking) по методу глубинного первого поиска формализован для проверки кандидатов, обнаружения логических коллизий и выполнения надежного восстановления ошибок. Кроме того, метод использует побитовую токенизацию и интерактивное рассуждение, дообученное с учителем (SFT), с динамическим маскированием для симуляции обратной связи от оракула. При оценке на этих головоломках подход достиг точности валидации более 96%. Это достижение обеспечило лучший результат в категории и седьмое место в общем зачете конкурса.

arxiv arXiv cs.AI · 7 ч назад

PsyBridge: гибридная система для многомерной оценки психического здоровья

В исследовании представлена PsyBridge, гибридная интеллектуальная система, предназначенная для преодоления ограничений изолированных скрининговых инструментов в оценке психического здоровья. Эта система объединяет клинически валидированные инструменты, такие как PHQ-9 и GAD-7, с оценкой когнитивных функций и профилированием личности в рамках единой архитектуры. Модульная конструкция, использующая механизм взвешенной агрегации, формирует интерпретируемые классификации рисков и рекомендации для пользователей. Для оценки производительности исследователи создали полу-синтетический набор данных, включающий 500 профилей пациентов на основе клинически обоснованных распределений баллов. Экспериментальные результаты показывают, что PsyBridge достигает общей точности 0,84, превосходя отдельные оценки по PHQ-9 и GAD-7. Система также демонстрирует улучшения в показателях точности (precision), полноты (recall) и F1-меры по сравнению с существующими методами. Анализ чувствительности подтверждает, что интеграция когнитивных и личностных компонентов стабилизирует классификационную производительность и снижает несогласованность предсказаний. Эти выводы указывают на то, что PsyBridge предлагает масштабируемый подход к поддержке принятия решений с помощью ИИ в средах цифрового здравоохранения.