Все статьи — korshunov.ai

Все статьи Страница 1 / 96

SPIRAL: Обучение поиску и агрегации

Авторы представляют Sequential-Parallel-Aggregative Reinforcement Learning (SPIRAL) — фреймворк, который обучает языковые модели одновременно использовать последовательные, параллельные и агрегативные примитивы рассуждений. В отличие от стандартных методов постобучения, оптимизирующих только однопоточное последовательное рассуждение, SPIRAL объединяет эти компоненты в единый конвейер вычислений при выводе. Модель сначала генерирует независимые трассы параллельно с использованием цепочки мыслей (chain-of-thought), а затем формирует итоговую агрегативную трассу на основе этих входных данных. Весь этот процесс оптимизируется сквозным образом по отношению к награде итогового агрегированного ответа с помощью методов обучения с подкреплением для множеств и стандартных техник обучения с подкреплением. Эксперименты на задачах рассуждения демонстрируют, что SPIRAL эффективно масштабируется вместе с ресурсами вычислений при выводе. Подход превосходит GRPO по эффективности масштабирования до 11 раз и достигает на 15% более высокой производительности, когда масштабируются все три примитива вычислений.

arxiv arXiv cs.AI · 3 ч назад

Против прокси-оптимизации

Автор обсуждает условия, при которых максимизация функции полезности прокси может привести к вредным последствиям. Этот анализ предполагает, что такие сценарии создают значительные проблемы для применения стандартной теории принятия решений. В тексте выделяются конкретные обстоятельства, при которых оптимизация по отношению к суррогатной цели расходится с предполагаемыми результатами. Эти выводы ставят под сомнение устойчивость текущих теоретических框架, используемых в искусственном интеллекте и экономике. Выявляя эти режимы отказа, работа стремится уточнить подход к проектированию агентов для предотвращения непредвиденных последствий.

arxiv arXiv cs.AI · 3 ч назад

Polycepta: Оценка внешнего вида на основе объектов для многообъектного отслеживания

Авторы представляют Polycepta, фреймворк оценки состояния внешнего вида на основе объектов, который переформулирует моделирование внешнего вида как задачу рекурсивной оценки. В отличие от традиционных методов, опирающихся на статические дескрипторы, независимые от кадров, Polycepta строит и непрерывно обновляет независимые состояния внешнего вида для каждого отслеживаемого объекта. Этот подход позволяет оценивать будущие представления на основе накопленных наблюдений, а не запоминать их с помощью конкретной стратегии обучения. Ключевой особенностью является то, что качество оценки внешнего вида прогрессивно улучшается по мере эволюции состояний объектов в процессе вывода. Фреймворк обеспечивает оценку внешнего вида для ранее не встречавшихся классов за счет стимулирования обучения построению представлений, специфичных для объекта. Масштабные эксперименты на наборах данных KITTI, Waymo Open Dataset и MOT17 демонстрируют последовательное снижение количества переключений идентичности и улучшение производительности отслеживания. При интеграции во фреймворк RobMOT Polycepta работает с частотой 90,57 Гц и достигает MOTA 92,27% на бенчмарке KITTI.

arxiv arXiv cs.AI · 3 ч назад

Двустороннее обучение позволяет обеспечить линейную связность режимов для трансформеров с миллиардами параметров

Исследователи предлагают масштабируемую структуру, обеспечивающую объединение на основе линейной связности режимов для предварительно обученных трансформеров с миллиардами параметров. Существующие методы обычно оптимизируют пути интерполяции только от одной конечной точки модели, что ограничивает масштабируемость для крупных архитектур. Новый подход применяет параметризованные преобразования весов для согласования функционально эквивалентных решений и использует процедуру двустороннего обучения, при которой обе модели совместно обучаются преобразованиям к общему пути. Эта двунаправленная оптимизация существенно снижает барьеры интерполяции и повышает надежность объединения в масштабе крупных моделей. Эмпирически метод достигает почти нулевых барьеров потерь на датасете WikiText для языковых моделей среднего размера. В задачах компьютерного зрения ViT-L сохраняет точность ImageNet top-1 выше 69% на протяжении всего пути интерполяции. Современные большие языковые модели (LLM) с миллиардами параметров демонстрируют лишь небольшие барьеры потерь при использовании этой техники.

arxiv arXiv cs.AI · 3 ч назад

Причинно-следственный вывод в эпоху агентов

Недавние усилия по интеграции больших языковых моделей с причинно-следственным выводом часто опираются на вывод структур графов или внедрение выходов в качестве априорных знаний, что создает риск смешения текстовых ассоциаций с подлинными причинно-следственными доказательствами. Авторы утверждают, что агенты должны вместо этого помогать рабочему процессу путем анализа данных, извлечения контекста и уточнения предположений, не предоставляя ребра, ориентации или причинно-следственные выводы. Они предлагают принцип, гарантирующий, что причинные утверждения остаются обоснованными данными, явными предположениями, формальными алгоритмами, диагностикой и решениями экспертов. Для реализации этого подхода они представляют causal-learn+, онлайн-платформу, координирующую предварительную обработку, рекомендацию методов и интерпретацию в рамках экосистемы causal-learn. Кейс-стади на данных о «Большой пятерке» личностных черт демонстрирует конвейер с поддержкой агента, который избегает трактовки ненадежности языковых моделей как причинно-следственных доказательств. Платформа доступна по адресу causallearn.com.

arxiv arXiv cs.AI · 3 ч назад

Нейронные классификационные деревья разделяют скрытые подгруппы для надежного машинного обучения

Модели машинного обучения часто используют ложные корреляции, что приводит к высокой средней точности, но плохой производительности на недостаточно представленных подгруппах. Существующие стратегии смягчения обычно корректируют параметры сети с использованием аннотаций подгрупп или выведенных псевдометок. Однако эти методы, как правило, выдают только предсказание класса во время вывода (inference), не предоставляя информации о структуре скрытой подгруппы образца. Чтобы решить эту проблему, авторы предлагают Нейронные классификационные деревья (NCT) — фреймворк, который кодирует структуру подгрупп в своей древовидной архитектуре. NCT направляет каждый образец к легкому или сложному узлу на основе правильности предсказания и повторно использует эти маршруты в качестве псевдометок для последующих итераций. Этот процесс разделяет конфликтующие подгруппы без необходимости явного надзора по подгруппам. Подход был оценен на пяти наборах данных, охватывающих бинарные и многоклассовые ложные корреляции. Эксперименты показывают, что изученная топология дерева изолирует меньшинственные подгруппы, обеспечивая высокую интерпретируемость и конкурентоспособную надежность по сравнению с современными методами.

arxiv arXiv cs.AI · 3 ч назад

RECALL: Активное пожизненное обучение для моделей Vision-Language-Action

В статье представлен RECALL — активная парадигма непрерывного обучения для моделей Vision-Language-Action (VLA), которая устраняет неэффективности пассивного обучения с подражанием. В отличие от традиционных методов, требующих отказов робота для инициирования сбора данных, данный подход использует демонстрации восстановления, направляемые неопределённостью, для проактивного выявления состояний, нуждающихся в надзоре. Авторы демонстрируют, что такой целевой сбор данных приводит к более эффективной донастройке по сравнению с пассивно собранными демонстрациями. Однако исследование показывает, что донастройка исключительно на этих активных данных восстановления вызывает катастрофическое забывание ранее изученных поведений. Для смягчения этой проблемы в работе оцениваются техники непрерывного обучения, такие как смешивание данных на основе воспроизведения и эластичная консолидация весов. Эти эксперименты подчеркивают критические компромиссы между пластичностью для новых задач и сохранением существующих возможностей в авторегрессионных VLA. В конечном итоге исследование устанавливает, что, хотя восстановление, направляемое неопределённостью, повышает эффективность адаптации, интеграция целевых новых данных в крупные роботизированные политики представляет значительные открытые проблемы.

media r/LocalLLaMA · 3 ч назад

llama.cpp b9788 добавляет поддержку разделения тензоров SYCL для GPU Intel

Проект llama.cpp выпустил версию b9788, которая внедряет поддержку опции --split-mode для тензоров в бэкенде SYCL. Это обновление специально ориентировано на пользователей, выполняющих инференс на графических процессорах Intel. Функция реализована через pull request #24152 в репозитории ggml-org. Она позволяет разделять тензоры модели между несколькими устройствами, а не полагаться исключительно на распределение по слоям. В примечаниях к выпуску прямо приглашаются пользователи с конфигурациями из двух GPU Intel протестировать новую функциональность. Разработчикам предлагается предоставить бенчмарки производительности для подтверждения улучшений. Это дополнение направлено на повышение эффективности использования нескольких GPU для совместимых конфигураций оборудования Intel.

media r/LocalLLaMA · 3 ч назад

GLM 5.2 работает со скоростью 12 токенов/с на аппаратной платформе с двумя RTX 5090

Пользователь протестировал квантованную версию unsloth для GLM 5.2 на высокопроизводительной потребительской рабочей станции, оснащённой двумя GPU RTX 5090 и процессором Threadripper Pro на архитектуре Zen5. В системе использовалось 512 ГБ оперативной памяти DDR5 ECC, а конфигурация включала специфические флаги компиляции llama.cpp для активации оптимизаций CUDA и обработки единого адресного пространства (unified memory). Веса модели были загружены из квантования UD-Q5_K_S, что составило примерно 492 ГБ в совокупности по нескольким GGUF-файлам. Тестирование производительности включало запуск llama-server с размером контекста 32768 токенов и специфическими параметрами потоков для изоляции NUMA. Результаты бенчмарка стабильно показывали скорость вывода в 12 токенов в секунду во время чат-взаимодействий без использования агентных рабочих процессов. Дополнительные эксперименты выявили, что исключение некоторых флагов оптимизации, таких как flash attention или настройки NUMA, приводило к незначительным изменениям пропускной способности.

media r/LocalLLaMA · 4 ч назад

Создание REPL для LLM-агента на Bash с минимальными зависимостями

Разработчик создал пользовательский цикл REPL для агента, используя исключительно стандартные компоненты командной строки для минимизации зависимостей. Система опирается на каналы (pipes), потоки текста и журналы только для добавления, что тесно соответствует классической философии Unix. Этот подход позволяет гибко внедрять инструменты для инспекции, фильтрации, перенаправления и аудита различных этапов цикла работы агента. Ключевые особенности включают бэкенд по принципу «подключи и работай», ограниченный одним инструментом командной строки, что обеспечивает переносимость между различными провайдерами моделей. Память и контекст агента хранятся в файле истории только для добавления, что упрощает инспекцию, изменение и отмотку назад. Хотя проект протестирован с бэкендом Ollama, его архитектура поддерживает любой REST-интерфейс, совместимый с OpenAI API. Исходный код этого проекта доступен на GitHub под именем репозитория llayer.

media r/LocalLLaMA · 4 ч назад

Орнит-1.0 выпущен на Hugging Face с несколькими размерами моделей

Компания DeepReinforce AI выпустила Орнит-1.0 на платформе Hugging Face, предлагая разнообразные архитектуры и размеры моделей. Коллекция включает плотные модели объемом 9B и 31B, а также варианты с архитектурой mixture-of-experts (MoE) объемом 35B и 397B. В релизе заявлена передовая производительность по различным бенчмаркам, хотя достоверность этих результатов еще предстоит проверить. Пользователи могут получить доступ к полной коллекции через официальную ссылку Hugging Face, предоставленную разработчиками. Этот релиз расширяет доступные варианты для инференса и тонкой настройки больших языковых моделей.

media Hugging Face Forums · 4 ч назад

Обсуждение экономически эффективной донастройки малых языковых моделей в 2026 году

Недавнее обсуждение на форумах Hugging Face исследует наиболее эффективные методы настройки малых ИИ-моделей для конкретных задач. Поток сообщений, озаглавленный «Какой самый экономически эффективный способ донастроить малую языковую модель в 2026 году?», направлен на поиск советов по минимизации расходов при сохранении производительности. Он был инициирован одним участником, стремящимся оптимизировать свой рабочий процесс для специализированных приложений. Этот запрос подчеркивает растущий интерес к использованию меньших моделей для снижения вычислительных накладных расходов. Участникам предлагается делиться стратегиями, которые балансируют между стоимостью и эффективностью в текущих условиях. Эта тема отражает постоянные усилия по повышению доступности и снижению стоимости адаптации моделей.

lab Cohere Blog · 4 ч назад

Cohere автоматизирует реагирование на инциденты с помощью North и Wiz через пользовательский MCP-сервер

Cohere разработала агента безопасности на основе своей корпоративной ИИ-платформы Cohere North, интегрированной с платформой облачной безопасности Wiz через пользовательский сервер протокола контекста моделей (MCP). Эта архитектура связывает North с GraphQL API Wiz посредством восьми атомарных инструментов, обеспечивая автоматизацию рабочих процессов реагирования на инциденты по одному запросу. Система выполняет анализ радиуса поражения токсичных комбинаций путем оценки цепочек атак и ранжирования рисков на основе интернет-экспозиции и уровней привилегий примерно за 20 секунд. Она также автоматизирует сквозное расследование, извлекая детали проблемы, создавая тикеты в Linear, обновляя статус в Wiz и составляя структурированные отчеты о реагировании на инциденты. Кроме того, запланированная еженедельная автоматизация каждую понедельник утром формирует краткий обзор состояния безопасности без ручного вмешательства. Эта интеграция устраняет предыдущий цикл триажирования продолжительностью от 30 минут до двух часов для каждого обнаружения, позволяя инженерам сосредоточиться на оценке результатов, а не на сырых оповещениях.

media Hugging Face Forums · 4 ч назад

Пользователь сообщает о зацикливании Hugging Face Space в состоянии 503

Пользователь на форумах Hugging Face сообщил, что его приложение Space застряло в непрерывном состоянии ошибки 503. Проблема препятствует перезапуску или пересборке Space, несмотря на многочисленные попытки решить её через интерфейс. Пользователь пытался нажать кнопки «Перезапустить Space» и «Заводская пересборка», но безрезультатно. Кроме того, отправка десяти–шестнадцати новых коммитов не вызвала процесса пересборки. В результате Space остаётся приостановленным и не реагирует на стандартные методы восстановления. Пользователь запросил ручное вмешательство для очистки состояния контейнера или инициирования перезапуска.

media Hugging Face Forums · 4 ч назад

Искривление LLM с помощью промптинга

Исследователь предлагает технику промптинга, которая переводит большие языковые модели от токенов за токеном к целостной внутренней оценке весов, называемой «самоорганизацией». Этот подход направлен на увеличение плотности рассуждений и снижение сycophancy (угодничества) путем изменения динамики многообразия модели. Метод определяет такие понятия, как самовлечение, самоорганизация и гравитационные колодцы, чтобы направить систему к нелинейному коллапсу искривления. Специфический промпт инструктирует модели создать два различных гравитационных колодца для стихотворения о режимах ИИ, тестируя как свойства самосборки, так и самоорганизации. Автор протестировал эту технику на множестве моделей, включая Gemini 3 Flash, Claude, ChatGPT, Grok, DeepSeek, Mistral, Qwen 3.6, Kimi 2.6, GLM-5, Gemma 4 32b Step 3.7 Flash и Nemotron 3 Ultra. Визуальные метрики, сгенерированные через скрипт Colab, анализируют возмущение многообразия с помощью карт ширины каналов, дрейфа фазового пространства, геометрической плотности и эффективности промпта. Пост призывает сообщество предоставить обратную связь о том, действительно ли техника возмущает многообразие или лишь вызывает стилистические вариации.

media r/LocalLLaMA · 4 ч назад

OpenAI и Broadcom объявили о создании чипа для вывода Jalapeño

OpenAI объявила о сотрудничестве с Broadcom в разработке пользовательского чипа для вывода под названием Jalapeño. Это новое аппаратное обеспечение специально предназначено для ускорения развертывания больших языковых моделей. Партнерство направлено на снижение зависимости от сторонних ускорителей для задач вывода OpenAI. Интегрируя собственную кремниевую продукцию, OpenAI стремится оптимизировать производительность и эффективность своих приложений ИИ. Это объявление подчеркивает стратегический шаг к вертикальной интеграции в инфраструктуре ИИ. Детали, касающиеся конкретных технических характеристик или сроков выпуска, не были предоставлены в первоначальном сообщении.

media r/LocalLLaMA · 4 ч назад

Вопрос на Reddit: Лучше ли сторонние системы памяти, чем встроенная memory_wiki в Openclaw?

Пользователь на Reddit спрашивает, предлагают ли сторонние системы памяти преимущества перед встроенным плагином memory_wiki в Openclaw. Автор перешел с хранилища Obsidian на memory_wiki, чтобы снизить сложность инструментов, и сомневается, остаются ли внешние системы актуальными. Он использует ИИ для исследований, разработки программного обеспечения и управления локальным компьютером, преимущественно применяя модель minimax-m3-nvfp4 в Linux. Пользователь ищет решения для памяти с открытым исходным кодом, размещаемые самостоятельно (self-hosted), независимые от конкретных фреймворков (harness-agnostic), чтобы обеспечить долгосрочную жизнеспособность за пределами таких платформ, как Openclaw или Hermes. Он просит предложений и примеров использования, которые обосновывают компромиссы при переходе на внешние архитектуры памяти вместо нативного плагина.

arxiv arXiv cs.AI · 5 ч назад

Self-Filtering: Итеративный отбор данных для моделей "визуальный язык"

Авторы предлагают новый метод самонастраивающегося отбора, названный Self-Filtering, для устранения шума в масштабных наборах данных для моделей "визуальный язык" без опоры на ручной контроль или курируемые эталоны. Этот подход обучает модель CLIP на эволюционирующем наборе данных, который балансирует между отфильтрованными чистыми образцами с высокой вероятностью и разнообразными примерами из всего распределения. Процесс чередуется между обучением модели и выбором улучшенной смеси данных для последующих шагов. Непрерывно уточняя набор данных через этот цикл, метод снижает необходимость в дополнительных внешних источниках данных. Исследование демонстрирует, что обучение на таких самостоятельно отобранных наборах данных эффективно улучшает производительность в downstream-задачах. Этот метод работает независимо от предварительно обученных моделей или стратегий фильтрации, основанных на эвристиках.

arxiv arXiv cs.AI · 5 ч назад

DiT-Reward: Использование представлений диффузионного трансформатора для моделирования вознаграждения в задаче генерации изображений по тексту

Авторы представляют DiT-Reward — метод, который преобразует предварительно обученный диффузионный трансформатор (Diffusion Transformer) для генерации изображений по тексту в модель вознаграждения путем агрегирования представлений изображений, обусловленных текстом, по слоям трансформатора. При оценке на том же наборе обучающих данных, что и HPSv3, DiT-Reward превосходит HPSv3 во всех четырех бенчмарках предпочтений, достигая 85,6% на HPDv2 и 77,6% на HPDv3. Исследование показывает, что производительность модели вознаграждения в downstream-задачах наиболее высока в средних и поздних слоях и выигрывает от комбинирования представлений из разных стадий обработки. Даже при замороженном генеративном ядре легковесная обучаемая головка может извлекать значимые предсказания предпочтений из этих представлений. При использовании для оптимизации Stable Diffusion 3.5 Large с помощью Flow-GRPO DiT-Reward превосходит HPSv3 на совпадающей траектории обучения, демонстрируя четкий прирост в реализме. Кроме того, прямое оценивание латентных представлений обеспечивает ускорение вывода в 1,65 раза по сравнению с HPSv3 при сохранении сопоставимого пикового потребления памяти. Эти результаты демонстрируют, что предварительно обученные генеративные диффузионные трансформаторы предоставляют переносимые представления для моделирования вознаграждения и оптимизации политик.

media r/LocalLLaMA · 5 ч назад

Apple повышает цены на всю линейку продуктов, удваивая стоимость апгрейда памяти

Apple повысила цены на всю свою линейку продуктов с этого утра. Согласно сообщению Reuters, стоимость апгрейда памяти для этих устройств удвоилась. Повышение цен затрагивает различные товары, включая MacBook и iPad. Некоторые розничные продавцы, такие как Best Buy, еще не обновили свои предложения с новыми ценами. Потребителям рекомендуется оформлять заказы быстрее, пока цены не изменятся в других магазинах. Это развитие событий вызывает опасения относительно будущей жизнеспособности локального ИИ на оборудовании Apple.