Все статьи — korshunov.ai

Все статьи Страница 1 / 111

Обучение процессным вознаграждениям через сопоставление посещений состояний для эффективного RL

Авторы предлагают метод преобразования изначально разреженных вознаграждений за результат в обучении с подкреплением (RL) в плотные процессные вознаграждения путем обучения дискриминатора для различения успешных и неуспешных эпизодов. Этот подход стимулирует политику совпадать с посещениями состояний-действий успешных эпизод, избегая при этом посещений неуспешных, обеспечивая плотную обратную связь по прогрессу без изменения оптимальной политики.

blog Simon Willison · 5 ч назад

Hack Your Summer запускает бесплатный производственный спринт для студентов

Hack Your Summer — это бесплатный четырехнедельный высокоинтенсивный производственный спринт, разработанный для студентов бакалавриата, магистратуры и недавних выпускников, чтобы они могли создать осязаемые работы, доступные широкой публике. Инициатива служит альтернативой традиционным стажировкам на фоне кризиса сокращения доступности стажировок в США.

blog Simon Willison · 5 ч назад

Джон Юделл: Человек в контуре агента

Джон Юделл выступает против фразы «человек в контуре», поскольку она передаёт полномочия машинам, предлагая вместо этого, чтобы люди приглашали агентов в свои существующие рабочие процессы как членов команды.

media r/LocalLLaMA · 5 ч назад

Neofold: игра-кликер с коллекционированием существ, предлагающая бесконечное количество питомцев благодаря локальной диффузионной модели, вышла на этой неделе

Neofold — это игра-кликер с коллекционированием существ, использующая локальную диффузионную модель для генерации бесконечного разнообразия питомцев. Игра недавно вышла и доступна в Steam.

arxiv arXiv cs.LG · 5 ч назад

Модели диффузии адаптируются к низкоразмерной структуре при гибком выборе коэффициентов

В данной работе показано, что способность моделей диффузии использовать низкоразмерную структуру для ускорения сэмплирования является устойчивым свойством, не зависящим от конкретных выборов коэффициентов обновления. Авторы доказывают, что широкий класс коэффициентов позволяет генерировать ε-точную выборку за O(k/ε) итераций, независимо от размерности пространства.

arxiv arXiv cs.LG · 5 ч назад

Динамическая оценка медленно меняющихся последовательностей

В данной статье представлен подход для последовательного приближения функций в медленно меняющихся последовательностях, использующий повторное применение предыдущих запросов для снижения общих вычислительных затрат. Авторы представляют новые результаты последовательной оценки для степеней матриц, спектральных плотностей, метода Монте-Карло и краевых задач для дифференциальных уравнений в частных производных.

arxiv arXiv cs.LG · 5 ч назад

Action-BED: Задачно-ориентированный байесовский экспериментальный дизайн с однократно некорректными целевыми функциями

В статье представлен Action-BED, новая рамка для байесовского экспериментального дизайна, которая формулирует задачу через ожидаемые будущие потери на последующих действиях, а не через уменьшение неопределенности. Этот подход преобразует традиционно двукратно некорректные целевые функции в однократно некорректные, которые можно совместно оптимизировать с помощью стохастических градиентов.

arxiv arXiv cs.LG · 5 ч назад

MAS-PromptBench: Когда оптимизация промптов улучшает системы с несколькими агентами на базе LLM?

В данном исследовании систематически изучается влияние оптимизации системных промптов на многоагентные системы (MAS) путем бенчмаркинга двух оптимизаторов в различных конфигурациях задач, рабочих процессов и размеров команд.

arxiv arXiv cs.LG · 5 ч назад

О пределах языковых моделей, управляемых промптами, как универсальных обучаемых систем

В данной статье утверждается, что большие языковые модели не являются универсальными решателями задач исключительно посредством промптов из-за фундаментальных ограничений языка как интерфейса коммуникации и требований согласования. Авторы анализируют взаимодействие пользователя с системой как игру дешёвой речи для вывода границ PAC-Bayes, разделяющих ошибку оценки и структурные ограничения.

arxiv arXiv cs.LG · 5 ч назад

Сужающиеся языковые модели: улучшение производительности за счёт распределения ёмкости с учётом глубины

В статье представлены Сужающиеся языковые модели (TLMs), архитектурный принцип, который выделяет большую часть параметрической ёмкости ранним слоям и меньшую — поздним в рамках фиксированного бюджета. Этот подход бросает вызов стандартной практике равномерной ширины слоёв, опираясь на данные о том, что поздние слои в основном уточняют остаточный поток (residual stream), а не преобразуют его.

arxiv arXiv cs.LG · 5 ч назад

PsyBridge: Гибридная интеллектуальная система для многомерной оценки психического здоровья

В данном исследовании представлена PsyBridge — гибридная интеллектуальная система, разработанная для преодоления ограничений изолированных инструментов скрининга психического здоровья за счет интеграции клинически валидированных оценок с профилированием когнитивных функций и личности. Система использует модульную архитектуру и механизм взвешенной агрегации для генерации интерпретируемых классификаций рисков и рекомендаций по принятию решений.

arxiv arXiv cs.LG · 6 ч назад

Открытая проблема: Эффективен ли AdamW при тяжёлохвостом шуме?

В данной статье рассматривается отсутствие строгой теории сходимости для оптимизатора AdamW в режимах с тяжёлохвостым шумом стохастического градиента, что часто встречается при предварительном обучении больших языковых моделей. Ставится вопрос о том, может ли AdamW сходиться в таких условиях или же его аккумулятор второго момента создаёт реальное препятствие.

arxiv arXiv cs.LG · 6 ч назад

Семантический просмотр: управляемое разнообразие для генерации изображений

В данной статье представлен метод Semantic Browsing, предназначенный для создания контролируемого разнообразия в моделях преобразования текста в изображение за счёт внедрения структуры в генерируемые образцы, что позволяет преодолеть недостаток осмысленных вариаций в современных системах. Подход обеспечивает разнообразие непосредственно на текстовом уровне, а не полагается на стохастические изменения внутри модели.

media r/LocalLLaMA · 6 ч назад

Пользователь реализует выполнение C++ инструмента с помощью MiMo-V2.5-GGUF

Пользователь успешно использовал модель MiMo-V2.5-GGUF для написания встроенного инструмента llama.cpp для выполнения кода на C++ и получения результатов. Реализация была выполнена с использованием opencode, где модель сгенерировала необходимый код на основе конкретных инструкций.

media r/LocalLLaMA · 7 ч назад

Почему так много мусорных дообученных моделей на HuggingFace?

Автор отмечает, что большинство дообученных моделей, загруженных на Hugging Face, работают хуже своих базовых аналогов, что делает их бесполезными. Это распространение объясняется тем, что люди используют эти модели как форму профессиональной сертификации для получения высокооплачиваемых позиций в сфере ИИ.

github llama.cpp · 7 ч назад

Выпуск llama.cpp b9835 с исправлениями остановки и пропуска рассуждений в интерфейсе

Проект llama.cpp выпустил версию b9835, которая включает исправление функциональности остановки и пропуска рассуждений в режиме одной модели. Это обновление устраняет определенные проблемы в пользовательском интерфейсе для улучшения управления во время вывода модели.

media r/LocalLLaMA · 8 ч назад

Скрипт для мониторинга llama_cpp и анализа использования памяти

Пользователь поделился скриптом на Bash, предназначенным для парсинга подробного вывода llama.cpp, предоставляющим четкую сводку требований к VRAM/RAM и метрик производительности во время выполнения. Этот инструмент решает проблему предсказания потребностей в памяти для различных квантизаций моделей путем группировки распределений буферов по функциям и бэкендам.

media r/LocalLLaMA · 8 ч назад

Обновление Ornith-1.0-35B GGUF: нативный MTP для спекулятивного декодирования + полная поддержка обслуживания/TTFT/длинного контекста (llama.cpp, tp=1)

В этой статье сообщается об обновлении модели Ornith-1.0-35B, включающем нативную голову черновика MTP, привитую к корпусу IQ4_XS для самоспекулятивного декодирования в llama.cpp. Автор предоставляет комплексные метрики производительности, включая пропускную способность, время до первого токена (TTFT) и возможности работы с длинным контекстом на одном GPU RTX PRO 6000 Blackwell.

media r/LocalLLaMA · 9 ч назад

Apple Refurbished добавляет опции с чипами M5 Pro и Max

После недавнего повышения цен компания Apple добавила множество топовых моделей 14-дюймового MacBook Pro, оснащённых чипами M5 Pro и M5 Max, в свой магазин восстановленной техники.

media r/LocalLLaMA · 9 ч назад

Китай сравнялся с Anthropic в области кибербезопасности, изменив расстановку сил в гонке ИИ

Отчет The Wall Street Journal указывает на то, что китайские модели искусственного интеллекта достигли паритета с Claude от Anthropic в задачах кибербезопасности.