Все статьи — korshunov.ai

Все статьи Страница 1 / 111

Масштабирование линейной связности режимов и слияния для предобученных трансформеров с миллиардом параметров

Исследователи предлагают масштабируемую рамку для объединения независимо обученных трансформеров с миллиардом параметров, используя линейную связность режимов, что позволяет преодолеть ограничения масштабируемости существующих методов. Подход использует преобразования весов, сохраняющие функцию, и двойной процесс обучения, в котором обе модели совместно оптимизируются к общему пути линейной интерполяции.

arxiv arXiv cs.LG · 4 ч назад

Открытие причинности в эпоху агентов

В статье утверждается против использования больших языковых моделей для вывода причинных структур, предупреждая, что такие подходы рискуют спутать текстовые ассоциации с настоящими причинными доказательствами. Вместо этого предлагается, чтобы агенты лишь помогали рабочему процессу, проверяя данные и объясняя предположения, оставляя причинные утверждения опирающимися на формальные алгоритмы и диагностику.

media r/LocalLLaMA · 4 ч назад

Пользователь запускает Qwen3.6-27B на бюджетном оборудовании для создания прототипов в строительной сфере

Пользователь Reddit демонстрирует запуск модели Qwen3.6-27B, квантованной до Q3 с KV при Q8, на GPU AMD Mi50 32 ГБ, достигая скорости около 180+ токенов в секунду для обработки запроса и 9 токенов в секунду для генерации текста.

media r/LocalLLaMA · 4 ч назад

Движок NPC на основе локальных моделей

Разработчик создал игронезависимый бэкенд движка NPC, который использует небольшие локальные модели для достижения быстрого времени отклика и приемлемого качества в ролевых играх. Система использует NVIDIA Parakeet 0.6 для преобразования речи в текст, Gemma 4 26B A4B в качестве LLM и Qwen3-TTS для синтеза голоса.

media r/LocalLLaMA · 4 ч назад

Производительность разделения тензоров на eGPU с низкой пропускной способностью (TB3) и вопрос

Пользователь сообщает о тестировании режима разделения тензоров с двумя внешними GPU Morefine G1 4090M 16GB, подключенными через Thunderbolt 3 со скоростью 40 Гбит/с. В то время как режим разделения слоев обеспечивает высокие скорости токенов для префилла (PP) и генерации текста (TG), режим разделения тензоров насыщает обе карты во время TG, но страдает от низкой производительности PP из-за насыщения пропускной способности.

arxiv arXiv cs.LG · 4 ч назад

Выявление скрытых групп для устойчивой классификации

Авторы предлагают нейронные классификационные деревья (NCT), фреймворк, который обеспечивает устойчивость за счёт кодирования структуры подгрупп внутри своей древовидной архитектуры для устранения ложных корреляций в моделях машинного обучения.

arxiv arXiv cs.LG · 4 ч назад

Отбор данных через итеративную самодиагностику для задач визуального языка

Исследователи предлагают новый метод с самонастраивающимся отбором, названный Self-Filtering, который обучает модель CLIP на эволюционирующем наборе данных, отобранном через итеративную самодиагностику. Этот подход балансирует между отфильтрованными высоковероятными чистыми примерами и разнообразными образцами из всего распределения, чтобы снизить уровень шума в крупномасштабных наборах данных для визуального языка.

arxiv arXiv cs.LG · 4 ч назад

Hedgementation: Бенчмарк дистанционного зондирования для сегментации живых изгородей

Авторы предлагают Hedgementation, новый бенчмарк, разработанный для оценки моделей машинного обучения при картографировании живых изгородей по данным дистанционного зондирования в масштабах страны с пространственным разрешением 10 м². Эта инициатива объединяет и гармонизирует несколько продуктов дистанционного зондирования и эталонных меток, полученных из французского реестра живых изгородей.

arxiv arXiv cs.LG · 4 ч назад

RECALL: Коллекция данных для восстановления опыта в активном непрерывном обучении моделей Vision-Language-Action

В данной статье предлагается активная парадигма непрерывного обучения для моделей Vision-Language-Action (VLA), направленная на устранение неэффективности пассивного обучения с подражанием. Авторы демонстрируют, что сбор данных, направляемый неопределённостью, повышает эффективность дообучения, но приводит к катастрофическому забыванию при исключительно использовании данных восстановления.

arxiv arXiv cs.LG · 4 ч назад

DiT-Reward: Генеративные представления для моделирования вознаграждения в задачах text-to-image

В статье представлен DiT-Reward — метод, который превращает предварительно обученный Diffusion Transformer для генерации изображений по тексту в модель вознаграждения за счёт обработки почти чистых латентных представлений изображений и агрегирования текстово-условных представлений по слоям трансформера. Этот подход использует генеративные представления для оценки качества сгенерированных изображений без необходимости отдельных целей обучения.

arxiv arXiv cs.LG · 4 ч назад

Muown неявно выполняет затухание углового шага

В статье показано, что направленное обновление Muown эквивалентно римановскому шагу по нормализованным направлениям, при этом величина ненормализованной параметризации модулирует угловой шаг. Это понимание объясняет стабильность размера шага Muown и мотивирует разработку AngularMuown, которая оптимизирует напрямую по нормализованным направлениям с явным, настраиваемым по расписанию угловым множителем.

arxiv arXiv cs.LG · 4 ч назад

Обучение процессным вознаграждениям через сопоставление посещений состояний для эффективного RL

Авторы предлагают метод преобразования изначально разреженных вознаграждений за результат в обучении с подкреплением (RL) в плотные процессные вознаграждения путем обучения дискриминатора для различения успешных и неуспешных эпизодов. Этот подход стимулирует политику совпадать с посещениями состояний-действий успешных эпизод, избегая при этом посещений неуспешных, обеспечивая плотную обратную связь по прогрессу без изменения оптимальной политики.

blog Simon Willison · 4 ч назад

Hack Your Summer запускает бесплатный производственный спринт для студентов

Hack Your Summer — это бесплатный четырехнедельный высокоинтенсивный производственный спринт, разработанный для студентов бакалавриата, магистратуры и недавних выпускников, чтобы они могли создать осязаемые работы, доступные широкой публике. Инициатива служит альтернативой традиционным стажировкам на фоне кризиса сокращения доступности стажировок в США.

blog Simon Willison · 4 ч назад

Джон Юделл: Человек в контуре агента

Джон Юделл выступает против фразы «человек в контуре», поскольку она передаёт полномочия машинам, предлагая вместо этого, чтобы люди приглашали агентов в свои существующие рабочие процессы как членов команды.

media r/LocalLLaMA · 4 ч назад

Neofold: игра-кликер с коллекционированием существ, предлагающая бесконечное количество питомцев благодаря локальной диффузионной модели, вышла на этой неделе

Neofold — это игра-кликер с коллекционированием существ, использующая локальную диффузионную модель для генерации бесконечного разнообразия питомцев. Игра недавно вышла и доступна в Steam.

arxiv arXiv cs.LG · 5 ч назад

Модели диффузии адаптируются к низкоразмерной структуре при гибком выборе коэффициентов

В данной работе показано, что способность моделей диффузии использовать низкоразмерную структуру для ускорения сэмплирования является устойчивым свойством, не зависящим от конкретных выборов коэффициентов обновления. Авторы доказывают, что широкий класс коэффициентов позволяет генерировать ε-точную выборку за O(k/ε) итераций, независимо от размерности пространства.

arxiv arXiv cs.LG · 5 ч назад

Динамическая оценка медленно меняющихся последовательностей

В данной статье представлен подход для последовательного приближения функций в медленно меняющихся последовательностях, использующий повторное применение предыдущих запросов для снижения общих вычислительных затрат. Авторы представляют новые результаты последовательной оценки для степеней матриц, спектральных плотностей, метода Монте-Карло и краевых задач для дифференциальных уравнений в частных производных.

arxiv arXiv cs.LG · 5 ч назад

Action-BED: Задачно-ориентированный байесовский экспериментальный дизайн с однократно некорректными целевыми функциями

В статье представлен Action-BED, новая рамка для байесовского экспериментального дизайна, которая формулирует задачу через ожидаемые будущие потери на последующих действиях, а не через уменьшение неопределенности. Этот подход преобразует традиционно двукратно некорректные целевые функции в однократно некорректные, которые можно совместно оптимизировать с помощью стохастических градиентов.

arxiv arXiv cs.LG · 5 ч назад

MAS-PromptBench: Когда оптимизация промптов улучшает системы с несколькими агентами на базе LLM?

В данном исследовании систематически изучается влияние оптимизации системных промптов на многоагентные системы (MAS) путем бенчмаркинга двух оптимизаторов в различных конфигурациях задач, рабочих процессов и размеров команд.

arxiv arXiv cs.LG · 5 ч назад

О пределах языковых моделей, управляемых промптами, как универсальных обучаемых систем

В данной статье утверждается, что большие языковые модели не являются универсальными решателями задач исключительно посредством промптов из-за фундаментальных ограничений языка как интерфейса коммуникации и требований согласования. Авторы анализируют взаимодействие пользователя с системой как игру дешёвой речи для вывода границ PAC-Bayes, разделяющих ошибку оценки и структурные ограничения.