Все статьи — korshunov.ai

Все статьи Страница 1 / 95

DiT-Reward: Использование представлений диффузионного трансформатора для моделирования вознаграждения в задаче генерации изображений по тексту

Авторы представляют DiT-Reward — метод, который преобразует предварительно обученный диффузионный трансформатор (Diffusion Transformer) для генерации изображений по тексту в модель вознаграждения путем агрегирования представлений изображений, обусловленных текстом, по слоям трансформатора. При оценке на том же наборе обучающих данных, что и HPSv3, DiT-Reward превосходит HPSv3 во всех четырех бенчмарках предпочтений, достигая 85,6% на HPDv2 и 77,6% на HPDv3. Исследование показывает, что производительность модели вознаграждения в downstream-задачах наиболее высока в средних и поздних слоях и выигрывает от комбинирования представлений из разных стадий обработки. Даже при замороженном генеративном ядре легковесная обучаемая головка может извлекать значимые предсказания предпочтений из этих представлений. При использовании для оптимизации Stable Diffusion 3.5 Large с помощью Flow-GRPO DiT-Reward превосходит HPSv3 на совпадающей траектории обучения, демонстрируя четкий прирост в реализме. Кроме того, прямое оценивание латентных представлений обеспечивает ускорение вывода в 1,65 раза по сравнению с HPSv3 при сохранении сопоставимого пикового потребления памяти. Эти результаты демонстрируют, что предварительно обученные генеративные диффузионные трансформаторы предоставляют переносимые представления для моделирования вознаграждения и оптимизации политик.

media r/LocalLLaMA · 4 ч назад

Apple повышает цены на всю линейку продуктов, удваивая стоимость апгрейда памяти

Apple повысила цены на всю свою линейку продуктов с этого утра. Согласно сообщению Reuters, стоимость апгрейда памяти для этих устройств удвоилась. Повышение цен затрагивает различные товары, включая MacBook и iPad. Некоторые розничные продавцы, такие как Best Buy, еще не обновили свои предложения с новыми ценами. Потребителям рекомендуется оформлять заказы быстрее, пока цены не изменятся в других магазинах. Это развитие событий вызывает опасения относительно будущей жизнеспособности локального ИИ на оборудовании Apple.

arxiv arXiv cs.AI · 4 ч назад

QoR-compact: пятипунктовый ежедневный опросник для удаленного мониторинга пациентов

Исследователи разработали QoR-compact, пятипунктовый ежедневный опросник, предназначенный для повышения приверженности при удаленном мониторинге пациентов за счет снижения нагрузки стандартного 15-пунктового инструмента оценки качества восстановления (QoR-15). Исследование было обусловлено низким уровнем соблюдения режима: только 55% послеоперационных пациентов заполняли полный опросник более чем в половине случаев в течение 30-дневного периода. Чтобы решить эту проблему, команда всесторонне оценила все 3003 возможных подмножества из пяти вопросов, чтобы выявить то, которое наилучшим образом предсказывает тяжесть послеоперационного восстановления в ближайшей перспективе. Выбранные пункты QoR-compact охватывают физические и психологические аспекты, конкретно затрагивая отдых, комфорт, самочувствие, боль и тревогу. Бэктестирование показало, что QoR-compact достигает среднего значения AUC-ROC 0,968, что статистически сопоставимо с базовой производительностью одной трети пунктов полного инструмента. Модель отслеживает события повторной госпитализации с точностью, аналогичной полной форме, подтверждая ее валидность как прогностического инструмента. Хотя авторы отмечают необходимость внешней валидации на более крупных когортах перед клиническим применением, результаты поддерживают проведение проспективных исследований о том, улучшает ли этот более легкий формат ввода ежедневную согласованность заполнения.

arxiv arXiv cs.AI · 4 ч назад

Индексы подверженности ИИ: ограничения статических метрик и необходимость координации исследований и политики

Индексы подверженности ИИ из работы Eloundou et al. (2023) определяют подверженность ИИ как долю профессиональных задач, с которыми могут помочь большие языковые модели, став центральным элементом в дискуссиях о будущем труда. Эти статические меры обладают временными, географическими и онтологическими ограничениями, которые часто не учитываются при их использовании в политическом анализе. Авторы выделяют два основных пробела: структурное несоответствие между статическими индексами и динамическими потребностями политики, а также недостаточную координацию между исследователями и политиками. Для преодоления ограничений измерения статья рассматривает пять семейств исследований, включая динамические бенчмарки, ансамблевые методы, расширения на основе задач, метрики, ориентированные на работников, и данные об внедрении. Второй пробел требует целенаправленной политической работы по переосмыслению будущих результатов, а не только улучшения измерения. Политикам необходимо расширять базу доказательств, вовлекать работников в качестве партнеров и переходить от прогнозирования к готовности. Исследователям рекомендуется создавать инфраструктуру данных, применять соучаствующие методы и писать с учетом интересов политиков.

arxiv arXiv cs.AI · 4 ч назад

Обучение процессным наградам через сопоставление частоты посещения состояний для эффективного обучения с подкреплением

Авторы решают задачу обучения политик обучения с подкреплением (RL) при наличии изначально разреженных наград за результат, что приводит к сложным проблемам распределения ответственности. Они предлагают метод преобразования этих разреженных наград в плотные процессные награды путем обучения дискриминатора для различения успешных и неуспешных эпизодов. Этот дискриминатор стимулирует политику совпадать с частотой посещения состояний-действий успешных эпизодов, избегая при этом тех, что характерны для неуспешных. Предоставляя плотную обратную связь о прогрессе в выполнении задачи, подход доказуемо достигает этой цели без изменения оптимальной политики. Метод специально применяется к дообучению политик управления роботами для задач манипуляции. Экспериментальные результаты демонстрируют значительно более быстрое выполнение этапа дообучения RL как в симулированных, так и в реальных средах по сравнению с простой максимизацией разреженных наград за результат.

arxiv arXiv cs.AI · 4 ч назад

TailorMind: К генерации мультимодального контента с учётом предпочтений

Авторы представляют TailorMind — систему для персонализированной мультимодальной генерации контента, которая создаёт адаптированные под пользователя результаты без опоры на существующие пулы объектов или ожидания появления соответствующего пользовательского контента. Подход связывает коллаборативное моделирование предпочтений с управляемой мультимодальной генерацией за счёт обогащения разреженных пользовательских историй через гиперграфовое коллаборативное фильтрование. Дополнительно оптимизируются текстовые профили с использованием обратной связи по ошибке ранжирования и градиентного спуска по тексту для более точного учёта предпочтений пользователей. Для обеспечения качества система применяет управление стилем на основе извлечения (retrieval-augmented style control), опирающееся на аутентичные паттерны, и отражение кросс-модальной связности для снижения семантического дрейфа. Исследователи также представляют TailorBench — бенчмарк, оцениваемый по пяти измерениям: связность (coherence), новизна (novelty), эстетическое качество, галлюцинации и профилирование. Эксперименты показывают, что TailorMind достигает конкурентоспособной или более высокой связности по сравнению с базовыми моделями, одновременно улучшая новизну и эстетическое качество относительно репрезентативных моделей генерации и эталонных данных (ground-truth). Кроме того, система демонстрирует преимущества перед извлечением доступного контента и достигает прироста Recall до 29% в задачах реранжирования.

arxiv arXiv cs.AI · 5 ч назад

Сужающиеся языковые модели: повышение производительности за счёт распределения ёмкости с учётом глубины

Современные языковые модели обычно распределяют параметры равномерно по идентичным слоям, несмотря на доказательства того, что последующие слои в основном уточняют остаточный поток (residual stream), а не преобразуют его. Чтобы устранить эту асимметрию, исследователи изучили вопрос о том, должна ли параметрическая ёмкость варьироваться в зависимости от глубины при фиксированном бюджете. Контролируемые эксперименты показали, что распределение большей части ёмкости на ранние слои и меньшей — на поздние улучшает перплексность по сравнению с базовыми вариантами с равномерным распределением, тогда как обратное распределение ухудшает производительность. Опираясь на эти результаты, авторы представляют Сужающиеся языковые модели (TLMs), архитектурный принцип, согласно которому компоненты, содержащие параметры, монотонно сужаются по глубине. Многослойные персептроны (MLP) служат основным местом для этой реализации из-за их доминирования в количестве параметров и чёткой оси ширины. В исследовании тестировалось сужение с помощью плавного косинусного графика на трёх масштабах моделей и четырёх архитектурах, включая Transformer, Gated Attention, Hope-attention и Titans. Результаты показывают, что TLMs последовательно улучшают перплексность и результаты в downstream-бенчмарках по сравнению с базовыми вариантами с равномерным распределением без дополнительных вычислительных затрат. Эти выводы устанавливают распределение ёмкости с учётом глубины как простой, не зависящий от архитектуры рычаг

arxiv arXiv cs.AI · 5 ч назад

Челлендж NVIDIA Nemotron: Строковое сопоставление и возврат с откатом для головоломок манипуляции битами

В данной статье подробно описываются алгоритмические инновации, разработанные для Челленджа рассуждений модели NVIDIA Nemotron, направленные на решение головоломок манипуляции битами, в которых модели необходимо выявлять скрытые логические правила. Чтобы справиться с комбинаторным взрывом побитовых операций и галлюцинациями больших языковых моделей (LLM), авторы отказываются от арифметической логики в пользу строкового сходства и структурированного поиска. Основная вклад заключается в переосмыслении вывода логических вентилей как задачи выбора базиса с использованием минимального числа переворотов битов для изоляции примитивных преобразований. Процесс обратного поиска с откатом (backtracking) по методу глубинного первого поиска формализован для проверки кандидатов, обнаружения логических коллизий и выполнения надежного восстановления ошибок. Кроме того, метод использует побитовую токенизацию и интерактивное рассуждение, дообученное с учителем (SFT), с динамическим маскированием для симуляции обратной связи от оракула. При оценке на этих головоломках подход достиг точности валидации более 96%. Это достижение обеспечило лучший результат в категории и седьмое место в общем зачете конкурса.

arxiv arXiv cs.AI · 5 ч назад

PsyBridge: гибридная система для многомерной оценки психического здоровья

В исследовании представлена PsyBridge, гибридная интеллектуальная система, предназначенная для преодоления ограничений изолированных скрининговых инструментов в оценке психического здоровья. Эта система объединяет клинически валидированные инструменты, такие как PHQ-9 и GAD-7, с оценкой когнитивных функций и профилированием личности в рамках единой архитектуры. Модульная конструкция, использующая механизм взвешенной агрегации, формирует интерпретируемые классификации рисков и рекомендации для пользователей. Для оценки производительности исследователи создали полу-синтетический набор данных, включающий 500 профилей пациентов на основе клинически обоснованных распределений баллов. Экспериментальные результаты показывают, что PsyBridge достигает общей точности 0,84, превосходя отдельные оценки по PHQ-9 и GAD-7. Система также демонстрирует улучшения в показателях точности (precision), полноты (recall) и F1-меры по сравнению с существующими методами. Анализ чувствительности подтверждает, что интеграция когнитивных и личностных компонентов стабилизирует классификационную производительность и снижает несогласованность предсказаний. Эти выводы указывают на то, что PsyBridge предлагает масштабируемый подход к поддержке принятия решений с помощью ИИ в средах цифрового здравоохранения.

arxiv arXiv cs.AI · 5 ч назад

Открытая проблема: Эффективен ли AdamW при тяжелохвостом шуме?

AdamW является стандартным оптимизатором для обучения больших языковых моделей, однако его теоретическая база в значительной степени ограничена режимами с конечной дисперсией. Этот пробел существенен, поскольку эмпирические данные свидетельствуют о том, что шум стохастического градиента при предварительном обучении LLM обычно обладает тяжелохвостыми характеристиками. Недавние исследования показали, что оптимизаторы, основанные на знаке, такие как Lion и Muon, достигают острых скоростей сходимости в условиях тяжелого хвоста, а также что AdaGrad сходится в этой постановке. Однако строгая теория сходимости для AdamW еще не была установлена в рамках этих предположений о тяжелом хвосте. Авторы формулируют открытую проблему относительно того, может ли AdamW сходиться при тех же предположениях о тяжелом хвосте или же его аккумулятор второго момента создает реальное препятствие. Для решения этой задачи они разрабатывают положительный взвешенный метрический бенчмарк и предлагают механизм нижней границы коридора. Этот механизм демонстрирует, как память знаменателя в AdamW может эффективно скрывать большие градиенты, потенциально влияя на его производительность.

arxiv arXiv cs.AI · 5 ч назад

AIR: Адаптивное чередующееся рассуждение с кодом в мультимодальных больших языковых моделях

В данной статье представлена методика AIR, которая наделяет мультимодальные большие языковые модели способностью к адаптивному чередующемуся рассуждению посредством расширенного обучения с подкреплением на задачах сложного численного вычисления, дополненных кодом. Авторы устраняют ограничение существующих исследований, которые в основном сосредоточены на использовании инструментов в задачах зрительного восприятия и опираются на заранее заданные эвристики, не способные обрабатывать численные вычисления. Для решения этой проблемы они предлагают комплексное решение из трех компонентов: двухэтапный конвейер создания стартовых данных, стратегии фильтрации данных для формирования набора данных обучения с подкреплением и стратегию адаптивного вызова инструментов, использующую функцию вознаграждения с групповыми ограничениями. Масштабные эксперименты демонстрируют, что после обучения с подкреплением с использованием данной функции вознаграждения производительность в среднем повышается на 6,1 процентного пункта по оценочным бенчмаркам. В частности, точность для образцов чередующегося рассуждения увеличивается на 9,9 процентного пункта, а общий показатель успешности использования инструментов превышает 95 процентов. Исследователи предоставляют свои данные и код для публичного доступа в указанном репозитории GitHub.

arxiv arXiv cs.AI · 5 ч назад

Семантический просмотр: управляемое разнообразие для генерации изображений

Современные модели преобразования текста в изображение часто страдают от коллапса разнообразия, несмотря на высокую детализацию. Авторы предлагают метод Semantic Browsing для обеспечения контролируемого разнообразия посредством структурированных галерей изображений. Этот подход позволяет пользователям ориентироваться по значимым осям вариативности, а не по случайному шуму. Метод использует разделение процессов семантического принятия решений и генерации пикселей в современных моделях. Разнообразие формируется непосредственно на текстовом уровне с использованием богатых текстовых представлений. В рамках агентного рабочего процесса Vision Language Model обрабатывает полный контекст сцены. Этот рабочий процесс явно обеспечивает структурированную вариативность, согласованную с исходным запросом. Результатом является навигируемое пространство дизайна с интерпретируемыми семантическими решениями.

arxiv arXiv cs.AI · 5 ч назад

CoorDex: Координация априорных знаний о теле и кистях для непрерывной манипуляции с перемещением у человекоподобных роботов

Авторы представляют CoorDex, конвейер обучения, обеспечивающий ловкую манипуляцию с перемещением у человекоподобных роботов с высокой степенью свободы. Данный подход преобразует высокоразмерное управление телом и кистью в скоординированное латентное остаточное управление, преодолевая ограничения традиционных методов «стоп-и-иди». Система обучает учителей отслеживания привилегированных движений на основе симулированных демонстраций и дистиллирует их в латентные априорные знания, обусловленные проприоцепцией. Эти замороженные априорные знания служат пространством действий для последующего остаточного обучения с подкреплением посредством политики, которая комбинирует контекст задачи с отдельными остаточными головами для тела и кисти. CoorDex позволяет человекоподобному роботу Unitree G1, оснащенному 20-свободной кистью WUJI, выполнять сложные задачи в движении, такие как захват бутылки без остановки и открывание дверцы холодильника. Аблиционные исследования демонстрируют, что PPO в пространстве суставов и монолитное латентное предсказание не справляются при аналогичных бюджетах вознаграждения, тогда как предложенный интерфейс латентных априорных знаний обеспечивает обучаемость для манипуляций с частыми контактами.

arxiv arXiv cs.LG · 5 ч назад

Согласование многообразий кодировщика и декодера для идемпотентной генерации

Недавние парадигмы обучения стремятся обеспечить идемпотентность в генеративных моделях, гарантируя, что повторное применение оставляет выборки неизменными на целевом многообразии данных. Однако многие существующие подходы не достигают точных неподвижных точек, что приводит к нестабильности и дрейфу при повторном применении. Авторы выявляют геометрическое несоответствие между многообразиями кодировщика и декодера как основную причину этого сбоя. Для его устранения они предлагают фреймворк обучения, который явно согласовывает геометрию обоих компонентов для изучения согласованных представлений одного и того же базового многообразия данных. Это согласование способствует стабильным проекциям и значительно снижает ошибку идемпотентности по сравнению с предыдущими методами. Эмпирические результаты демонстрируют, что подход последовательно генерирует идентичные выходные данные при повторном применении как для задач генерации изображений, так и для их редактирования. Кроме того, обеспечение такого типа идемпотентности улучшает сохранение идентичности и стабильность информации в генеративных моделях.

arxiv arXiv cs.LG · 5 ч назад

Manifold Restore Mixing улучшает обучение представлений белков

Аугментация данных улучшает обучение представлений белков, но часто нарушает структурную целостность или снижает разнообразие. Авторы выявляют эти дефекты структуры и проблемы деградации производительности в существующих методах. Они предлагают Manifold Restore Mixing (MRM) для восстановления утраченной структурной информации при одновременном введении разнообразных вариаций. MRM смешивает скрытые представления исходных и аугментированных данных, вдохновляясь техникой manifold mixup. Планировщик сложности образца настраивает бета-распределение для предоставления постепенно усложняющихся образцов в процессе обучения. Эксперименты на различных архитектурах (backbones) и задачах downstream демонстрируют эффективность и обобщающую способность метода. Реализация доступна по адресу https://github.com/KingGugu/MRM.

arxiv arXiv cs.LG · 5 ч назад

Энтропийно-управляемое граничное обучение для сегментации ультразвуковых изображений молочной железы

В данном исследовании представлен метод энтропийно-управляемого граничного обучения, направленный на решение проблем утечки границ и ложноположительных активаций при сегментации ультразвуковых изображений молочной железы. Предложенная функция потерь масштабирует штрафы за контуры с помощью пиксельной предсказательной энтропии и карт истинных ответов (ground-truth), концентрируя градиентное внимание на неопределенных границах поражений. Оценка на наборе данных BUSI показала, что метод сохраняет качество сегментации поражений со средним показателем Dice 0,7624, который статистически неотличим от базового уровня. Однако он значительно улучшил специфичность, сократив количество ложноположительных активаций на изображениях без поражений с 19 из 20 до 5 из 20. Дополнительный шаг пространственного масштабирования температуры (post-hoc spatial temperature scaling) далее снизил ожидаемую ошибку калибровки с 0,0201 до 0,0095 без изменения масок сегментации. Эти результаты демонстрируют, что энтропийно-управляемое обучение и пространственная калибровка функционируют как взаимодополняющие уточнения в рамках архитектуры U-Net.

arxiv arXiv cs.LG · 6 ч назад

Диффузионные интегрированные градиенты: управляемая генерация путей для гибкого атрибутирования признаков

Авторы предлагают метод Diffusion Integrated Gradients (DiffIG), новый подход, который переформулирует генерацию путей как задачу условного генеративного моделирования для преодоления ограничений существующих методов атрибуции. Хотя интегрированные градиенты широко используются, их зависимость от фиксированных или вручную сконструированных путей часто приводит к зашумленным или искаженным атрибутам. Для решения этой проблемы DiffIG обучает диффузионную модель для изучения распределения по путям, полученным из процесса Стик-Брейкинг (Stick-Breaking Process). Затем метод использует направленную выборку (guided sampling), чтобы позволить внедрение пользовательских указаний в процедуру сэмплирования во время вывода. Этот подход обеспечивает гибкое и управляемое атрибутирование признаков, рассматривая выбор пути как генеративную задачу, а не статический выбор. Экспериментальные результаты демонстрируют, что DiffIG количественно соответствует или превосходит существующие методы на основе путей с точки зрения качества атрибуции. Кроме того, показано, что сгенерированные объяснения перцептивно согласуются с человеческими ожиданиями. Работа вводит новую генеративную перспективу для объяснимого искусственного интеллекта, поддерживающую динамический контроль над путями объяснений.

arxiv arXiv cs.LG · 6 ч назад

Первый анализ конечного времени для классического Adam в негладкой невыпуклой оптимизации

В данном исследовании представлен первый анализ сходимости за конечное время для классического оптимизатора Adam, конкретно рассматривающий его поведение в условиях негладкой невыпуклой оптимизации. Предыдущие исследования либо игнорировали член коррекции смещения Adam, либо требовали дополнительных модификаций алгоритма, таких как обрезка (clipping), оставляя гарантии оригинального метода неясными. Авторы используют框架 преобразования Online-to-Nonconvex для доказательства того, что случайным образом масштабированный темп обучения обеспечивает скорость сходимости $1/T^{\frac{2}{13}}$. Этот теоретический результат имеет важное значение, поскольку он применим к современному режиму тяжелых хвостов шума, который более точно отражает практические условия обучения. Кроме того, анализ устанавливает сходимость при выборе параметров, где $β_1=β_2$, что согласуется с недавними эмпирическими наблюдениями. Эти результаты дают строгое объяснение эффективности Adam в реальных сценариях, которые ранее адекватно не описывались теориями гладкой оптимизации.

arxiv arXiv cs.LG · 6 ч назад

Куркулярное обучение с подкреплением, учитывающее границы, расширяет способность к рассуждению больших языковых моделей за пределы ограничений базовой модели

Авторы утверждают, что основной подход обучения с подкреплением с проверяемыми наградами (RLVR) часто не способен расширить способность к рассуждению больших языковых моделей, ограничиваясь лишь перераспределением вероятностей среди существующих траекторий. Чтобы устранить это ограничение, они предлагают метод куркулярного обучения с подкреплением, учитывающего границы, направленный на преодоление эмпирической границы способности к рассуждению базовой модели. Метод сначала использует выборку pass@k для определения текущих пределов рассуждения, а затем применяет целенаправленное руководство учителя к примерам, находящимся вблизи этой границы или за ее пределами. Обучение с подкреплением затем используется для закрепления этих новых паттернов рассуждения на базовых моделях Qwen, Llama и DeepSeek. Экспериментальные результаты демонстрируют значительное улучшение как показателей pass@1, так и pass@256, которые служат прокси-метрикой для границы способности к рассуждению. В частности, средний показатель pass@256 улучшился на 9,8 процентных пункта по сравнению с базовыми моделями и на 10,3 процентных пункта по сравнению с базовым RLVR (Vanilla RLVR). Эти выводы указывают на то, что данная стратегия на основе куррикулума предлагает масштабируемый путь для непрерывного улучшения способностей к рассуждению больших языковых моделей.

arxiv arXiv cs.LG · 6 ч назад

Синки внимания и коллапс — универсальные следствия маршрутизации на основе контента

Исследование демонстрирует, что синки внимания, коллапс представлений и стратификация норм не являются уникальными для архитектур трансформеров, а представляют собой неотъемлемые следствия маршрутизации на основе контента при фиксированной метрике сходства. Устанавливается тождество, показывающее, что функции внимания softmax выступают в качестве агрегации с весами Больцмана по евклидовым расстояниям при постоянных нормах ключей, делая их нечувствительными к величине ключа из-за отсутствия специфического нормировочного члена. Эта рамка предсказывает, что любой маршрутизатор, использующий метрику, плохо согласованную с его представлениями, будет компенсировать это путем концентрации маршрутизации и коллапса маршрутизируемых представлений. Авторы проверяют эту гипотезу на разнообразных моделях, включая девять предварительно обученных трансформеров, графовые сети внимания, модели селективного пространственного состояния, рекуррентные миксеры и обучаемые остаточные слои. Экспериментальные результаты подтверждают, что все протестированные архитектуры демонстрируют этот идентичный признак коллапса независимо от их конкретной области или структуры. Кроме того, аблиационные исследования внутри модели выделяют механизм маршрутизации как основную причину, а не случайные динамики обучения. Показано, что начало этого явления зависит от силы позиционного тормоза, сопровождающего контентный счет, что может смещать эффект в пределах его диапазона. Однако лежащий в основе механизм остается и