Тема · Image generation
arxiv arXiv cs.LG · 8 д назад

NoiseTilt: Noise-Tilted Reverse Kernels для выравнивания вознаграждения в диффузионных моделях

NoiseTilt вводит NTRK, диффузионный образовательный сэмплер, который вводит градиенты вознаграждения через компонент шума без изменения обратного ядра. Используя оператор белого шума, NTRK безопасно смещает шум в сторону высоких вознаграждений, сохраняя качество образцов при обеспечении сильного направления. В задаче эстетического генерирования NTRK достигает превосходной производительности по вознаграждению при 25 NFE, снижая вычислительные затраты на 20× по сравнению с существующими базовыми моделями.

arxiv arXiv cs.AI · 8 д назад

STAR: SpatioTemporal Adaptive Reward Allocation для генерации текста-в-изображение в RL после обучения

STAR вводит метод распределения вознаграждения в пространственно-временной области для генерации текста-в-изображение, используя карты внимания для динамического присвоения преимуществ на шагах дезактивации. Оно улучшает семантическую синхронизацию, отображение текста и оптимизацию предпочтений в Stable Diffusion 3.5 Medium, достигая 0.9759, 0.9757 и 23.60 на GenEval, OCR и PickScore соответственно.

arxiv arXiv cs.AI · 9 д назад

ActiveSAM: Быстрый и точный анализ семантической сегментации с открытым словарем

ActiveSAM — это рамка без обучения и с нулевым обучением, которая улучшает SAM 3 для семантической сегментации с открытым словарем, определяя активный набор классов, зависящий от изображения. Оно улучшает баланс между скоростью и точностью, превосходя SegEarth-OV3 на +1,4 mIoU в среднем и работает до 5,5 раз быстрее на датасетах с большим словарем, при этом демонстрируя сильную устойчивость при искажении изображений.

arxiv arXiv cs.LG · 9 д назад

ActiveSAM: Быстрый и точный открытие-словарный сегментация

ActiveSAM — это рамка без обучения, нулевого шаблона, которая улучшает SAM 3 для открытие-словарного семантического сегментирования за счет определения активного класса, зависящего от изображения. Оно улучшает компромисс между скоростью и точностью, превосходя SegEarth-OV3 на +1,4 mIoU в среднем и работает на 5,5 раз быстрее на больших словарях, при этом обладая сильной устойчивостью к искажениям изображений.

arxiv arXiv cs.CL · 7 д назад

DreamReasoner-8B: обучение куррикулумом по размеру блоков для рассуждения на основе диффузии

DreamReasoner-8B — это открытый блок-модель диффузии, демонстрирующая сильное рассуждение в длинной цепи мыслей. Систематическое исследование показывает, что малые размеры обучающих блоков сохраняют эффективность рассуждения, в то время как большие размеры снижают производительность. Обучение куррикулумом по размеру блоков постепенно переходит от мелких к крупным блокам, обеспечивая устойчивое и обобщаемое рассуждение в различных условиях инференса, с результатами, конкурирующими с Qwen3-8B на математических и кодовых тестах.

arxiv arXiv cs.LG · 7 д назад

Sumi: Открытая унифицированная модель распределенной генерации языка, построенная с нуля

Sumi — это модель распределенной генерации языка с 7 миллиардами параметров, предобученная с нуля на 1,5 трлн токенов. Она конкурирует с автокоррекционными моделями на задачах знаний, логики и программирования, но демонстрирует ухудшение на тестах по общеобразовательным знаниям, вероятно, из-за доминирования в обучающих данных образовательного контента. Веса модели, контрольные точки и полная схема обучения были опубликованы.

arxiv arXiv cs.CL · 7 д назад

Sumi: Открытая унифицированная модель распределенной генерации языка, построенная с нуля

Sumi — это модель распределенной генерации языка с 7 миллиардами параметров, предобученная с нуля на 1,5 трлн токенов. Она конкурирует с автокоррекционными моделями на задачах знаний, логики и программирования, но демонстрирует ухудшение на тестах по общей логике, вероятно, из-за преобладания в данных образовательного контента. Веса модели, точки сохранения и полная схема обучения доступны для публичного использования.

arxiv arXiv cs.AI · 7 д назад

ProductConsistency: Улучшение идентичности продукта в редактировании изображений

Датасет ProductConsistency вводит 87k образцов SFT и 869 образцов RL для улучшения сохранения идентичности продукта при редактировании изображений. В нём включён бенчмарк для стандартизированной оценки и используется циклическая согласованность вознаграждения для обеспечения семантической идентичности продукта через сходство описаний. Тонкая настройка Qwen-Image-Edit-2511 и Flux.1-Kontext-dev показывает снижение ошибки в 5 раз и улучшение отображения текста и визуальной качества.

media r/LocalLLaMA · 7 д назад

TRELLIS.2 теперь работает нативно на MLX

TRELLIS.2 был перенесён для нативной работы на MLX для процессоров Apple Silicon. Модель поддерживает входные изображения размером 512x512 и 1024x1024, время генерации составляет примерно 70 секунд для изображений 512x517 и от 300 до 700 секунд для изображений 1024x1024 на процессоре M4 Max с 128 ГБ единой памяти.

arxiv arXiv cs.LG · 8 д назад

Рекурсивные скрытые модели диффузии вводят новый осевой масштаб

Рекурсивные скрытые модели диффузии (R-MDMs) вводят рекурсивную глубину как третий осевой масштаб, применяя внутри каждого шага диффузии дезинтегрирующий трансформер. Эта рекурсия позволяет итеративно улучшать выход без увеличения количества параметров, достигая производительности, сравнимой с не-рекурсивными моделями, при наличии до L раз больше параметров, где L — количество итераций. R-MDMs также снижают вычислительные затраты на инференс, частично заменяя шаги дезинтеграции на рекурсивное уточнение.

arxiv arXiv cs.LG · 8 д назад

Модели Вольтерры вводят дробную шум для генерации на основе счёта

Модели Вольтерры предлагают непрерывный временной подход на основе счёта, используя дробные ядра для введения шума, зависящего от пути, что избегает памяти-независимого шумирования в традиционных моделях диффузии. Подход вводит конечномерные марковские подъемы и доказывает оценки квадратичной ошибки, демонстрируя улучшенную генерацию на MNIST и потенциал для естественных изображений, при этом бридж-сэмплер повышает стабильность для более крупных моделей.

arxiv arXiv cs.LG · 8 д назад

Колмогоровская регрессия для устойчивых диффузионных политик

Обратное уравнение Колмогорова поднимает диффузионные политики в пространство Камерона-Мартин, заменяя стохастическое сопоставление на детерминированное дифференциальное уравнение. Этот подход обеспечивает границы сходимости, связанные с эффективным рангом ядра, улучшает регулярность траекторий и позволяет использовать детерминированный детектор сбоев без вознаграждений. Проверка показала на 17% больший результат на PushT и на 28,4% меньшую RMSE на производственной линии, при снижении количества сбоев на 96% за счёт сертификации по уравнению Гамильтона-Якоби.

arxiv arXiv cs.LG · 8 д назад

AoiZora: оптимизация автоматического параллелизма с учётом топологии для инференса диффузии видео

AoiZora — это планировщик топологии, реализованный на уровне компиляции, который повышает скорость инференса диффузии видео с низкой задержкой на подсрезах ТПУ. Благодаря синхронизации логического разбиения с физическим размещением в процессе компиляции, AoiZora снижает задержку одного шага деноизирования на подсрезах ТПУ v5e до 1,42 раза по сравнению с существующими методами.

arxiv arXiv cs.LG · 8 д назад

SelFix: корневой выбор фиксированного точки инверсии для прямоугольных потоков через прямолинейность траектории

SelFix улучшает инверсию фиксированной точки за счёт выбора решений, которые создают более прямолинейные обратные траектории, что повышает качество реконструкции реальных изображений и редактирования с сохранением источника. Эксперименты на FLUX.1-dev и PIE-Bench показывают, что SelFix превосходит предыдущие базовые методы как по качеству реконструкции, так и по точности редактирования.

arxiv arXiv cs.LG · 8 д назад

CERS: улучшенное рассуждение на основе цепочки мыслей для сегментации медицинских изображений

CERS вводит рассуждение на основе цепочки мыслей для улучшения сегментации медицинских изображений в полуобученных условиях, интегрируя лингвистические описания из больших языковых моделей. Оно использует семантически осознанное выборку ссылок и мульти-масштабное внимание координат для устранения неопределенностей на границах и семантических несоответствий, превосходя современные методы в клинических сценариях с несоответствием визуально-семантического.

arxiv arXiv cs.AI · 8 д назад

Модели Вольтерры вводят дробную шум для генерации на основе счёта

Модели Вольтерры предлагают непрерывный временной фрейм на основе счёта, используя дробные ядра для введения шума, зависящего от пути, избегая памяти-независимого шумирования в традиционных моделях диффузии. Подход использует конечномерные марковские подъемы и демонстрирует улучшенную генерацию на MNIST и CIFAR-10, при этом мостовой сэмплер повышает стабильность для более крупных моделей.

arxiv arXiv cs.AI · 8 д назад

ReAge3D: Реалистичное 3D-преобразование возраста лиц с сохранением видов

ReAge3D представляет рамку для реалистичного и сохраняющего идентичность 3D преобразования возраста лиц. Оно использует 2D модель диффузии и центр-на-внешнюю редактирование для обеспечения согласованности во всех видах, сохраняя мелкие детали, связанные с возрастом, через маскированную диффузию и реконструкцию вида.

arxiv arXiv cs.CL · 9 д назад

МЕНЬШЕ — БОЛЬШЕ: Адаптивная выборка для моделей диффузионного языка

LESS представляет адаптивный сэмплер, не требующий обучения и универсальный по отношению к моделям, который снижает количество шагов обратного удаления шума на 72,1% по сравнению с фиксированным бюджетом декодирования. Он обеспечивает более высокую точность, чем существующие сэмплеры без обучения, и снижает вычислительные затраты и задержку в инференсе за счёт правил взаимной стабильности, которые гарантируют привязку токенов только тогда, когда предсказания являются уверенным, согласованным и стабильным.

arxiv arXiv cs.AI · 9 д назад

Фаза в нейронных представлениях: внутренний тест Оппенгейма-Лима

Классификаторы изображений, такие как PRISM2D, GFNet и ViT-B/16, показывают, что фаза, а не модуль, определяет предсказания в скрытых слоях. ResNet-50 раскрывает скрытый код знака в поздних блоках, что указывает на то, что идентичность фазы/знака существует во всех архитектурах, хотя она выражается по-разному из-за механизмов активации и выдачи.

arxiv arXiv cs.LG · 9 д назад

Фаза в нейронных представлениях: внутренний тест Оппенгейма-Лима

Классификаторы изображений, такие как PRISM2D, GFNet и ViT-B/16, показывают, что фаза, а не модуль, определяет предсказания в скрытых слоях. ResNet-50 выявляет скрытый код знака в поздних блоках, что указывает на существование идентичности фазы/знака во всех архитектурах, хотя она выражается по-разному из-за механизмов активации и выдачи результатов.