Тема · Image generation
arxiv arXiv cs.LG · 8 д назад

NoiseTilt: Noise-Tilted Reverse Kernels для выравнивания вознаграждения в диффузионных моделях

NoiseTilt вводит NTRK, диффузионный образовательный сэмплер, который вводит градиенты вознаграждения через компонент шума без изменения обратного ядра. Используя оператор белого шума, NTRK безопасно смещает шум в сторону высоких вознаграждений, сохраняя качество образцов при обеспечении сильного направления. В задаче эстетического генерирования NTRK достигает превосходной производительности по вознаграждению при 25 NFE, снижая вычислительные затраты на 20× по сравнению с существующими базовыми моделями.

arxiv arXiv cs.AI · 8 д назад

STAR: SpatioTemporal Adaptive Reward Allocation для генерации текста-в-изображение в RL после обучения

STAR вводит метод распределения вознаграждения в пространственно-временной области для генерации текста-в-изображение, используя карты внимания для динамического присвоения преимуществ на шагах дезактивации. Оно улучшает семантическую синхронизацию, отображение текста и оптимизацию предпочтений в Stable Diffusion 3.5 Medium, достигая 0.9759, 0.9757 и 23.60 на GenEval, OCR и PickScore соответственно.

arxiv arXiv cs.AI · 9 д назад

ActiveSAM: Быстрый и точный анализ семантической сегментации с открытым словарем

ActiveSAM — это рамка без обучения и с нулевым обучением, которая улучшает SAM 3 для семантической сегментации с открытым словарем, определяя активный набор классов, зависящий от изображения. Оно улучшает баланс между скоростью и точностью, превосходя SegEarth-OV3 на +1,4 mIoU в среднем и работает до 5,5 раз быстрее на датасетах с большим словарем, при этом демонстрируя сильную устойчивость при искажении изображений.

arxiv arXiv cs.LG · 9 д назад

ActiveSAM: Быстрый и точный открытие-словарный сегментация

ActiveSAM — это рамка без обучения, нулевого шаблона, которая улучшает SAM 3 для открытие-словарного семантического сегментирования за счет определения активного класса, зависящего от изображения. Оно улучшает компромисс между скоростью и точностью, превосходя SegEarth-OV3 на +1,4 mIoU в среднем и работает на 5,5 раз быстрее на больших словарях, при этом обладая сильной устойчивостью к искажениям изображений.

arxiv arXiv cs.LG · 19 ч назад

Атомарные языковые модели понимают и генерируют материалы

Атомарные языковые модели (ALM) объединяют язык и атомарные структуры, позволяя генерировать и оптимизировать кристаллы с использованием естественного языка. ALM используют непрерывный мост для отображения языковых векторов в пространство диффузии, направляющее атомарные структуры, и применяют Text-to-Crystal Feynman-Kac для точности стехиометрии. Бенчмарк ALM Bench оценивает генерацию и оптимизацию материалов при условии текста, код и веса будут скоро опубликованы.

arxiv arXiv cs.AI · 1 д назад

2D против 3D диффузии для синтетической подготовки ИИ на рентгеновских изображениях

Исследование сравнивает 2D и 3D диффузионные модели для генерации синтетических рентгеновских изображений. Оно показывает, что синтетические рентгеновские изображения, созданные на основе 2D диффузионных моделей, могут обучать ИИ-модели так же эффективно, как модели, обученные на реальных рентгеновских изображениях, предлагая жизнеспособный путь к созданию больших и разнообразных наборов данных без использования реальных данных пациентов.

media r/LocalLLaMA · 2 д назад

Boogu-Image-0.1: Серия открытых источников универсальных моделей генерации и редактирования изображений

Boogu-Image-0.1 — это семейство открытых источников универсальных моделей генерации и редактирования изображений, лицензированное под Apache-2.0, включающее варианты Base, Turbo и Edit. Модель обеспечивает высокое качество генерации текста в изображения, быструю генерацию, редактирование изображений и сильную отрисовку текста на китайском и английском языках, при этом объем обучающих данных примерно на порядок меньше, чем у закрытых систем, и при этом достигает конкурентоспособных результатов благодаря улучшенному пониманию модели и качеству данных.

media Hugging Face Forums · 2 д назад

Модель музыки на основе ИИ работает в реальном времени на большинстве процессоров в браузере

NanoMaestro Realtime — это модель музыки на основе ИИ размером 50 МБ с 13 миллионами параметров, которая генерирует музыку на пианино в реальном времени с использованием двухслойного LSTM. Она работает локально в браузере через ONNX и Transformers.js с WASM, не требуя GPU или серверной стороны, и работает на старых моделях Raspberry Pi.

blog Simon Willison · 2 д назад

Перенос модели Moebius 0.2B для inpainting изображений в браузер с использованием Claude Code

Модель Moebius 0.2B для inpainting изображений успешно была перенесена для работы в браузере с использованием WebGPU и ONNX Runtime. Проект, инициированный с помощью Claude Code, преобразует веса модели в ONNX и развертывает их через Hugging Face, с простым веб-интерфейсом, доступным по адресу simonw.github.io/moebius-web/.

lab Hugging Face Blog · 3 д назад

PP-OCRv6 выпущен на Hugging Face с поддержкой 50 языков

PP-OCRv6, новый модель распознавания текста, теперь доступен на Hugging Face. Он поддерживает 50 языков и масштабируется от 1,5 миллионов до 34,5 миллионов параметров, обеспечивая повышенную точность и эффективность при работе с разными языками.

arxiv arXiv cs.AI · 6 д назад

Переиспользование классификатора речи для генерации на основе диффузии

Предварительно обученный классификатор речи переиспользуется как основа для генерации речи на основе диффузии. При привязке легкого подмодуля и обучении его методом сопоставления сценария устранения шума, подход достигает высокого качества речи при снижении памяти и вычислительных затрат, используя один модель вместо двух отдельно обученных компонентов.

arxiv arXiv cs.AI · 6 д назад

FreeStyle: масштабируемое генерирование двойных ссылок через извлечение сообщественных LoRAs

FreeStyle предлагает рамку, которая извлекает сообщественные LoRAs для генерации масштабных троек изображений с двумя ссылками — стилем и содержанием. В ней используется двухэтапная куррикулярная система с механизмами разъединения, чтобы подавить утечку стиля, и вводится бенчмарк с оценками, не зависящими от стиля и основанными на ВЛМ, для оценки сохранения содержания и отклонения утечки стиля.

arxiv arXiv cs.LG · 6 д назад

Временные вложения не нужны в моделях диффузии

Исследование показывает, что модели диффузии могут достигать глобальных минимумов без явных временных вложений. Исследования с использованием методов исключения на данных CelebA и CIFAR-10 показывают, что временно-независимые модели сохраняют высокую точность и превосходят модели с условием по FID, точности и полноте.

arxiv arXiv cs.LG · 6 д назад

Переиспользование классификатора речи для генерации на основе диффузии

Предварительно обученный классификатор речи переиспользуется как основа для генерации речи на основе диффузии. При присоединении легкого подсети и обучении ее методом сопоставления сценария устранения шума, подход достигает высокого качества речи при снижении памяти и вычислительных затрат, используя один модель вместо двух отдельно обученных компонентов.

arxiv arXiv cs.AI · 6 д назад

Изучаемое глобальное слияние для переменной длины токенизации в трансформерах диффузии

Новый токенизатор с переменной длиной использует изучаемое глобальное слияние для обеспечения сопоставления представлений разной длины в моделях диффузии. Этот подход, независимый от данных, преодолевает позиционные семантики и улучшает соотношение качества и вычислительных затрат при генерации изображений ImageNet 256×25-6 по сравнению с предыдущими методами.

arxiv arXiv cs.AI · 6 д назад

MakeupMirror улучшает сохранение лицевых характеристик в моделях диффузии

MakeupMirror, модель передачи макияжа на основе диффузии, улучшает сохранение лицевых черт и оттенка кожи по сравнению с Stable-Makeup. Оно обеспечивает увеличение схожести при распознавании лиц на 60% и снижение разницы оттенка кожи на 50%, с 94% экспертной оценкой и задержкой инференса 0,7 секунды на разнообразных наборах данных.

arxiv arXiv cs.AI · 6 д назад

Гибридная система ANN-SNN с локальной пластичностью

Гибридная система ANN-SNN использует предобученные энкодеры EfficientNet и преобразует их активации в импульсные последовательности с помощью кодирования скорости. Система обучает спайковый классификатор CoLaNET с локальными правилами пластичности, достигая точности 99,09% на тестовом наборе ImageNet из 64 классов, что соответствует традиционным глубоким сетям.

arxiv arXiv cs.LG · 6 д назад

PU-UNet: Стабильные мультипликативные взаимодействия для сегментации медицинских изображений

PU-UNet вводит стабильные продукт-единичные резидуальные блоки в U-Net для сегментации медицинских изображений, позволяя явным мультипликативным взаимодействиям признаков без числовых нестабильностей. Оно достигает высоких значений Dice на ISIC 2018, Kvasir-SEG и BUSI, превосходит базовую модель Residual U-Net по Dice и IoU, и устраняет ложноположительные значения на нормальных случаях BUSI.

arxiv arXiv cs.LG · 6 д назад

MakeupMirror улучшает сохранение атрибутов лица в моделях диффузии

MakeupMirror, модель передачи макияжа на основе диффузии, обеспечивает увеличение схожести при распознавании лица на 60% и снижение разницы в оттенке кожи на 50% по сравнению с Stable-Makeup. Модель сохраняет лицевые черты и оттенок кожи с экспертной оценкой 94% по критериям идентичности, работает с задержкой 0,7 секунды при использовании сэмплятора Левенберга-Маркуарда-Ланжевина.

arxiv arXiv cs.CL · 6 д назад

Чёрный ящик обнаруживает запоминание идентичностей в моделях текст-в-изображение

Новый чёрный ящик позволяет определить, запоминают ли модели текст-в-изображение идентичности или создают их, не требуя ссылочных фотографий или обучающих данных. Данный набор NAMESAKES включает более тысячи имён и лиц публичных лиц, а также менее известных искажённых имён, для оценки этой способности на передовых моделях.