Image generation
arxiv arXiv cs.LG · 6 д назад

PU-UNet: Стабильные мультипликативные взаимодействия для сегментации медицинских изображений

PU-UNet вводит стабильные продукт-единичные резидуальные блоки в U-Net для сегментации медицинских изображений, позволяя явным мультипликативным взаимодействиям признаков без числовых нестабильностей. Оно достигает высоких значений Dice на ISIC 2018, Kvasir-SEG и BUSI, превосходит базовую модель Residual U-Net по Dice и IoU, и устраняет ложноположительные значения на нормальных случаях BUSI.

arxiv arXiv cs.LG · 6 д назад

MakeupMirror улучшает сохранение атрибутов лица в моделях диффузии

MakeupMirror, модель передачи макияжа на основе диффузии, обеспечивает увеличение схожести при распознавании лица на 60% и снижение разницы в оттенке кожи на 50% по сравнению с Stable-Makeup. Модель сохраняет лицевые черты и оттенок кожи с экспертной оценкой 94% по критериям идентичности, работает с задержкой 0,7 секунды при использовании сэмплятора Левенберга-Маркуарда-Ланжевина.

arxiv arXiv cs.LG · 6 д назад

EFIQA: Оценка качества фундус-изображений без меток с возможностью объяснения

EFIQA предлагает безметочную архитектуру для оценки качества фундус-изображений, использующую анатомические предпосылки для генерации карт пространственного качества. Сначала обучается необученный детектор аномалий с помощью маскирования анатомических вставок для выявления отсутствующих сосудов, затем эта информация передается в виде небольшого адаптера для отображения качества. Оценка на внешних данных показывает, что EFIQA превосходит методы с метками как по производительности, так и по объяснимости при различных критериях качества.

arxiv arXiv cs.CL · 6 д назад

Чёрный ящик обнаруживает запоминание идентичностей в моделях текст-в-изображение

Новый чёрный ящик позволяет определить, запоминают ли модели текст-в-изображение идентичности или создают их, не требуя ссылочных фотографий или обучающих данных. Данный набор NAMESAKES включает более тысячи имён и лиц публичных лиц, а также менее известных искажённых имён, для оценки этой способности на передовых моделях.

media r/LocalLLaMA · 7 д назад

Локальный агент LLM теперь генерирует изображения и видео в автономном режиме

Пользователь поделился тем, что их локальный агент LLM оснащен инструментами MCP для прямого генерирования изображений и видео. Система работает полностью автономно и является бесплатной для использования, подробности и исходный код доступны в комментариях.

arxiv arXiv cs.CL · 7 д назад

DreamReasoner-8B: обучение куррикулумом по размеру блоков для рассуждения на основе диффузии

DreamReasoner-8B — это открытый блок-модель диффузии, демонстрирующая сильное рассуждение в длинной цепи мыслей. Систематическое исследование показывает, что малые размеры обучающих блоков сохраняют эффективность рассуждения, в то время как большие размеры снижают производительность. Обучение куррикулумом по размеру блоков постепенно переходит от мелких к крупным блокам, обеспечивая устойчивое и обобщаемое рассуждение в различных условиях инференса, с результатами, конкурирующими с Qwen3-8B на математических и кодовых тестах.

arxiv arXiv cs.LG · 7 д назад

Проверка адаптации на этапе тестирования с использованием метода потокового соответствия для уменьшения шумов в изображениях ОКТ

Метод на основе потокового соответствия выравнивает изображения ОКТ на этапе тестирования с синтетическими эталонными траекториями, обеспечивая совпадение распределений гистограмм для снижения несоответствий пикселей, вызванных шумом. Устранение зависимости от времени позволяет модели адаптироваться к реальным вариациям шума, обеспечивая наилучшее качество сегментации биомаркеров на стадиях возрастной дегенерации сетчатки.

arxiv arXiv cs.LG · 7 д назад

Квантовое расширение GAN не показывает преимуществ в МРТ мозга

Управляемый бенчмарк показывает отсутствие значимого роста производительности за счёт квантовых генеративных моделей при расширении МРТ мозга. Синтетические образцы, созданные квантовыми и классическими GAN-моделями, статистически не различимы, и обе модели демонстрируют коллапс моделей и образцы за пределами распределения, особенно при низких долях данных. Исследование заключает, что квантовое расширение не превосходит классические методы и действует скорее как регуляризация, чем как расширение данных.

arxiv arXiv cs.LG · 7 д назад

Sumi: Открытая унифицированная модель распределенной генерации языка, построенная с нуля

Sumi — это модель распределенной генерации языка с 7 миллиардами параметров, предобученная с нуля на 1,5 трлн токенов. Она конкурирует с автокоррекционными моделями на задачах знаний, логики и программирования, но демонстрирует ухудшение на тестах по общеобразовательным знаниям, вероятно, из-за доминирования в обучающих данных образовательного контента. Веса модели, контрольные точки и полная схема обучения были опубликованы.

arxiv arXiv cs.CL · 7 д назад

Sumi: Открытая унифицированная модель распределенной генерации языка, построенная с нуля

Sumi — это модель распределенной генерации языка с 7 миллиардами параметров, предобученная с нуля на 1,5 трлн токенов. Она конкурирует с автокоррекционными моделями на задачах знаний, логики и программирования, но демонстрирует ухудшение на тестах по общей логике, вероятно, из-за преобладания в данных образовательного контента. Веса модели, точки сохранения и полная схема обучения доступны для публичного использования.

arxiv arXiv cs.AI · 7 д назад

ProductConsistency: Улучшение идентичности продукта в редактировании изображений

Датасет ProductConsistency вводит 87k образцов SFT и 869 образцов RL для улучшения сохранения идентичности продукта при редактировании изображений. В нём включён бенчмарк для стандартизированной оценки и используется циклическая согласованность вознаграждения для обеспечения семантической идентичности продукта через сходство описаний. Тонкая настройка Qwen-Image-Edit-2511 и Flux.1-Kontext-dev показывает снижение ошибки в 5 раз и улучшение отображения текста и визуальной качества.

media r/LocalLLaMA · 7 д назад

TRELLIS.2 теперь работает нативно на MLX

TRELLIS.2 был перенесён для нативной работы на MLX для процессоров Apple Silicon. Модель поддерживает входные изображения размером 512x512 и 1024x1024, время генерации составляет примерно 70 секунд для изображений 512x517 и от 300 до 700 секунд для изображений 1024x1024 на процессоре M4 Max с 128 ГБ единой памяти.

arxiv arXiv cs.LG · 8 д назад

Рекурсивные скрытые модели диффузии вводят новый осевой масштаб

Рекурсивные скрытые модели диффузии (R-MDMs) вводят рекурсивную глубину как третий осевой масштаб, применяя внутри каждого шага диффузии дезинтегрирующий трансформер. Эта рекурсия позволяет итеративно улучшать выход без увеличения количества параметров, достигая производительности, сравнимой с не-рекурсивными моделями, при наличии до L раз больше параметров, где L — количество итераций. R-MDMs также снижают вычислительные затраты на инференс, частично заменяя шаги дезинтеграции на рекурсивное уточнение.

arxiv arXiv cs.LG · 8 д назад

NoiseTilt: Noise-Tilted Reverse Kernels для выравнивания вознаграждения в диффузионных моделях

NoiseTilt вводит NTRK, диффузионный образовательный сэмплер, который вводит градиенты вознаграждения через компонент шума без изменения обратного ядра. Используя оператор белого шума, NTRK безопасно смещает шум в сторону высоких вознаграждений, сохраняя качество образцов при обеспечении сильного направления. В задаче эстетического генерирования NTRK достигает превосходной производительности по вознаграждению при 25 NFE, снижая вычислительные затраты на 20× по сравнению с существующими базовыми моделями.

arxiv arXiv cs.LG · 8 д назад

Модели Вольтерры вводят дробную шум для генерации на основе счёта

Модели Вольтерры предлагают непрерывный временной подход на основе счёта, используя дробные ядра для введения шума, зависящего от пути, что избегает памяти-независимого шумирования в традиционных моделях диффузии. Подход вводит конечномерные марковские подъемы и доказывает оценки квадратичной ошибки, демонстрируя улучшенную генерацию на MNIST и потенциал для естественных изображений, при этом бридж-сэмплер повышает стабильность для более крупных моделей.

arxiv arXiv cs.LG · 8 д назад

Колмогоровская регрессия для устойчивых диффузионных политик

Обратное уравнение Колмогорова поднимает диффузионные политики в пространство Камерона-Мартин, заменяя стохастическое сопоставление на детерминированное дифференциальное уравнение. Этот подход обеспечивает границы сходимости, связанные с эффективным рангом ядра, улучшает регулярность траекторий и позволяет использовать детерминированный детектор сбоев без вознаграждений. Проверка показала на 17% больший результат на PushT и на 28,4% меньшую RMSE на производственной линии, при снижении количества сбоев на 96% за счёт сертификации по уравнению Гамильтона-Якоби.

arxiv arXiv cs.LG · 8 д назад

AdaVoMP: адаптивные объемные поля механических свойств

AdaVoMP предсказывает точные пространственно-изменяющиеся модули Юнга, коэффициенты Пуассона и плотность для 3D объектов на разных разрешениях. Используя разреженную адаптивную структуру вокселей и разреженный трансформерный кодировщик-декодер, AdaVoMP достигает разрешения в 16^3 раз выше, чем у предыдущих методов, с улучшенной точностью и меньшими вычислениями на этапе тестирования.

arxiv arXiv cs.LG · 8 д назад

AoiZora: оптимизация автоматического параллелизма с учётом топологии для инференса диффузии видео

AoiZora — это планировщик топологии, реализованный на уровне компиляции, который повышает скорость инференса диффузии видео с низкой задержкой на подсрезах ТПУ. Благодаря синхронизации логического разбиения с физическим размещением в процессе компиляции, AoiZora снижает задержку одного шага деноизирования на подсрезах ТПУ v5e до 1,42 раза по сравнению с существующими методами.

arxiv arXiv cs.LG · 8 д назад

SelFix: корневой выбор фиксированного точки инверсии для прямоугольных потоков через прямолинейность траектории

SelFix улучшает инверсию фиксированной точки за счёт выбора решений, которые создают более прямолинейные обратные траектории, что повышает качество реконструкции реальных изображений и редактирования с сохранением источника. Эксперименты на FLUX.1-dev и PIE-Bench показывают, что SelFix превосходит предыдущие базовые методы как по качеству реконструкции, так и по точности редактирования.

arxiv arXiv cs.LG · 8 д назад

CERS: улучшенное рассуждение на основе цепочки мыслей для сегментации медицинских изображений

CERS вводит рассуждение на основе цепочки мыслей для улучшения сегментации медицинских изображений в полуобученных условиях, интегрируя лингвистические описания из больших языковых моделей. Оно использует семантически осознанное выборку ссылок и мульти-масштабное внимание координат для устранения неопределенностей на границах и семантических несоответствий, превосходя современные методы в клинических сценариях с несоответствием визуально-семантического.