Image generation
media r/LocalLLaMA · 9 ч назад

SDXL работает локально в браузере на WebGPU, открытый исходный код

Браузерное расширение позволяет генерировать изображения локально с использованием моделей SDXL через WebGPU, работающих на видеокарте пользователя без дополнительных настроек. Инструмент поддерживает два варианта: SDXL-Lighting fp16 (7 ГБ) и версия 4-бит (3,6 ГБ), при этом требуется не менее 8 ГБ VRAM для полной модели и браузер с поддержкой WebGPU (Chrome/Edge 122+ или последняя версия Firefox).

arxiv arXiv cs.LG · 19 ч назад

Атомарные языковые модели понимают и генерируют материалы

Атомарные языковые модели (ALM) объединяют язык и атомарные структуры, позволяя генерировать и оптимизировать кристаллы с использованием естественного языка. ALM используют непрерывный мост для отображения языковых векторов в пространство диффузии, направляющее атомарные структуры, и применяют Text-to-Crystal Feynman-Kac для точности стехиометрии. Бенчмарк ALM Bench оценивает генерацию и оптимизацию материалов при условии текста, код и веса будут скоро опубликованы.

media r/LocalLLaMA · 21 ч назад

Unlimited-OCR теперь доступен на ModelScope

Unlimited-OCR, многозадачный OCR-модель на 3,3 миллиарда параметров, доступен на ModelScope. Поддерживается одноразовая обработка для одиночных изображений, многостраничных документов и PDF-файлов, полная обработка документов и длина вывода до 32K. Модель включает базовый и режим gundam для различных размещений документов и поддерживает инференс на основе Transformers с потоковым взаимодействием, совместимым с OpenAI.

arxiv arXiv cs.AI · 1 д назад

2D против 3D диффузии для синтетической подготовки ИИ на рентгеновских изображениях

Исследование сравнивает 2D и 3D диффузионные модели для генерации синтетических рентгеновских изображений. Оно показывает, что синтетические рентгеновские изображения, созданные на основе 2D диффузионных моделей, могут обучать ИИ-модели так же эффективно, как модели, обученные на реальных рентгеновских изображениях, предлагая жизнеспособный путь к созданию больших и разнообразных наборов данных без использования реальных данных пациентов.

media r/LocalLLaMA · 2 д назад

Boogu-Image-0.1: Серия открытых источников универсальных моделей генерации и редактирования изображений

Boogu-Image-0.1 — это семейство открытых источников универсальных моделей генерации и редактирования изображений, лицензированное под Apache-2.0, включающее варианты Base, Turbo и Edit. Модель обеспечивает высокое качество генерации текста в изображения, быструю генерацию, редактирование изображений и сильную отрисовку текста на китайском и английском языках, при этом объем обучающих данных примерно на порядок меньше, чем у закрытых систем, и при этом достигает конкурентоспособных результатов благодаря улучшенному пониманию модели и качеству данных.

media Hugging Face Forums · 2 д назад

Модель музыки на основе ИИ работает в реальном времени на большинстве процессоров в браузере

NanoMaestro Realtime — это модель музыки на основе ИИ размером 50 МБ с 13 миллионами параметров, которая генерирует музыку на пианино в реальном времени с использованием двухслойного LSTM. Она работает локально в браузере через ONNX и Transformers.js с WASM, не требуя GPU или серверной стороны, и работает на старых моделях Raspberry Pi.

blog Simon Willison · 2 д назад

Перенос модели Moebius 0.2B для inpainting изображений в браузер с использованием Claude Code

Модель Moebius 0.2B для inpainting изображений успешно была перенесена для работы в браузере с использованием WebGPU и ONNX Runtime. Проект, инициированный с помощью Claude Code, преобразует веса модели в ONNX и развертывает их через Hugging Face, с простым веб-интерфейсом, доступным по адресу simonw.github.io/moebius-web/.

media r/LocalLLaMA · 3 д назад

Moebius: 0.2B Lightweight Image Inpainting Framework

Moebius — это фреймворк для заполнения изображений с параметрами 0,2B, который достигает производительности, сравнимой с моделями на 10B параметров. Он разработан для легкой и эффективной редактирования изображений с минимальными вычислительными требованиями.

lab Hugging Face Blog · 3 д назад

PP-OCRv6 выпущен на Hugging Face с поддержкой 50 языков

PP-OCRv6, новый модель распознавания текста, теперь доступен на Hugging Face. Он поддерживает 50 языков и масштабируется от 1,5 миллионов до 34,5 миллионов параметров, обеспечивая повышенную точность и эффективность при работе с разными языками.

media r/LocalLLaMA · 3 д назад

Сравнение локальных моделей текст-к-изображению: окончательное испытание

Испытание оценивало 192 запроса на локальных моделях текст-к-изображению на GX10 Spark, оценивая такие способности, как понимание текста, генерация лиц и пространственное составление. Результаты доступны на ImageBench, с сравнениями с передовыми API, использующими визуальные языковые модели, и все запросы и изображения доступны в открытом доступе.

media r/LocalLLaMA · 4 д назад

Лучшая открытая модель визуального анализа, работающая на RTX 6000 Pro

Пользователь ищет текущую лучшую открытую модель визуального анализа, которая может работать на RTX 6000 Pro для распознавания текста и классификации исторических сканированных документов. Он отмечает, что Gemma 4 31B работает хорошо и превосходит визуальный декодер Qwen 3.6, и просит рекомендации по моделям за пределами этой модели.

media r/LocalLLaMA · 4 д назад

Глубокая нейронная сеть превращает изображения в игровые сессии локально

Локально работающая глубокая нейронная сеть может превращать любое изображение в игровую сессию, используя небольшую модель, похожую на трансформер, обученную с нуля. Модель, работающая на RTX 5090, генерирует игровые последовательности автокоррекционно с реальным вводом клавиатуры, хотя в настоящее время она страдает от плохой динамики и проблем с контекстом.

arxiv arXiv cs.AI · 6 д назад

Переиспользование классификатора речи для генерации на основе диффузии

Предварительно обученный классификатор речи переиспользуется как основа для генерации речи на основе диффузии. При привязке легкого подмодуля и обучении его методом сопоставления сценария устранения шума, подход достигает высокого качества речи при снижении памяти и вычислительных затрат, используя один модель вместо двух отдельно обученных компонентов.

arxiv arXiv cs.AI · 6 д назад

FreeStyle: масштабируемое генерирование двойных ссылок через извлечение сообщественных LoRAs

FreeStyle предлагает рамку, которая извлекает сообщественные LoRAs для генерации масштабных троек изображений с двумя ссылками — стилем и содержанием. В ней используется двухэтапная куррикулярная система с механизмами разъединения, чтобы подавить утечку стиля, и вводится бенчмарк с оценками, не зависящими от стиля и основанными на ВЛМ, для оценки сохранения содержания и отклонения утечки стиля.

arxiv arXiv cs.AI · 6 д назад

SARLO-80: Высокоразрешающий SAR-оптический-текстовый набор данных выпущен

SARLO-80 — это масштабный набор данных, объединяющий очень высокоразрешающие SAR SLC-изображения, выровненные оптические изображения и естественные языковые описания. В него включены 119 566 троек из 2 500 глобальных сцен в 72 странах, стандартизированных на сетку 80 см в сланцевом диапазоне с пиксельным выравниванием и тремя вариантами описаний. Набор данных доступен в открытом доступе на Hugging Face для многомодальных задач обучения в исходной SAR геометрии.

arxiv arXiv cs.LG · 6 д назад

Временные вложения не нужны в моделях диффузии

Исследование показывает, что модели диффузии могут достигать глобальных минимумов без явных временных вложений. Исследования с использованием методов исключения на данных CelebA и CIFAR-10 показывают, что временно-независимые модели сохраняют высокую точность и превосходят модели с условием по FID, точности и полноте.

arxiv arXiv cs.LG · 6 д назад

Переиспользование классификатора речи для генерации на основе диффузии

Предварительно обученный классификатор речи переиспользуется как основа для генерации речи на основе диффузии. При присоединении легкого подсети и обучении ее методом сопоставления сценария устранения шума, подход достигает высокого качества речи при снижении памяти и вычислительных затрат, используя один модель вместо двух отдельно обученных компонентов.

arxiv arXiv cs.AI · 6 д назад

Изучаемое глобальное слияние для переменной длины токенизации в трансформерах диффузии

Новый токенизатор с переменной длиной использует изучаемое глобальное слияние для обеспечения сопоставления представлений разной длины в моделях диффузии. Этот подход, независимый от данных, преодолевает позиционные семантики и улучшает соотношение качества и вычислительных затрат при генерации изображений ImageNet 256×25-6 по сравнению с предыдущими методами.

arxiv arXiv cs.AI · 6 д назад

MakeupMirror улучшает сохранение лицевых характеристик в моделях диффузии

MakeupMirror, модель передачи макияжа на основе диффузии, улучшает сохранение лицевых черт и оттенка кожи по сравнению с Stable-Makeup. Оно обеспечивает увеличение схожести при распознавании лиц на 60% и снижение разницы оттенка кожи на 50%, с 94% экспертной оценкой и задержкой инференса 0,7 секунды на разнообразных наборах данных.

arxiv arXiv cs.AI · 6 д назад

Гибридная система ANN-SNN с локальной пластичностью

Гибридная система ANN-SNN использует предобученные энкодеры EfficientNet и преобразует их активации в импульсные последовательности с помощью кодирования скорости. Система обучает спайковый классификатор CoLaNET с локальными правилами пластичности, достигая точности 99,09% на тестовом наборе ImageNet из 64 классов, что соответствует традиционным глубоким сетям.