Все статьи — korshunov.ai

Все статьи Страница 1 / 130

SupraLabs выпустил модель SupraVL-Nano-900k для обработки изображений и языка

SupraLabs представил модель SupraVL-Nano-900k, полностью прозрачную модель из 900 тысяч параметров, обученную с нуля на наборе Flickr8k. Модель включает в себя CNN-энкодер, декодер стиля GPT-2 и метод объединения с помощью префикса, все компоненты которой полностью документированы и разработаны с целью образовательной ясности.

arxiv arXiv cs.AI · 12 д назад

UFP4: Единая 4-битовая тренировка устраняет смещение сжатия в предварительной тренировке больших языковых моделей

Исследование выявляет смещение сжатия в форматах на основе E2M1 FP4 из-за геометрической асимметрии, что приводит к накоплению умножительной ошибки и нестабильности тренировки. Предложенная рецептура UFP4 использует единые сетки E1M2/INT4 и применяет случайный Хадамар-преобразование ко всем операциям GEMM, достигая меньшего снижения потерь по сравнению с базовыми вариантами на основе E2M1 в масштабной предварительной тренировке больших языковых моделей. Авторы рекомендуют E1M2/INT4 как первичный тренировочный примитив для будущих ускорителей.

SupraLabs выпустил модель SupraVL-Nano-900k для обработки изображений и языка

UFP4: Единая 4-битовая тренировка устраняет смещение сжатия в предварительной тренировке больших языковых моделей

DataMagic превращает таблицы данных в интерактивные видео с анализом данных

NRT-Bench: Многоходовое красное тестирование агентов ЛЛМ в критически важных системах

Многоуровневая децифрация улучшает классификацию вредоносного ПО на основе больших языковых моделей

Внимание-ориентированный глубокий анализ для интерпретируемой классификации морфологии сперматозоидов

Переиспользование классификатора речи для генерации на основе диффузии

Контекстуально-осознанный байесовский модель улучшает прогнозирование успеха ИВФ

Защита от автоматизированных атак на агентные ИИ

UltraQuant: 4-бит кэширование KV для агентов с большим контекстом

Оптимальный порядок в рамке многоагентных систем

Передача предвзятости оценщиков в системах мультиагентных языковых моделей

Калибровка без понимания в обнаружении уязвимостей в LLM

FreeStyle: масштабируемое генерирование двойных ссылок через извлечение сообщественных LoRAs

Как безопасные LLM интерпретируют смешанные демонстрации соблюдения

Эффективная и надежная вероятностная проверка для агентов ИИ

Multi-LCB: Расширение LiveCodeBench до 12 языков программирования

FlowEdit: долгосрочная адаптация произношения в модели Flow-Matching TTS

Совершенно самостоятельный брокер исполнения для агентного управления с сертифицированными сертификатами

SARLO-80: Высокоразрешающий SAR-оптический-текстовый набор данных выпущен