Все статьи
arxiv arXiv cs.LG · 4 ч назад

Когда Top-1 не работает: калибровка мониторов LoRA для диффузионных языковых моделей с маскировкой

В данном исследовании оценивается эффективность концентрации argmax на позиции top-1 как предупреждения о коллапсе во время дообучения дискретных диффузионных языковых моделей (DLM) с использованием Low-Rank Adaptation (LoRA). Авторы обнаруживают, что этот показатель имеет нулевую точность, поскольку насыщается до начала оптимизации и не способен выявлять фактические коллапсы обучения.

arxiv arXiv cs.LG · 4 ч назад

Целостный планировщик данных для предобучения LLM с помощью многокритериального обучения с подкреплением

Исследователи представляют Целостный планировщик данных (HDS), новую онлайн-рамку смешивания данных, которая устраняет ограничения существующих методов за счёт учёта динамического состава данных по нескольким измерениям. HDS формулирует планирование данных как задачу обучения с подкреплением, используя алгоритм Soft Actor-Critic и многокритериальную функцию вознаграждения.

arxiv arXiv cs.LG · 4 ч назад

Сэмплер TR-CIE для дискретного согласования потоков

Исследователи предлагают сэмплер экстраполяции кумулятивной интенсивности с временной репараметризацией (TR-CIE) для улучшения качества выборки при дискретном согласовании потоков в условиях ограниченного числа вычислений функции. Метод сочетает репараметризацию времени на основе расписания с правилом обновления через экстраполяцию кумулятивной интенсивности, чтобы смягчить жёсткость и повысить точность аппроксимации.

arxiv arXiv cs.LG · 4 ч назад

AsyncOPD: Насколько устаревшими могут быть отклики в дистилляции on-policy?

В данной статье представлен AsyncOPD — полностью асинхронный конвейер дистилляции on-policy, который разделяет генерацию откликов и обновления обучаемой модели, чтобы устранить узкие места в обучении при постобучении больших языковых моделей. Авторы проводят первое систематическое исследование влияния устаревания данных в этом контексте, демонстрируя, что прямое расхождение Кульбака-Лейблера с весами учителя устойчиво к устаревшим откликам, тогда как обратное расхождение с весами ученика уязвимо.

media r/LocalLLaMA · 4 ч назад

Модель изображений Krea-2-Turbo — легко становится полностью нецензурной, но также может РЕДАКТИРОВАТЬ изображения!

Модель Krea-2-Turbo генерирует высококачественные изображения примерно за три секунды и поддерживает редактирование изображений с помощью маскирования, несмотря на то, что является архитектурой text-to-image.

blog Simon Willison · 4 ч назад

Извлекатель HTML-таблиц

Извлекатель HTML-таблиц — это инструмент преобразования по вставке, который принимает богатый текст, содержащий встроенные HTML-таблицы, и конвертирует их в различные форматы. Он поддерживает вывод обнаруженных таблиц в форматах HTML, Markdown, CSV, TSV или JSON.

media Hugging Face Forums · 4 ч назад

Опубликовано двуязычное руководство по механике трансформеров с открытым исходным кодом

Опубликовано двуязычное (на английском и испанском языках) руководство с открытым исходным кодом, подробно описывающее внутреннее устройство трансформеров. Ресурс охватывает точную математику и механику, лежащие в основе коллапса внимания и сжатия KV-кэша.

media Hugging Face Forums · 4 ч назад

[Исследование] От функциональной геометрии к динамической грамматике: новые аудиты LIMEN (V23–V24) для 7 архитектур

Независимый исследовательский проект LIMEN анализирует внутреннюю динамику семи моделей Transformer с открытым исходным кодом, выявляя, что семантическая неоднозначность изменяет геометрию траектории и обнаруживая универсальную динамическую грамматику во всех архитектурах.

lab Microsoft Research Blog · 4 ч назад

Memora: Гармоничное представление памяти, балансирующее между абстракцией и спецификой

Microsoft Research представляет Memora, масштабируемую агентную систему памяти, предназначенную для баланса между абстракцией и спецификой в задачах ИИ с длительным горизонтом. Система разделяет богатое содержание памяти и легкие структуры поиска, устанавливая новые рекорды на бенчмарках при использовании до 98% меньше контекстных токенов.

arxiv arXiv cs.LG · 5 ч назад

Автономная генерация видео с контрфактической управляемостью для самоэволюционирующих моделей мира

В статье утверждается, что современные модели генерации видео изучают лишь частичные, неявные пространственно-временные модели мира, а не полностью обоснованные или управляемые. Утверждается, что одного предиктивного реализма недостаточно для создания физических агентов, поскольку такие модели часто не способны идентифицировать управляемые переменные и ограничения воплощения.

arxiv arXiv cs.LG · 5 ч назад

BehaviorBench: Оценка базовых моделей для задач поведенческой науки

Авторы представляют BehaviorBench, комплексный бенчмарк, предназначенный для оценки базовых моделей в различных задачах поведенческой науки и на разных популяциях. Исследование оценивает четыре ключевые способности — предсказание поведения, стратегическое принятие решений, вывод черт субъекта и применение поведенческих знаний — как на индивидуальном, так и на распределительном уровнях.

arxiv arXiv cs.LG · 5 ч назад

Панинианская основа для обработки индийских языков

В статье утверждается, что инфраструктура обработки естественного языка для более чем миллиарда носителей индийских языков фрагментирована из-за отсутствия общих структурных основ. Предлагается использовать морфосинтаксическую архитектуру, формализованную в Аштадхьяи Панини, в качестве объединяющей вычислительной основы для повышения точности и эффективности использования данных.

arxiv arXiv cs.LG · 5 ч назад

Легковесные модели трансформеров для обнаружения неисправностей на устройстве: исследование бенчмарка для развертывания в условиях ограниченных ресурсов

В данном исследовании проводится бенчмарк традиционных методов машинного обучения против легковесных архитектур трансформеров для бинарного обнаружения неисправностей на трех публичных наборах данных, оцениваются компромиссы между точностью, размером модели и задержкой. Исследование оценивает классификационную производительность с использованием F1-меры и AUC, а также тестирует динамическое квантование INT8 и двухэтапный адаптивный конвейер вывода для оптимизации развертывания на оборудовании с ограниченными ресурсами.

arxiv arXiv cs.LG · 5 ч назад

Проект Ariadne: Генерация маршрутов с учётом промпта для планирования синтеза

Исследователи представляют Ariadne, модель только на декодере, которая переосмысливает ретросинтетическое планирование как генерацию последовательностей, обусловленную промптом, позволяя представлять целевые молекулы, ограничения и маршруты в одной последовательности. Этот подход устраняет необходимость в отдельных моделях, адаптированных под конкретные спецификации планирования.

arxiv arXiv cs.LG · 5 ч назад

Автоматизированная оценка остаточных графиков с помощью пакета autovi для R и приложения autovi.web на Shiny

В статье представлен пакет R и приложение Shiny, предназначенные для автоматизации визуальной оценки остаточных графиков линейных моделей, что решает проблемы масштабируемости и согласованности, присущие ручной оценке.

media r/LocalLLaMA · 5 ч назад

Пользователь Reddit критикует заявления Дарио Амодеи об открытом ИИ

Пользователь Reddit утверждает, что генеральный директор Anthropic Дарио Амодеи фундаментально не понимает, как работают модели открытого ИИ, опровергая его недавние показания в Конгрессе от 28 июня 2026 года. Автор настаивает на том, что утверждения Амодеи относительно прозрачности и доступности являются фактологически неверными с учетом текущего состояния моделей с открытыми весами.

lab Claude Code Releases · 5 ч назад

Список изменений Claude Code v2.1.196

Версия Claude Code 2.1.196 вводит модели по умолчанию для организаций, кликабельные вложения файлов и улучшенную безопасность для утверждений MCP-серверов. Обновление также повышает надежность фоновых сессий, устраняет различные проблемы с отчетностью о статусе агентов и оптимизирует использование токенов в рабочих процессах проверки кода.

arxiv arXiv cs.LG · 6 ч назад

MotifGen: Пространственно-временная интерполяция несовместимых спутниковых изображений с помощью многоисточникового генеративного моделирования

Исследователи представляют MotifGen, генеративную модель, предназначенную для пространственно-временной интерполяции микроволновых изображений тропических циклонов из нескольких геопространственных источников с нерегулярными временными интервалами и географическим смещением. Модель решает проблему высокой гетерогенности микроволновых данных, объединяя входные данные от различных инструментов для заполнения пробелов, вызванных длительным временем повторного обзора спутниками.

arxiv arXiv cs.LG · 6 ч назад

Глубокие численные схемы для систем эргодических БСДУ с приложениями к моделям утилитити с переключением режимов

В данной статье представлены две численные схемы на основе нейронных сетей для решения систем связанных эргодических обратных стохастических дифференциальных уравнений (эБСДУ), мотивированные аппроксимацией оптимальных стратегий в моделях стохастических факторов с переключением режимов.