Все статьи
media r/LocalLLaMA · 4 ч назад

Модель изображений Krea-2-Turbo — легко становится полностью нецензурной, но также может РЕДАКТИРОВАТЬ изображения!

Модель Krea-2-Turbo генерирует высококачественные изображения примерно за три секунды и поддерживает редактирование изображений с помощью маскирования, несмотря на то, что является архитектурой text-to-image.

blog Simon Willison · 4 ч назад

Извлекатель HTML-таблиц

Извлекатель HTML-таблиц — это инструмент преобразования по вставке, который принимает богатый текст, содержащий встроенные HTML-таблицы, и конвертирует их в различные форматы. Он поддерживает вывод обнаруженных таблиц в форматах HTML, Markdown, CSV, TSV или JSON.

media Hugging Face Forums · 4 ч назад

Опубликовано двуязычное руководство по механике трансформеров с открытым исходным кодом

Опубликовано двуязычное (на английском и испанском языках) руководство с открытым исходным кодом, подробно описывающее внутреннее устройство трансформеров. Ресурс охватывает точную математику и механику, лежащие в основе коллапса внимания и сжатия KV-кэша.

media Hugging Face Forums · 4 ч назад

[Исследование] От функциональной геометрии к динамической грамматике: новые аудиты LIMEN (V23–V24) для 7 архитектур

Независимый исследовательский проект LIMEN анализирует внутреннюю динамику семи моделей Transformer с открытым исходным кодом, выявляя, что семантическая неоднозначность изменяет геометрию траектории и обнаруживая универсальную динамическую грамматику во всех архитектурах.

lab Microsoft Research Blog · 4 ч назад

Memora: Гармоничное представление памяти, балансирующее между абстракцией и спецификой

Microsoft Research представляет Memora, масштабируемую агентную систему памяти, предназначенную для баланса между абстракцией и спецификой в задачах ИИ с длительным горизонтом. Система разделяет богатое содержание памяти и легкие структуры поиска, устанавливая новые рекорды на бенчмарках при использовании до 98% меньше контекстных токенов.

arxiv arXiv cs.LG · 5 ч назад

Автономная генерация видео с контрфактической управляемостью для самоэволюционирующих моделей мира

В статье утверждается, что современные модели генерации видео изучают лишь частичные, неявные пространственно-временные модели мира, а не полностью обоснованные или управляемые. Утверждается, что одного предиктивного реализма недостаточно для создания физических агентов, поскольку такие модели часто не способны идентифицировать управляемые переменные и ограничения воплощения.

arxiv arXiv cs.LG · 5 ч назад

BehaviorBench: Оценка базовых моделей для задач поведенческой науки

Авторы представляют BehaviorBench, комплексный бенчмарк, предназначенный для оценки базовых моделей в различных задачах поведенческой науки и на разных популяциях. Исследование оценивает четыре ключевые способности — предсказание поведения, стратегическое принятие решений, вывод черт субъекта и применение поведенческих знаний — как на индивидуальном, так и на распределительном уровнях.

arxiv arXiv cs.LG · 5 ч назад

Панинианская основа для обработки индийских языков

В статье утверждается, что инфраструктура обработки естественного языка для более чем миллиарда носителей индийских языков фрагментирована из-за отсутствия общих структурных основ. Предлагается использовать морфосинтаксическую архитектуру, формализованную в Аштадхьяи Панини, в качестве объединяющей вычислительной основы для повышения точности и эффективности использования данных.

arxiv arXiv cs.LG · 5 ч назад

Легковесные модели трансформеров для обнаружения неисправностей на устройстве: исследование бенчмарка для развертывания в условиях ограниченных ресурсов

В данном исследовании проводится бенчмарк традиционных методов машинного обучения против легковесных архитектур трансформеров для бинарного обнаружения неисправностей на трех публичных наборах данных, оцениваются компромиссы между точностью, размером модели и задержкой. Исследование оценивает классификационную производительность с использованием F1-меры и AUC, а также тестирует динамическое квантование INT8 и двухэтапный адаптивный конвейер вывода для оптимизации развертывания на оборудовании с ограниченными ресурсами.

arxiv arXiv cs.LG · 5 ч назад

Проект Ariadne: Генерация маршрутов с учётом промпта для планирования синтеза

Исследователи представляют Ariadne, модель только на декодере, которая переосмысливает ретросинтетическое планирование как генерацию последовательностей, обусловленную промптом, позволяя представлять целевые молекулы, ограничения и маршруты в одной последовательности. Этот подход устраняет необходимость в отдельных моделях, адаптированных под конкретные спецификации планирования.

arxiv arXiv cs.LG · 5 ч назад

Автоматизированная оценка остаточных графиков с помощью пакета autovi для R и приложения autovi.web на Shiny

В статье представлен пакет R и приложение Shiny, предназначенные для автоматизации визуальной оценки остаточных графиков линейных моделей, что решает проблемы масштабируемости и согласованности, присущие ручной оценке.

media r/LocalLLaMA · 5 ч назад

Пользователь Reddit критикует заявления Дарио Амодеи об открытом ИИ

Пользователь Reddit утверждает, что генеральный директор Anthropic Дарио Амодеи фундаментально не понимает, как работают модели открытого ИИ, опровергая его недавние показания в Конгрессе от 28 июня 2026 года. Автор настаивает на том, что утверждения Амодеи относительно прозрачности и доступности являются фактологически неверными с учетом текущего состояния моделей с открытыми весами.

lab Claude Code Releases · 5 ч назад

Список изменений Claude Code v2.1.196

Версия Claude Code 2.1.196 вводит модели по умолчанию для организаций, кликабельные вложения файлов и улучшенную безопасность для утверждений MCP-серверов. Обновление также повышает надежность фоновых сессий, устраняет различные проблемы с отчетностью о статусе агентов и оптимизирует использование токенов в рабочих процессах проверки кода.

arxiv arXiv cs.LG · 6 ч назад

MotifGen: Пространственно-временная интерполяция несовместимых спутниковых изображений с помощью многоисточникового генеративного моделирования

Исследователи представляют MotifGen, генеративную модель, предназначенную для пространственно-временной интерполяции микроволновых изображений тропических циклонов из нескольких геопространственных источников с нерегулярными временными интервалами и географическим смещением. Модель решает проблему высокой гетерогенности микроволновых данных, объединяя входные данные от различных инструментов для заполнения пробелов, вызванных длительным временем повторного обзора спутниками.

arxiv arXiv cs.LG · 6 ч назад

Глубокие численные схемы для систем эргодических БСДУ с приложениями к моделям утилитити с переключением режимов

В данной статье представлены две численные схемы на основе нейронных сетей для решения систем связанных эргодических обратных стохастических дифференциальных уравнений (эБСДУ), мотивированные аппроксимацией оптимальных стратегий в моделях стохастических факторов с переключением режимов.

arxiv arXiv cs.LG · 6 ч назад

PROTECT-90: Набор данных с ошибками для защиты энергосистем

В данной статье представлен набор данных PROTECT-90, открытый эталонный бенчмарк, смоделированный в среде электромагнитных переходных процессов (EMT), предназначенный для решения проблемы отсутствия стандартизированных общедоступных наборов данных с высоковольтными волнами для защиты энергосистем. Публикация направлена на обеспечение прозрачной и воспроизводимой оценки методов, основанных на данных, посредством согласованных измерений, аналогичных тем, что фиксируются цифровыми регистраторами аварийных режимов.

arxiv arXiv cs.LG · 6 ч назад

Управление выполнением задач для неизвестных рабочих нагрузок в энергоавтономных IoT-устройствах: аппаратно-независимая оценка

В данном исследовании предлагаются две аппаратно-независимые стратегии динамического планирования: агент обучения с подкреплением без модели и метод приближенного прогнозирования на лету для управления нестабильной энергией в энергоавтономных IoT-системах без предварительных профилей задач. Оценка по сравнению с адаптивными и статическими базовыми методами с использованием пользовательской симуляционной платформы выявила различные операционные компромиссы для разных системных ограничений.

arxiv arXiv cs.LG · 6 ч назад

Сегментация BEV с открытым словарем на основе 3D-геометрических ограничений

Авторы представляют OVBEVSeg, фреймворк для сегментации вида сверху (BEV) с открытым словарем, который использует модели «зрение-язык» для распознавания категорий за пределами обучающего набора, сохраняя при этом эффективность в реальном времени. Чтобы устранить 3D-геометрическую несогласованность, присущую подъему 2D-семантики в BEV, метод применяет надежные 3D-геометрические ограничения на трех прогрессивных этапах.

arxiv arXiv cs.LG · 6 ч назад

PHANTOM: крупномасштабный набор данных мультимодальных состязательных атак для моделей зрения и языка

Авторы представляют PHANTOM, крупномасштабный открытый набор данных, содержащий 47 524 предварительно сгенерированных состязательных атак, предназначенных для оценки безопасности и устойчивости моделей зрения и языка (VLM). Этот ресурс объединяет существующие бенчмарки и расширяет их новыми категориями, предоставляя разнообразные и практические данные для оценки исследовательскому сообществу.