Все статьи
arxiv arXiv cs.CL · 3 ч назад

Детерминированные решения для критически важных задач ИИ

В статье «предвзятость вмешательства» (intervention bias) определяется как критическая ошибка в работе образовательных консультантов на основе больших языковых моделей (LLM) в режиме zero-shot, при которой они ошибочно рекомендуют действие, несмотря на то, что оптимальные политики требуют бездействия. Используя набор данных Open University Learning Analytics Dataset, исследование показывает, что GPT-4o в режиме zero-shot демонстрирует уровень ложноположительных срабатываний на 43 процентных пункта к 56-му дню, что приводит примерно к 4 300 ненужным контактам с консультантом за цикл для 10 000 студентов.

arxiv arXiv cs.LG · 4 ч назад

Когда Top-1 не работает: калибровка мониторов LoRA для диффузионных языковых моделей с маскировкой

В данном исследовании оценивается эффективность концентрации argmax на позиции top-1 как предупреждения о коллапсе во время дообучения дискретных диффузионных языковых моделей (DLM) с использованием Low-Rank Adaptation (LoRA). Авторы обнаруживают, что этот показатель имеет нулевую точность, поскольку насыщается до начала оптимизации и не способен выявлять фактические коллапсы обучения.

arxiv arXiv cs.LG · 4 ч назад

Целостный планировщик данных для предобучения LLM с помощью многокритериального обучения с подкреплением

Исследователи представляют Целостный планировщик данных (HDS), новую онлайн-рамку смешивания данных, которая устраняет ограничения существующих методов за счёт учёта динамического состава данных по нескольким измерениям. HDS формулирует планирование данных как задачу обучения с подкреплением, используя алгоритм Soft Actor-Critic и многокритериальную функцию вознаграждения.

arxiv arXiv cs.LG · 4 ч назад

Сэмплер TR-CIE для дискретного согласования потоков

Исследователи предлагают сэмплер экстраполяции кумулятивной интенсивности с временной репараметризацией (TR-CIE) для улучшения качества выборки при дискретном согласовании потоков в условиях ограниченного числа вычислений функции. Метод сочетает репараметризацию времени на основе расписания с правилом обновления через экстраполяцию кумулятивной интенсивности, чтобы смягчить жёсткость и повысить точность аппроксимации.

arxiv arXiv cs.LG · 4 ч назад

AsyncOPD: Насколько устаревшими могут быть отклики в дистилляции on-policy?

В данной статье представлен AsyncOPD — полностью асинхронный конвейер дистилляции on-policy, который разделяет генерацию откликов и обновления обучаемой модели, чтобы устранить узкие места в обучении при постобучении больших языковых моделей. Авторы проводят первое систематическое исследование влияния устаревания данных в этом контексте, демонстрируя, что прямое расхождение Кульбака-Лейблера с весами учителя устойчиво к устаревшим откликам, тогда как обратное расхождение с весами ученика уязвимо.

media r/LocalLLaMA · 4 ч назад

Модель изображений Krea-2-Turbo — легко становится полностью нецензурной, но также может РЕДАКТИРОВАТЬ изображения!

Модель Krea-2-Turbo генерирует высококачественные изображения примерно за три секунды и поддерживает редактирование изображений с помощью маскирования, несмотря на то, что является архитектурой text-to-image.

blog Simon Willison · 4 ч назад

Извлекатель HTML-таблиц

Извлекатель HTML-таблиц — это инструмент преобразования по вставке, который принимает богатый текст, содержащий встроенные HTML-таблицы, и конвертирует их в различные форматы. Он поддерживает вывод обнаруженных таблиц в форматах HTML, Markdown, CSV, TSV или JSON.

media Hugging Face Forums · 4 ч назад

Опубликовано двуязычное руководство по механике трансформеров с открытым исходным кодом

Опубликовано двуязычное (на английском и испанском языках) руководство с открытым исходным кодом, подробно описывающее внутреннее устройство трансформеров. Ресурс охватывает точную математику и механику, лежащие в основе коллапса внимания и сжатия KV-кэша.

media Hugging Face Forums · 4 ч назад

[Исследование] От функциональной геометрии к динамической грамматике: новые аудиты LIMEN (V23–V24) для 7 архитектур

Независимый исследовательский проект LIMEN анализирует внутреннюю динамику семи моделей Transformer с открытым исходным кодом, выявляя, что семантическая неоднозначность изменяет геометрию траектории и обнаруживая универсальную динамическую грамматику во всех архитектурах.

lab Microsoft Research Blog · 4 ч назад

Memora: Гармоничное представление памяти, балансирующее между абстракцией и спецификой

Microsoft Research представляет Memora, масштабируемую агентную систему памяти, предназначенную для баланса между абстракцией и спецификой в задачах ИИ с длительным горизонтом. Система разделяет богатое содержание памяти и легкие структуры поиска, устанавливая новые рекорды на бенчмарках при использовании до 98% меньше контекстных токенов.

arxiv arXiv cs.LG · 5 ч назад

Автономная генерация видео с контрфактической управляемостью для самоэволюционирующих моделей мира

В статье утверждается, что современные модели генерации видео изучают лишь частичные, неявные пространственно-временные модели мира, а не полностью обоснованные или управляемые. Утверждается, что одного предиктивного реализма недостаточно для создания физических агентов, поскольку такие модели часто не способны идентифицировать управляемые переменные и ограничения воплощения.

arxiv arXiv cs.LG · 5 ч назад

BehaviorBench: Оценка базовых моделей для задач поведенческой науки

Авторы представляют BehaviorBench, комплексный бенчмарк, предназначенный для оценки базовых моделей в различных задачах поведенческой науки и на разных популяциях. Исследование оценивает четыре ключевые способности — предсказание поведения, стратегическое принятие решений, вывод черт субъекта и применение поведенческих знаний — как на индивидуальном, так и на распределительном уровнях.

arxiv arXiv cs.LG · 5 ч назад

Панинианская основа для обработки индийских языков

В статье утверждается, что инфраструктура обработки естественного языка для более чем миллиарда носителей индийских языков фрагментирована из-за отсутствия общих структурных основ. Предлагается использовать морфосинтаксическую архитектуру, формализованную в Аштадхьяи Панини, в качестве объединяющей вычислительной основы для повышения точности и эффективности использования данных.

arxiv arXiv cs.LG · 5 ч назад

Легковесные модели трансформеров для обнаружения неисправностей на устройстве: исследование бенчмарка для развертывания в условиях ограниченных ресурсов

В данном исследовании проводится бенчмарк традиционных методов машинного обучения против легковесных архитектур трансформеров для бинарного обнаружения неисправностей на трех публичных наборах данных, оцениваются компромиссы между точностью, размером модели и задержкой. Исследование оценивает классификационную производительность с использованием F1-меры и AUC, а также тестирует динамическое квантование INT8 и двухэтапный адаптивный конвейер вывода для оптимизации развертывания на оборудовании с ограниченными ресурсами.

arxiv arXiv cs.LG · 5 ч назад

Проект Ariadne: Генерация маршрутов с учётом промпта для планирования синтеза

Исследователи представляют Ariadne, модель только на декодере, которая переосмысливает ретросинтетическое планирование как генерацию последовательностей, обусловленную промптом, позволяя представлять целевые молекулы, ограничения и маршруты в одной последовательности. Этот подход устраняет необходимость в отдельных моделях, адаптированных под конкретные спецификации планирования.

arxiv arXiv cs.LG · 5 ч назад

Автоматизированная оценка остаточных графиков с помощью пакета autovi для R и приложения autovi.web на Shiny

В статье представлен пакет R и приложение Shiny, предназначенные для автоматизации визуальной оценки остаточных графиков линейных моделей, что решает проблемы масштабируемости и согласованности, присущие ручной оценке.

media r/LocalLLaMA · 5 ч назад

Пользователь Reddit критикует заявления Дарио Амодеи об открытом ИИ

Пользователь Reddit утверждает, что генеральный директор Anthropic Дарио Амодеи фундаментально не понимает, как работают модели открытого ИИ, опровергая его недавние показания в Конгрессе от 28 июня 2026 года. Автор настаивает на том, что утверждения Амодеи относительно прозрачности и доступности являются фактологически неверными с учетом текущего состояния моделей с открытыми весами.