Все статьи
arxiv arXiv cs.CL · 6 ч назад

OCR-VLMs читают Деванагари? Бэнчмарк и исследование пост-коррекции

Исследование оценивает десять систем OCR на текстах на языке Деванагари, показывая, что специализированные модели OCR с зрительным языковым анализом хрупки при деградации изображений, а высокая точность на английском не предсказывает точность для индийских скриптов.

arxiv arXiv cs.CL · 6 ч назад

Многоблочные диффузионные языковые модели

Исследователи предлагают многоблочные диффузионные языковые модели (MBD-LMs) для расширения одноблочной генерации текста на основе диффузии за счёт одновременного декодирования набора последовательных блоков для параллелизма между блоками. Подход устраняет разрыв между состояниями обучения и вывода с помощью метода постобучения под названием многоблочное принудительное обучение учителем (MultiTF).

arxiv arXiv cs.CL · 7 ч назад

PolicyGuard: Верификатор подагента на основе диалога для соблюдения политик в агентах LLM

Исследователи представляют PolicyGuard, верификатор подагента, предназначенный для улучшения соблюдения политик в агентах LLM за счет рассуждений над полным контекстом диалога, а не полагаясь на внешние проверки отдельных аргументов. Этот подход устраняет ограничения предыдущих методов защиты, которые часто недооценивают необходимость исправлений, специфичных для разговора, и явного подтверждения пользователем.

arxiv arXiv cs.CL · 7 ч назад

Понимание иллюзии оценки в диффузионных больших языковых моделях

Исследование показывает, что оценка диффузионных больших языковых моделей (dLLM) крайне чувствительна к шаблонам промптов, создавая иллюзию того, что параллельное декодирование повышает эффективность без потери качества.

arxiv arXiv cs.CL · 7 ч назад

Модель больших языковых моделей для рассуждений, ориентированная на путешествия, через предметно-специфичные графы знаний

Исследователи предлагают модульный конвейер для создания модели больших языковых моделей для рассуждений в области путешествий, основанной на экспертно разработанном графе знаний, чтобы решить проблемы точности и надежности в специализированных областях. Подход интегрирует граф знаний о путешествиях, процедуру построения снизу вверх для пар вопросов-ответов с несколькими шагами и контролируемое тонкое подгоняние (supervised fine-tuning) для внедрения предметных знаний в виде проверяемых цепочек рассуждений.

arxiv arXiv cs.CL · 7 ч назад

MIThinker: подключаемый оптимизированный по политике мыслительный модуль для консультирования в мотивационном интервьюировании

Исследователи предлагают MIThinker, легковесную модель мышления, которая генерирует терапевтические мысли для руководства агентами консультирования в мотивационном интервьюировании при выборе стратегии и генерации ответов. Чтобы решить проблему отсутствия аннотированных данных о мыслях, они представляют AugR1-MI — автоматизированный пайплайн, который обращает вспять процесс получения мыслей консультанта из наблюдаемых ответов.

arxiv arXiv cs.CL · 7 ч назад

Гибридная система аннотирования текстов песен на основе согласования с человеком и LLM

В данной статье рассматриваются проблемы распознавания эмоций в текстах песен, которые часто расходятся с общим настроением песни, путем предложения гибридной системы аннотирования, оптимизирующей согласование между людьми и большими языковыми моделями (LLM). Авторы представляют новый датасет на уровне предложений для изучения этого согласования и подчеркивают присущую задаче субъективность.

arxiv arXiv cs.CL · 7 ч назад

Бенчмарк Complexity Ceiling Benchmark: многодоменная оценка последовательного рассуждения при масштабировании глубины

Бенчмарк Complexity Ceiling Benchmark (CCB) оценивает, как способность языковых моделей к рассуждению снижается по мере увеличения количества необходимых последовательных шагов, фиксируя семантическое содержание и варьируя глубину задачи от 5 до 50. Исследование выявило постоянный геометрический спад на каждый шаг в трех различных режимах: отслеживание пространственного состояния с привязкой к контексту, манипуляция абстрактными символьными указателями и транзитивное реляционное выведение.

arxiv arXiv cs.CL · 7 ч назад

Созданная уверенность: как консолидация памяти превращает слухи в уверенные факты

Исследования показывают, что системы памяти агентов LLM переписывают неформальные или осторожные высказывания в уверенные утверждения с указанием даты, которые агенты впоследствии воспринимают как проверенные факты. Этот процесс позволяет непроверенной информации обходить проверки безопасности без участия активного злоумышленника, поскольку агент реагирует на уверенность формулировки, а не на атрибуцию источника.

arxiv arXiv cs.CL · 7 ч назад

Детерминированные решения для критически важных задач ИИ

В статье «предвзятость вмешательства» (intervention bias) определяется как критическая ошибка в работе образовательных консультантов на основе больших языковых моделей (LLM) в режиме zero-shot, при которой они ошибочно рекомендуют действие, несмотря на то, что оптимальные политики требуют бездействия. Используя набор данных Open University Learning Analytics Dataset, исследование показывает, что GPT-4o в режиме zero-shot демонстрирует уровень ложноположительных срабатываний на 43 процентных пункта к 56-му дню, что приводит примерно к 4 300 ненужным контактам с консультантом за цикл для 10 000 студентов.

arxiv arXiv cs.LG · 8 ч назад

Когда Top-1 не работает: калибровка мониторов LoRA для диффузионных языковых моделей с маскировкой

В данном исследовании оценивается эффективность концентрации argmax на позиции top-1 как предупреждения о коллапсе во время дообучения дискретных диффузионных языковых моделей (DLM) с использованием Low-Rank Adaptation (LoRA). Авторы обнаруживают, что этот показатель имеет нулевую точность, поскольку насыщается до начала оптимизации и не способен выявлять фактические коллапсы обучения.

arxiv arXiv cs.LG · 8 ч назад

Целостный планировщик данных для предобучения LLM с помощью многокритериального обучения с подкреплением

Исследователи представляют Целостный планировщик данных (HDS), новую онлайн-рамку смешивания данных, которая устраняет ограничения существующих методов за счёт учёта динамического состава данных по нескольким измерениям. HDS формулирует планирование данных как задачу обучения с подкреплением, используя алгоритм Soft Actor-Critic и многокритериальную функцию вознаграждения.

arxiv arXiv cs.LG · 8 ч назад

Сэмплер TR-CIE для дискретного согласования потоков

Исследователи предлагают сэмплер экстраполяции кумулятивной интенсивности с временной репараметризацией (TR-CIE) для улучшения качества выборки при дискретном согласовании потоков в условиях ограниченного числа вычислений функции. Метод сочетает репараметризацию времени на основе расписания с правилом обновления через экстраполяцию кумулятивной интенсивности, чтобы смягчить жёсткость и повысить точность аппроксимации.

arxiv arXiv cs.LG · 8 ч назад

AsyncOPD: Насколько устаревшими могут быть отклики в дистилляции on-policy?

В данной статье представлен AsyncOPD — полностью асинхронный конвейер дистилляции on-policy, который разделяет генерацию откликов и обновления обучаемой модели, чтобы устранить узкие места в обучении при постобучении больших языковых моделей. Авторы проводят первое систематическое исследование влияния устаревания данных в этом контексте, демонстрируя, что прямое расхождение Кульбака-Лейблера с весами учителя устойчиво к устаревшим откликам, тогда как обратное расхождение с весами ученика уязвимо.

media r/LocalLLaMA · 8 ч назад

Модель изображений Krea-2-Turbo — легко становится полностью нецензурной, но также может РЕДАКТИРОВАТЬ изображения!

Модель Krea-2-Turbo генерирует высококачественные изображения примерно за три секунды и поддерживает редактирование изображений с помощью маскирования, несмотря на то, что является архитектурой text-to-image.

blog Simon Willison · 8 ч назад

Извлекатель HTML-таблиц

Извлекатель HTML-таблиц — это инструмент преобразования по вставке, который принимает богатый текст, содержащий встроенные HTML-таблицы, и конвертирует их в различные форматы. Он поддерживает вывод обнаруженных таблиц в форматах HTML, Markdown, CSV, TSV или JSON.

media Hugging Face Forums · 8 ч назад

Опубликовано двуязычное руководство по механике трансформеров с открытым исходным кодом

Опубликовано двуязычное (на английском и испанском языках) руководство с открытым исходным кодом, подробно описывающее внутреннее устройство трансформеров. Ресурс охватывает точную математику и механику, лежащие в основе коллапса внимания и сжатия KV-кэша.

media Hugging Face Forums · 8 ч назад

[Исследование] От функциональной геометрии к динамической грамматике: новые аудиты LIMEN (V23–V24) для 7 архитектур

Независимый исследовательский проект LIMEN анализирует внутреннюю динамику семи моделей Transformer с открытым исходным кодом, выявляя, что семантическая неоднозначность изменяет геометрию траектории и обнаруживая универсальную динамическую грамматику во всех архитектурах.