Все статьи
arxiv arXiv cs.CL · 3 ч назад

BiPACE: Оптимизация политики с учётом бисимуляции и контрфактическая оценка действий для агентов на основе больших языковых моделей

Авторы выявляют фундаментальное несоответствие в распределении заслуг между состоянием и действием при пошаговом групповом обучении с подкреплением (RL) для длинногоризонтных агентов на основе больших языковых моделей (LLM). Существующие оценщики страдают от чрезмерно детального разбиения по состояниям и грубого усреднения по действиям, что нарушает допущения эквивалентности при распределении заслуг. Предлагается BiPACE — встроенный оценщик преимущества, устраняющий эти проблемы без добавления критиков или дополнительных проходов (rollouts). Он группирует шаги на основе косинусного расстояния в геометрии скрытых состояний актора, чтобы уменьшить количество одиночных групп, и центрирует награды с использованием базовых линий, зависящих от действия. В задаче ALFWorld с моделью Qwen2.5-7B BiPACE_Q повышает успешность на валидации с 90,8 до 97,1±0,9, преодолевая порог в 95% при каждом начальном зерне (seed). Он также улучшает результаты для Qwen2.5-1.5B и демонстрирует прирост производительности на WebShop и TextCraft по сравнению с GRPO и GiGPO. Метод добавляет лишь 11,3% накладных расходов к времени выполнения одного шага обучения, изменяя единицу сравнения на приближённое поведенческое эквивалентность.

arxiv arXiv cs.CL · 3 ч назад

Riazi-8B: большая языковая модель для математического рассуждения на урду

Недавние большие языковые модели демонстрируют сильные способности к математическому рассуждению, однако эти достижения в значительной степени опираются на англоцентричные ресурсы, оставляя такие языки с низким уровнем ресурсов, как урду, с ограниченными возможностями. Чтобы восполнить этот пробел, исследователи разработали Riazi-8B — модель на урду, специально предназначенную для решения многошаговых математических задач. Модель была создана посредством двухэтапного процесса адаптации, включающего продолжение предобучения на урду-версии Википедии и контролируемое тонкое дообучение (supervised fine-tuning) на данных цепочки рассуждений (Chain-of-Thought) на урду, полученных из GSM8K. Оценка Riazi-8B проводилась на бенчмарке MGSM-Urdu по сравнению с существующими моделями, тонко настроенными для инструкций на урду. Результаты показали последовательные улучшения в правильности ответов, качестве рассуждений, полноте ответов и генерации текста на урду по сравнению с базовыми моделями. Эти выводы демонстрируют, что сочетание адаптации языка урду с тонким дообучением, ориентированным на рассуждения, эффективно расширяет возможности математического рассуждения для языков с низким уровнем ресурсов.

arxiv arXiv cs.CL · 3 ч назад

Налог на ограничения в LLM с открытым весом: подавление вызова инструментов при структурных ограничениях вывода

В данном исследовании выявлен феномен, называемый подавлением вызова инструментов (Tool Suppression), при котором языковые модели с открытым весом перестают вызывать инструменты, когда одновременно включены ограничения JSON Schema. Авторы наблюдали это поведение в производственной системе агентов и воспроизвели его посредством контролируемых экспериментов на нескольких семействах моделей. Хотя выполнение инструментов и соответствие схеме корректно функционируют при независимой оценке, они дают сбой при совместном развертывании. Анализ показывает, что ограничения JSON Schema компилируются в грамматические маски токенов, делая токены вызова инструментов недостижимыми во время декодирования. Для интерпретации этих результатов статья выдвигает гипотезу о инверсии приоритета ограничений (Constraint Priority Inversion), предполагающую, что удовлетворение схеме доминирует над выбором действия при одновременных ограничениях. Авторы смягчают эту проблему, внедряя стратегию выполнения на этапе вывода под названием Transparent Two-Pass Execution, которая разделяет выполнение инструментов и генерацию ответа. Этот подход восстанавливает вызов инструментов, сохраняя гарантии структурированного вывода без необходимости переобучения модели. Исследование подчеркивает, что оценка возможностей по отдельности может упускать из виду критические проблемы надежности в производственных системах.

arxiv arXiv cs.CL · 3 ч назад

REVERIEMEM: Ограниченная перспективой память для ролевых агентов на основе книг

Недавние системы ролевой игры на базе больших языковых моделей часто терпят неудачу в контекстах длинных нарративов из-за фактических переобобщений и стилистической монотонности. Фактические переобобщения возникают, когда персонажи получают доступ к информации за пределами своей нарративной перспективы, а стилевая монотонность сглаживает голоса персонажей посредством статических описаний профилей. Для решения этих проблем авторы предлагают REVERIEMEM — трехуровневую архитектуру памяти, разработанную для книжных персональных агентов. Эта система использует эпизодический слой для воспоминаний о сценах от первого лица, семантический слой для фактов с тегами видимости и слой личности для поведенческих паттернов, зависящих от ситуации. Исследователи также представляют KBF-QA — бенчмарк, состоящий из 4386 вопросов по восьми романам, предназначенный для проверки границ знаний. Экспериментальные результаты показывают, что REVERIEMEM улучшает показатель верности границам знаний (Knowledge Boundary Fidelity) на 34,6 процентных пункта по сравнению с предыдущими методами. Кроме того, модель достигает примерно 79% доли побед в пятимерном парном нарративном протоколе BOOKWORLD. Эти выводы свидетельствуют о том, что память, ограниченная перспективой, эффективно повышает как фактическую точность, так и генерацию нарративов, привязанных к персонажу.

arxiv arXiv cs.CL · 3 ч назад

MedGuards: Многоагентная система для надежного обнаружения и исправления медицинских ошибок

Авторы предлагают MedGuards, фреймворк защитных механизмов безопасности в медицине, предназначенный для обнаружения и исправления ошибок в тексте, сгенерированном большими языковыми моделями. Эта система рассматривает обработку ошибок как задачу контекстного обучения с несколькими агентами, где специализированные агенты по отдельности выполняют обнаружение, локализацию и исправление. Механизм арбитража, управляемый уверенностью, разрешает разногласия между агентами с использованием цепочек рассуждений и оценок уверенности без необходимости дополнительного обучения модели. В исследовании вводится новый показатель — Keyword-Prioritized Correction Score (KPCS), который оценивает точность критически важных ключевых слов в эталонном тексте. Эксперименты, проведенные на четырех многоязычных медицинских наборах данных клинических заметок, демонстрируют значительное улучшение показателей производительности. Эти результаты подчеркивают улучшенную интерпретируемость, устойчивость и адаптивность для более безопасного развертывания больших языковых моделей в здравоохранении. Код для бенчмарка MedErrBench общедоступен на GitHub.

github llama.cpp · 3 ч назад

Выпуск llama.cpp b9786 добавляет поддержку неконгруэнтных строк через OpenCL

Проект llama.cpp выпустил версию b9786, добавившую поддержку неконгруэнтных строк в нормализации через OpenCL. Это обновление является частью текущей разработки команды ggml-org по улучшению аппаратной совместимости и производительности на различных платформах. В релизе предоставлены бинарные файлы для macOS Apple Silicon, Intel Mac и iOS XCFrameworks. Пользователи Linux могут получить сборки для архитектур Ubuntu x64, arm64 и s390x с использованием CPU, Vulkan, ROCm 7.2, OpenVINO и SYCL-бэкендов. Поддержка Android доступна для устройств на базе CPU arm64, а Windows предлагает обширный выбор вариантов, включая CPU, CUDA 12 и 13, Vulkan, OpenVINO, SYCL и HIP. В релизе также перечислены отключенные сборки для KleidiAI на платформах macOS и openEuler.

arxiv arXiv cs.CL · 4 ч назад

Фреймворк оценивает, когда необходимы GraphRAG и агентный RAG

Авторы представляют фреймворк для оценки и сравнения обычного, GraphRAG, модульного и агентного Retrieval-Augmented Generation (RAG) на полуструктурированных базах знаний. Они реализуют девять стандартизированных сценариев, охватывающих простой поиск документов до сложной гибридной интеграции текста и графа, а также агентное многошаговое планирование. Представлен новый метод контекстной инженерии для решения проблем переполнения памяти в продвинутых вариантах RAG за счет новых представлений и дизайна агентного цикла. Эта оптимизация обеспечивает снижение использования токенов на 19–53% при эффективном управлении извлечением информации. Дальнейший анализ выявляет разрыв между извлечением и генерацией, при котором расширенное извлечение не приводит к пропорциональному улучшению качества генерации. Исследование предполагает, что текущие метрики, ориентированные на извлечение, могут преувеличивать преимущества продвинутых техник извлечения информации. Эти основанные на данных инсайты призваны направлять разработку готовых к производству интеллектуальных систем RAG.

arxiv arXiv cs.CL · 4 ч назад

BITEMBED: Экстремально низкоразрядная архитектура для текстовых эмбеддингов на основе LLM

В статье представлен BITEMBED — экстремально низкоразрядная архитектура, предназначенная для решения проблемы высоких затрат на развертывание текстовых эмбеддеров на основе больших языковых моделей (LLM) за счет оптимизации как эффективности кодирования, так и хранения векторов. Метод преобразует предварительно обученные базовые архитектуры LLM в энкодеры типа BitNet с тернарными весами, квантованными активациями и легковесной настройкой нормализации. Для адаптации этих моделей к задачам обучения представлений BITEMBED использует непрерывное контрастивное предобучение, за которым следует контролируемое контрастивное дообучение. Этот процесс дообучения применяет дистилляцию распределения сходства и дистилляцию отношений внимания от полноточной учительской модели. Помимо квантования базовой архитектуры, архитектура обучает выходные эмбеддинги поддерживать несколько точностей хранения, что позволяет гибко балансировать между производительностью и затратами на хранение. Эксперименты на бенчмарке MMTEB с использованием Qwen3-0.6B и Gemma3-270M демонстрируют, что BITEMBED по своим характеристикам в значительной степени сопоставим с полноточными учительскими эмбеддерами.

arxiv arXiv cs.CL · 4 ч назад

TRACE: Легковесное обнаружение отравления корпуса в RAG с помощью атрибуции влияния токенов

Системы генерации с дополнением извлечения (RAG) сталкиваются со значительными рисками, связанными с атаками отравления корпуса, которые манипулируют выводами через вредоносные документы. Существующие методы обнаружения часто требуют вспомогательных классификаторов или дополнительной проверки с помощью больших языковых моделей (LLM), что создает существенные вычислительные накладные расходы. Чтобы решить эту проблему, исследователи представили TRACE — легковесную систему, которая выявляет отравление путем отслеживания токенов, связанных с ответом, через атрибуцию влияния. Система сначала обнаруживает повторяющиеся ключевые слова с высоким влиянием среди извлеченных документов, чтобы обозначить потенциальные угрозы. Затем она выполняет вторичную верификацию для подтверждения конкретного влияния этих токенов на предсказания модели. Эксперименты, проведенные на трех наборах данных для оценки качества ответов (QA) и шести больших языковых моделях, демонстрируют высокую эффективность обнаружения системы TRACE. Кроме того, TRACE успешно выявляет целевые ответы, указанные атакующим, в процессе верификации.

arxiv arXiv cs.CL · 4 ч назад

RAS: Измерение безопасности LLM через согласование с отказом

Авторы предлагают SafeVec, процедуру оценки белого ящика, которая измеряет безопасность больших языковых моделей (LLM) по внутренним репрезентациям, а не по сгенерированным выводам. Этот метод извлекает послойные направления отказа от модели-эталона, выровненной по безопасности, чтобы выявить стабильные слои, в которых безопасное и небезопасное поведение разделяемо. Затем целевые модели оцениваются путем проверки того, совпадают ли их скрытые состояния с этими направлениями отказа при использовании небезопасных запросов. Полученная метрика RAS (Refusal Alignment Score) отображает это согласование на калиброванный показатель безопасности от 0 до 100. Эксперименты в семействах Llama, Gemma и Qwen показывают, что RAS эффективно разделяет выровненные модели и их версии без цензуры. Кроме того, метрика отслеживает уровень успешности атак на уровне вывода, будучи существенно быстрее оценок, основанных на судьях (judge-based evaluations). Эти результаты указывают на то, что согласование с отказом предоставляет компактный и эффективный сигнал для оценки безопасности белого ящика.

arxiv arXiv cs.CL · 4 ч назад

OPERA: Согласование открытого рассуждения посредством объективного обучения с подкреплением на основе перплексии

Фреймворк OPERA решает проблему нестабильности применения обучения с подкреплением к задачам с открытым ответом, заменяя внешние модели-судьи внутренними наградами, полученными из динамики перплексии. Этот подход количественно оценивает снижение неопределенности в критических состояниях рефлексии, устраняя стилистические смещения и позиционные несоответствия, характерные для систем LLM-as-a-judge. На этапе холодного старта метод использует направляющие слова для синтеза разнообразных цепочек рассуждений и применяет роллауты с приоритетом по перплексии для выявления логически согласованных ветвей. Этот конвейер генерирует крупномасштабный набор данных из 20 000 высококачественных траекторий рассуждения для обучения. Внедрение OPERA на модель Qwen3-8B устанавливает новый уровень state-of-the-art среди моделей с открытым исходным кодом. Система достигает паритета или превосходит проприетарные модели, такие как Gemini2.5 и MiniMax-M2.5, в конкретных задачах с открытым ответом. Эмпирические оценки подтверждают масштабируемость и эффективность данной стратегии согласования на основе объективной перплексии.

arxiv arXiv cs.CL · 4 ч назад

Хватает ли только энкодеров? Систематическое сравнение судей безопасности на основе энкодеров и декодеров для adversarial-оценки больших языковых моделей

В данном исследовании оценивается, могут ли дообученные классификаторы ModernBERT в качестве энкодеров служить экономически эффективной альтернативой судьям на основе больших языковых моделей (LLM) для оценки безопасности. Исследователи провели бенчмаркинг ModernBERT и Ettin по сравнению с правиловым префиксным сопоставлением, дообученными классификаторами LLM и различными методологиями использования LLM в качестве судей. Эти LLM-судьи включали стратегии из StrongReject, ShieldGemma, JailbreakBench, AILuminate, SorryBench, Claude-as-a-judge, а также модели, такие как LlamaGuard 3 и 4. Классификаторы на основе энкодеров были обучены на данных с метками, полученными от судей, с использованием стратегии мажоритарного голосования для формирования меток, и протестированы на золотом стандарте (выделенной тестовой выборке). Производительность измерялась с помощью F1-меры, доли ложноотрицательных результатов и метрик точности и полноты по наборам данных adversarial-атак с открытым исходным кодом. Результаты дополнительно проанализированы по типу атаки, включая однократное формирование запроса (single-turn prompting), декомпозицию, эскалацию и манипуляцию контекстом. Полученные выводы дают рекомендации относительно того, когда классификаторы на основе энкодеров могут надежно заменять судей на основе LLM без существенной потери производительности.

media Hugging Face Forums · 4 ч назад

Niodoo: локальный рантайм для управления скрытым состоянием замороженных LLM

Джейсон Ван Фам выпустил Niodoo, локальный рантайм, предназначенный для управления замороженными большими языковыми моделями через их скрытые состояния. Проект направлен на исправление ошибок последнего шага путем внедрения шума или «физических сил» во время вывода данных, чтобы разорвать циклы токенов. Этот подход позволяет меньшим моделям улучшать производительность без тонкой настройки, ориентирован на конкретные случаи сбоев, такие как бенчмарк Llama strawberry prompt. Система генерирует собственные теги телеметрии и использует анализ TDA для мониторинга внутренних состояний модели на предмет циклического поведения. Ван Фам разработал этот инструмент органически в ходе месяцев самостоятельных исследований и тестирования на проникновение (red-teaming), делая акцент на воспроизводимых результатах с зафиксированными хешами. Код доступен на GitHub в репозитории Ruffian-L/niodoo-hidden-state-steering.

media Hugging Face Forums · 4 ч назад

Пользователи сообщают о недоступности инструментов и MCP-сервера для Step 3.7 Flash в HuggingChat

Пользователь на форумах Hugging Face сообщил, что модель Step 3.7 Flash утратила возможность использовать инструменты и подключаться к MCP-серверам, начиная с того утра. Автор поста выразил высокую удовлетворённость производительностью модели, отметив её высокое качество в соотношении с низким потреблением ресурсов и стоимостью. Он подчеркнул желание продолжать использовать именно эту модель, а не переключаться на альтернативы, из-за её эффективности. Пользователь прямо спросил, является ли эта потеря функциональности постоянной и можно ли предпринять какие-либо шаги для восстановления доступа. Пост отражает обеспокоенность сообщества внезапным нарушением работы инструментов для популярной и экономичной модели.

media Hugging Face Forums · 4 ч назад

Вопрос о формате промпта для обучения Unsloth/Phi-3.5-mini-instruct

Пользователь ищет рекомендации по оптимальной стратегии форматирования промптов для обучения модели Phi-3.5-mini-instruct с использованием Unsloth. Запрос сравнивает сохранение пользовательского текстового формата с использованием стандартного шаблона чата при подготовке датасета. Текущая реализация использует функцию, которая структурирует данные в разделы '### Input:' и '### Output:', добавляя токен конца текста. Этот подход обрабатывает поля ввода и вывода в формате JSON, полученные из объекта Hugging Face Dataset. Приведенный пример демонстрирует сложную структуру, включающую финансовые инсайты, названия мерчантов, даты и суммы транзакций. Пользователь планирует развернуть обученную модель через пользовательский API и просит совета: следует ли сохранить этот формат или перейти на шаблон чата.

github llama.cpp · 4 ч назад

Выпуск llama.cpp b9785 с усиленной проверкой флагов и бинарными файлами для нескольких платформ

Проект llama.cpp выпустил версию b9785, включающую изменение кода для усиления проверки флагов, как подробно описано в pull request #24973. Это обновление предоставляет предварительно собранные бинарные файлы для macOS Apple Silicon, Mac на базе Intel и iOS через XCFramework, при этом поддержка KleidiAI отключена на Apple Silicon. Поддерживаются дистрибутивы Linux, включая Ubuntu, для CPU, Vulkan, ROCm 7.2, OpenVINO и SYCL-бэкендов на архитектурах x64, arm64 и s390x. Пользователи Android могут получить доступ к бинарным файлам CPU для arm64, а Windows предлагает широкий выбор вариантов: CPU, OpenCL Adreno, CUDA 12 и 13, Vulkan, OpenVINO, SYCL и HIP. В релиз также включены сборки для openEuler, ориентированные на процессоры x86 и aarch64 с поддержкой ACL Graph. Рядом с платформо-специфичными выпусками доступен автономный пакет UI для облегчения локального вывода моделей.

arxiv arXiv cs.CL · 5 ч назад

Бенчмарк Argus оценивает стабильность количественной оценки неопределённости для моделей «зрение-язык» и наборов данных GUI Grounding

Авторы представляют Argus, бенчмарк, предназначенный для оценки постхоковой количественной оценки неопределённости для агентов компьютерного использования, которые преобразуют предсказания моделей «зрение-язык» в исполняемые действия GUI. Исследование оценивает 28 методов с открытым исходным кодом на четырёх агентах VLM и четырёх наборах данных, а также восемь закрытых коммерческих методов от трёх поставщиков, где внутренние состояния моделей недоступны. Ключевые выводы выявляют селективную стабильность переноса: рейтинги неопределённости остаются согласованными для фиксированной модели в разных наборах данных, но значительно ухудшаются при переходе между различными классами моделей или наблюдаемыми интерфейсами. Среди методов с открытым исходным кодом техники оценки скрытых состояний и плотности продемонстрировали наивысшую стабильность, тогда как в определённых режимах предпочтительными оказались оценки на основе сэмплирования или вербализованной самооценки. Перенос внутри-модельных рейтингов оказался сильным со значениями ранговой корреляции Спирмена до 0,969, тогда как межуровневый перенос к закрытым коммерческим поставщикам в среднем составил лишь +0,08. Исследование также показывает, что конформные области кликов уменьшают радиусы на 40–60 процентов после калибровки, но страдают от снижения покрытия при несовпадении интерфейсов. Для поддержки выбора с учётом режима авторы публикуют записи по каждому элементу, разделения для калибровки, оценки UQ и скрипты анализа.

arxiv arXiv cs.CL · 5 ч назад

Экономия пространства при генерации языка в пределе

Настоящее исследование закладывает основы теории генерации языка в пределе, учитывающей ресурсы и ограничения по эффективности использования памяти. Обучающийся наблюдает за враждебной последовательностью положительных примеров из целевого языка K и должен выдать гипотезу L, свободную от галлюцинаций, пропустив не более Δ строк. В качестве класса гипотез для обучающихся с ограниченной памятью рассматриваются детерминированные конечные автоматы (DFAs) с s состояниями над алфавитом размера k. В режиме экспоненциальной памяти авторы доказывают, что обучающийся может точно идентифицировать целевой язык K. При более строгих ограничениях по объему памяти они представляют потоковый алгоритм, использующий O(poly(s,k)) памяти и сходящийся к гипотезе с разрывом генерации Δ = O(k^{2s-2}). Эта обученная гипотеза содержит все строки из K длины не менее 2s-1. Результаты дополняются нижней оценкой, близкой к достижимой, полученной из теории сложности коммуникации, показывающей, что достижение Δ ≤ k^{(1-ε)s} требует памяти объема k^{Ω(εs)}. Эти выводы демонстрируют резкий переход между генерацией в полиномиальной памяти и точной идентификацией в экспоненциальной памяти.

arxiv arXiv cs.CL · 5 ч назад

Как большие языковые модели формируют репутацию брендов в разных языках и рынках

В данном исследовании анализируются источники цитирования, используемые большими языковыми моделями при ответах на вопросы о брендах, с акцентом на лежащие в основе веб-ссылки, а не только на сгенерированный текст. Исследователи объединили три набора данных Rankfor.AI для изучения 167 551 URL-привязанной цитаты, относящейся к 128 брендам в 12 домашних рынках и на 13 языках. Анализ показывает, что ИИ опирается на ответы о брендах преимущественно на сторонние источники: 85,7% ссылок ведут на сайты, не принадлежащие бренду, по сравнению лишь с 14,3% для доменов, находящихся в собственности бренда. База источников сильно сконцентрирована и подчиняется закону Ципфа: 80% цитат происходят примерно от 18% доменов. Wikipedia становится доминирующим ссылочным ресурсом, являясь самым цитируемым доменом в 11 из 12 изученных языков. Единственным исключением является литовский язык, где деловая газета vz.lt немного опережает Wikipedia с долей 4,38%. Кроме того, состав источников демонстрирует вариации, специфичные для рынка: например, YouTube является самым цитируемым доменом для польских национальных брендов, а HR-порталы предоставляют больше ссылок, чем польская версия Wikipedia.

arxiv arXiv cs.CL · 5 ч назад

ToolBench-X: Оценка агентов, использующих инструменты, в ненадежных средах

Авторы представляют ToolBench-X, новый бенчмарк, предназначенный для оценки агентов на основе больших языковых моделей в условиях восстанавливаемой ненадежности инструментальной среды. В отличие от существующих бенчмарков, предполагающих чистые и стабильные среды, данная фреймворк внедряет пять структурированных типов опасностей: Specification Drift (дрейф спецификации), Invocation Error (ошибка вызова), Execution Failure (сбой выполнения), Output Drift (дрейф вывода) и Cross-source Conflict (конфликт между источниками). Набор данных содержит исполняемые многошаговые задачи в различных доменах с детерминированными инструментами и каноническими окончательными ответами для автоматической оценки. Ключевым аспектом является то, что каждый внедренный экземпляр остается решаемым через корректные пути восстановления, такие как повторная попытка, использование резервного варианта или проверка. Эксперименты выявляют существенный разрыв в надежности: агенты, демонстрирующие хорошие результаты при работе с надежными инструментами, часто терпят неудачу под воздействием этих опасностей. Дополнительный анализ показывает, что сбои обусловлены ограниченной способностью к диагностике опасностей и неэффективным восстановлением, а не объемом использования инструментов или вычислительным бюджетом на инференс. Целевые подсказки для восстановления успешно позволяют завершить многие упавшие задачи, тогда как масштабирование во время тестирования дает более скромные улучшения. Эти результаты указыва