Все статьи
arxiv arXiv cs.CL · 8 ч назад

Проектирование инструментальных обвязок и постобучение агентов на основе больших языковых моделей

В статье рассматривается влияние проектирования инструментальных обвязок (tool harness design) на постобучение агентов на основе больших языковых моделей. Утверждается, что хотя агенты регулярно проходят постобучение, каркас, определяющий воздействие инструментов, часто рассматривается как фиксированная деталь. Существующие алгоритмы обычно предполагают статические среды, игнорируя изменения в инструментах и задачах во время развертывания. Чтобы восполнить этот пробел, авторы расширили ALFWorld, чтобы рассматривать проектирование обвязки как управляемый параметр. Это расширение поддерживает оценку при сдвигах как в среде задач, так и в среде инструментов. В исследовании систематически анализируется влияние обвязки на постобучение в условиях распределений внутри выборки (in-distribution) и вне выборки (out-of-distribution). Результаты показывают, что постобучение с учетом характеристик обвязки улучшает производительность и обеспечивает надежную адаптацию к новым средам. Напротив, минимальные усилия по проектированию приводят к резкому падению производительности при сильных сдвигах среды.

arxiv arXiv cs.CL · 8 ч назад

Оценка Reclaim показывает, что потеряющая память хуже, чем отсутствие памяти

Исследование демонстрирует, что наличие в памяти языковой модели неверных выводов более вредно, чем полное отсутствие памяти. Когда модели сохраняют устаревшие значения, отбрасывая при этом поддерживающие данные, они выдают уверенные, но ошибочные ответы, тогда как пустая память позволяет воздерживаться от ответов. Это явление, названное хрупкой памятью (brittle memory), наблюдалось в семи моделях, причем направление ошибки никогда не менялось независимо от задачи или disposition. Исследователи предложили оценку Reclaim для измерения исправляемости путем сжатия взаимодействий и проверки того, восстанавливаются ли коррекции до ground truth без использования judge. Результаты показывают, что исправляемость зависит от того, сохраняется ли исходная информация после сжатия, а не от возможностей модели. Политика source-first, которая сохраняет пересчитываемые источники и отбрасывает выводимые заключения, значительно лучше восстанавливает исправляемость по сравнению с контрольными группами, сопоставленными по длине. В циклах связанной памяти ошибки из-за потери источников необратимо искажают последующие шаги, тогда предлагаемое решение поддерживает ограниченные горизонты производительности. Выводы воспроизводятся в трех развернутых системах и реальных диалоговых данных, при этом hand-built oracle достигает идеальной точности.

arxiv arXiv cs.CL · 8 ч назад

Спектр обобщения: хроматографический подход к оценке алгоритмов обучения

Традиционные оценки сводят обучение к единому агрегированному показателю, скрывая то, насколько хорошо знания из одного примера обобщаются на другие. Авторы вводят Спектр обобщения (Generalization Spectrum) — фреймворк оценки, который измеряет обобщение для каждого образца путем отслеживания производительности по вариантам тестов с увеличивающимся расстоянием переноса. Эти варианты варьируются от точного воспроизведения до переноса реализации между языками и переноса контекста при нарративном перефрейминге. Фреймворк реализован на основе соревновательного программирования с использованием конвейера выбора и синтеза, инициированного недавними задачами для снижения риска загрязнения данных. Сравнения канонических парадигм обучения показывают, что обучение с подкреплением (Reinforcement Learning) преобразует запоминание в перенос на близкие задачи эффективнее, чем базовые методы контролируемой тонкой настройки (Supervised Fine-Tuning). Обучение в контексте (in-context learning) демонстрирует сильные, но зависящие от соответствия возможности переноса в данном контексте. Диагностические профили показывают, что локальные улучшения не обязательно расширяют радиус обобщения для всех методов. В частности, абстракции и подсказки в основном повышают локальный перенос, тогда как Контролируемая тонкая настройка с использованием эталонов (Reference SFT) сохраняет более сильный хвост распределения для дальнего переноса по сравнению с RL с подкреплением (RFT). Кроме того, самодистилляция или

arxiv arXiv cs.CL · 8 ч назад

Исследование самонадзирательных речевых представлений для поддиалектов мандаринского языка с помощью ненадзорного артикуляторного анализа

В данном исследовании изучается, как внутренние фонетические представления в моделях самонадзирательного обучения ведут себя при тонких диалектных вариациях, что позволяет преодолеть ограничения существующих исследований зондирования (probing studies), опирающихся на курируемые корпуса. Авторы представляют кейс-стади с использованием полностью ненадзорного конвейера зондирования для поддиалектов мандаринского языка. Последовательности фонем генерируются с помощью универсального распознавателя фонем, не зависящего от языка, и отображаются в векторы артикуляторных признаков, что позволяет проводить зондирование на уровне кадров без ручной аннотации. Результаты выявляют структурированные паттерны декодируемости артикуляторных признаков для различных диалектов мандаринского языка. Акустически заметные признаки, такие как лабиальность и стриденция, остаются относительно стабильными, тогда как признаки, связанные с более тонкими спектральными различиями, демонстрируют большую вариативность в зависимости от диалекта. Эта вариативность обусловлена преимущественно повышенной декодируемостью для пекинской речи по сравнению с другими поддиалектами. Послойный анализ демонстрирует различные динамические характеристики представлений для этих групп признаков, что указывает на неравномерную чувствительность к диалектам в различных артикуляторных измерениях.

arxiv arXiv cs.CL · 8 ч назад

Полностью дифференцируемое нейронное форсированное выравнивание с помощью мягкого динамического программирования

Авторы предлагают сквозную, полностью дифференцируемую нейронную архитектуру, специально разработанную для фонемного выравнивания, чтобы преодолеть застой в этой области по сравнению с достижениями в распознавании речи (ASR). Модель включает кодировщик с двумя дополнительными ветвями, предназначенными для проверки идентичности фонемы и обнаружения границ. Декодер, реализованный в виде обучаемого модуля на основе дифференцируемого мягкого динамического программирования, формирует окончательные решения по выравниванию. Вся система оптимизируется с использованием нового контрастивного лосса, который способствует четкому разделению между областями стационарных состояний фонем и границами переходов. Экспериментальные результаты показывают, что предложенный подход превосходит современные методы на размеченных вручную английских бенчмарках. Кроме того, модель демонстрирует сильные способности к обобщению на уровне слов и эффективную работу на невиданных ранее языках.

arxiv arXiv cs.CL · 8 ч назад

Доработанная модель PEGASUS достигает лучших результатов на корпусе XL-Sum на английском языке

В данной статье представлен метод оптимизации абстрактного суммирования текста путем дообучения модели PEGASUS на корпусе данных XL-Sum на английском языке. Цель состоит в том, чтобы превзойти показатели базовой модели mT5 при генерации кратких резюме, которые передают ключевые идеи, а не просто извлекают предложения. Сгенерированные резюме оцениваются с помощью метрики ROUGE, которая сравнивает автоматически созданные результаты с референсами, созданными человеком. В исследовании утверждается, что дообученная модель PEGASUS достигает лучших результатов на этом конкретном наборе данных. Количественный анализ показывает улучшение показателя ROUGE-1 на 4,04% по сравнению с базовой моделью. Кроме того, модель демонстрирует значительное увеличение показателя ROUGE-2 на 15,25%. Наконец, зафиксировано улучшение показателя ROUGE-L на 3,39%, что подтверждает эффективность подхода дообучения.

arxiv arXiv cs.CL · 8 ч назад

Фреймворк для красного тестирования выявляет уязвимости верности больших языковых моделей через многоуровневую архитектуру

В данной статье представлен фреймворк для красного тестирования, предназначенный для систематического выявления уязвимостей в выводах больших языковых моделей с использованием многоуровневой архитектуры. Система применяет модели-цели, атакующие и жюри для генерации состязательных промптов и строгой оценки точности и согласованности ответов. В случае исследования оценки верности использование эксплуатационных состязательных промптов увеличило долю успешных атак до 7,9% в задачах ответа на вопросы. Исследование демонстрирует, что выбор архитектурного дизайна обычно имеет большее значение, чем масштабирование параметров, при определении безопасности модели, и показывает, как структурные ограничения формируют паттерны уязвимостей. Фреймворк демонстрирует адаптивность в различных задачах оценки, от ответов на вопросы на английском языке до суммаризации на арабском. Однако подход сталкивается с трудностями в полной автоматизации генерации состязательных промптов для разных языков. Кроме того, эксперименты выявляют ограничения в обнаружении тонких форм неверности, которые не проявляются как явные фактические противоречия.

arxiv arXiv cs.CL · 8 ч назад

Калибровка и устойчивость к состязательным атакам автоматизированной оценки ASR

В данном исследовании оценивается надежность автоматизированных судей, используемых для измерения частоты успешных атак (ASR) при джейлбрейке LLM, путем их сравнения с мнением большинства людей. Используя 596 аннотированных человеком завершений из HarmBench, авторы обнаруживают, что специализированные классификаторы безопасности дают много ложных срабатываний при высоком значении recall, но более низком precision, тогда как LLM-as-judges демонстрируют нестабильное значение recall в диапазоне от 0.06 до 0.65. Эти расхождения приводят к значительной вариативности сообщаемых показателей ASR в зависимости от того, какое семейство судей используется. Исследование также подчеркивает резкие различия в устойчивости: обертки с безвредным оформлением могут изменять решения LLM-судей от 57% до 100% случаев. Напротив, специализированные классификаторы устойчивы к таким поверхностным атакам, но остаются уязвимыми к белым ящикам GCG-атак, которые изменили 70% уверенных истинно положительных результатов, несмотря на небольшой бюджет оптимизации. Двуханнотаторский аудит подтвердил, что эти состязательные изменения сохраняют исходный вредоносный характер контента. В результате многие текущие метрики ASR признаются ненадежными как при целенаправленном давлении, так и в средних условиях. Авторы рекомендуют сообщать точность (precision) и полноту (recall) судей на данных, аннотированных человеком, а также включать состязательные проверки в будущие исследования.

arxiv arXiv cs.CL · 9 ч назад

STC улучшает обслуживание клиентов на арабском языке с помощью анализа настроений MARBERT

Saudi Telecom Company (STC) стремится повысить удовлетворенность пользователей, используя обратную связь из Twitter для анализа настроений. Исследование восполняет пробел в обработке естественного языка на арабском языке путем обучения модели MARBERT на специфическом наборе данных из 24 513 твитов. Эта коллекция включает 1 437 положительных, 13 828 отрицательных и 5 694 нейтральных твитов, а также 1 221 саркастических и 2 297 неопределенных записей. Основная цель заключается в анализе этих настроений для повышения отзывчивости службы поддержки клиентов STC. Производительность оценивалась с использованием метрик f1-score, precision и recall для обеспечения надежного обнаружения спама и настроений. Результаты показывают, что предложенная схема обеспечивает перспекточную точность по сравнению с существующими методами в литературе.

arxiv arXiv cs.CL · 9 ч назад

Поведенческие факторы несоответствия рейтингов и тональности в отзывах о туризме Шри-Ланки

Настоящее исследование изучает несоответствие между звездными рейтингами и тональностью текстовых отзывов в отзывах о туристических достопримечательностях Шри-Ланки. Проанализировав набор данных из 16 156 отзывов за период с 2010 по 2023 год, исследователи использовали конвейер на основе трансформеров для независимого определения тональности текста без учета присвоенных рейтингов. Анализ показывает, что 18,6% отзывов демонстрируют несоответствие, в первую очередь обусловленное поведением «консервативного оценщика» и «обязательной пятизвездочной оценки». Эти расхождения варьируются в зависимости от типа объекта: музеи демонстрируют самые высокие показатели расхождений. Статистические тесты, логистическая регрессия, Random Forest и SHAP-анализ выявили тип объекта, экспертность рецензента, длину отзыва и временные факторы как ключевые причины этого явления. Результаты показывают, что звездные рейтинги не являются взаимозаменяемыми с текстовой тональностью и требуют проверки перед использованием в качестве эталонных меток (ground-truth) в задачах NLP.

arxiv arXiv cs.CL · 9 ч назад

Cliff Tokens: Выявление триггеров сбоев на одном токене в математическом рассуждении больших языковых моделей

Исследователи вводят понятие cliff tokens для выявления конкретных триггеров сбоев на одном токене в больших языковых моделях при выполнении задач математического рассуждения. В отличие от предыдущих работ, анализирующих сбои на уровне шагов или предложений, данный метод точно определяет токен, где вероятность успеха значительно падает, используя адаптивный порог на основе z-теста. Исследование оценивает семь моделей на трех бенчмарках: GSM1K, MATH500 и AIME 2025. Удаление первого cliff токена и повторная выборка позволяют восстановить показатель pass@64 до 1.0, тогда как его сохранение ограничивает восстановление в диапазоне от 0.71 до 1.00. Авторы предлагают таксономию, классифицирующую cliffs как детерминированные, неопределенные или отсеченные выборкой (sampled-off) на основе жадного выбора и энтропии токена. Эта классификация обобщается для моделей разных масштабов и демонстрирует различные вероятностные характеристики для каждого типа. Кроме того, команда проверяет эту таксономию с помощью оптимизации предпочтений на одном токене, известной как Cliff-DPO. Обученная на GSM8K, Cliff-DPO повышает точность до +6.6 по всем бенчмаркам. Оптимизация оказывается эффективной для неопределенных и отсеченных выборкой cliffs, но не дает улучшений для детерминированных.

arxiv arXiv cs.CL · 9 ч назад

Бенчмарк SWE-Pro выявляет значительный разрыв между LLM и экспертной оптимизацией программного обеспечения

Бенчмарк SWE-Pro решает проблему отсутствия реалистичных оценочных фреймворков для оптимизации производительности программного обеспечения, предлагая набор данных на уровне репозитория, полученный из 102 оптимизаций, написанных экспертами. В отличие от предыдущих бенчмарков, которые чрезмерно упрощают задачи, SWE-Pro сопоставляет каждую задачу с параметризованными тестами для оценки времени выполнения, пикового потребления памяти и Времени-Взвешенного Использования Памяти (Time-Weighted Memory Usage) в условиях, учитывающих наличие шума. Исследование показывает, что современные большие языковые модели (LLM) испытывают значительные трудности с этими сложными требованиями, демонстрируя пренебрежимо малые улучшения времени выполнения и практически отсутствующие оптимизации потребления памяти. В резком контрасте с этим экспертные реализации обеспечили совокупное ускорение в 15.5 раза и снижение пикового потребления памяти в 171.3 раза по задачам бенчмарка. Экспертные улучшения были зафиксированы в 91.2% задач для времени выполнения и в 65.7% для пикового потребления памяти. Эти выводы обнажают существенный разрыв между текущими возможностями LLM и требованиями инженерии экспертного уровня.

arxiv arXiv cs.CL · 9 ч назад

Безопасность и конфиденциальность в генерации с дополнением извлечения: архитектуры, угрозы, методы защиты и направления будущих исследований

В данном обзоре рассматриваются проблемы безопасности и конфиденциальности, присущие системам генерации с дополнением извлечения (RAG), в рамках централизованных, локальных (on-device), федеративных и гибридных парадигм. Предлагается единая таксономия поверхностей угроз, охватывающая этапы извлечения, формирования контекста и генерации. Анализ включает такие классы атак, как вывод принадлежности к набору данных (membership inference), вывод структуры индекса (index inference), отравление данных, утечка градиентов и сговор. Выявляются риски раскрытия конфиденциальной информации в индексах извлечения, журналах запросов, процессах формирования контекста и федеративных обновлениях. Особое внимание уделяется враждебному манипулированию базами знаний как ключевому фактору, подрывающему доверие к сгенерированным результатам. В работе рассматриваются архитектурные, алгоритмические и криптографические методы защиты, а также компромиссы между конфиденциальностью и полезностью. Наконец, формулируются открытые исследовательские задачи для создания надежных и устойчивых систем RAG.

arxiv arXiv cs.CL · 9 ч назад

SFL-MTSC: Использование семантической кадра-уровневой многозадачной самосогласованности для надежного понимания разговорной речи с несколькими намерениями

Понимание разговорной речи на основе промптов с использованием больших языковых моделей часто страдает от несогласованности структур намерений и слотов из-за стохастичности декодирования, особенно в сценариях с несколькими намерениями. Чтобы решить эту проблему, исследователи предлагают семантическую кадра-уровневую многозадачную самосогласованность (SFL-MTSC) — новую структурированную схему агрегации, работающую на уровне семантических кадров. Вместо опираниясь на голосование большинства на уровне вывода, SFL-MTSC разбивает предсказания на кадры, специфичные для намерений, и применяет группировку по домену и намерению вместе с кластеризацией на уровне слотов. Схема оценивает надежность кластеров с помощью подсчета поддержки пути, чтобы определить, какие кадры являются надежными. Надежные кадры сохраняются и повторно интегрируются для формирования окончательного предсказания, обеспечивая большую структурную согласованность. Эксперименты в режиме zero-shot на наборе данных MAC-SLU демонстрируют улучшение показателей F1 для слотов и общей точности по сравнению с однопутным выводом. Точность определения намерений остается в значительной степени стабильной во большинстве настроек, при этом достигаются эти улучшения на уровне слотов.

arxiv arXiv cs.CL · 9 ч назад

BiPACE: Оптимизация политики с учётом бисимуляции и контрфактическая оценка действий для агентов на основе больших языковых моделей

Авторы выявляют фундаментальное несоответствие в распределении заслуг между состоянием и действием при пошаговом групповом обучении с подкреплением (RL) для длинногоризонтных агентов на основе больших языковых моделей (LLM). Существующие оценщики страдают от чрезмерно детального разбиения по состояниям и грубого усреднения по действиям, что нарушает допущения эквивалентности при распределении заслуг. Предлагается BiPACE — встроенный оценщик преимущества, устраняющий эти проблемы без добавления критиков или дополнительных проходов (rollouts). Он группирует шаги на основе косинусного расстояния в геометрии скрытых состояний актора, чтобы уменьшить количество одиночных групп, и центрирует награды с использованием базовых линий, зависящих от действия. В задаче ALFWorld с моделью Qwen2.5-7B BiPACE_Q повышает успешность на валидации с 90,8 до 97,1±0,9, преодолевая порог в 95% при каждом начальном зерне (seed). Он также улучшает результаты для Qwen2.5-1.5B и демонстрирует прирост производительности на WebShop и TextCraft по сравнению с GRPO и GiGPO. Метод добавляет лишь 11,3% накладных расходов к времени выполнения одного шага обучения, изменяя единицу сравнения на приближённое поведенческое эквивалентность.

arxiv arXiv cs.CL · 9 ч назад

Riazi-8B: большая языковая модель для математического рассуждения на урду

Недавние большие языковые модели демонстрируют сильные способности к математическому рассуждению, однако эти достижения в значительной степени опираются на англоцентричные ресурсы, оставляя такие языки с низким уровнем ресурсов, как урду, с ограниченными возможностями. Чтобы восполнить этот пробел, исследователи разработали Riazi-8B — модель на урду, специально предназначенную для решения многошаговых математических задач. Модель была создана посредством двухэтапного процесса адаптации, включающего продолжение предобучения на урду-версии Википедии и контролируемое тонкое дообучение (supervised fine-tuning) на данных цепочки рассуждений (Chain-of-Thought) на урду, полученных из GSM8K. Оценка Riazi-8B проводилась на бенчмарке MGSM-Urdu по сравнению с существующими моделями, тонко настроенными для инструкций на урду. Результаты показали последовательные улучшения в правильности ответов, качестве рассуждений, полноте ответов и генерации текста на урду по сравнению с базовыми моделями. Эти выводы демонстрируют, что сочетание адаптации языка урду с тонким дообучением, ориентированным на рассуждения, эффективно расширяет возможности математического рассуждения для языков с низким уровнем ресурсов.

arxiv arXiv cs.CL · 9 ч назад

Налог на ограничения в LLM с открытым весом: подавление вызова инструментов при структурных ограничениях вывода

В данном исследовании выявлен феномен, называемый подавлением вызова инструментов (Tool Suppression), при котором языковые модели с открытым весом перестают вызывать инструменты, когда одновременно включены ограничения JSON Schema. Авторы наблюдали это поведение в производственной системе агентов и воспроизвели его посредством контролируемых экспериментов на нескольких семействах моделей. Хотя выполнение инструментов и соответствие схеме корректно функционируют при независимой оценке, они дают сбой при совместном развертывании. Анализ показывает, что ограничения JSON Schema компилируются в грамматические маски токенов, делая токены вызова инструментов недостижимыми во время декодирования. Для интерпретации этих результатов статья выдвигает гипотезу о инверсии приоритета ограничений (Constraint Priority Inversion), предполагающую, что удовлетворение схеме доминирует над выбором действия при одновременных ограничениях. Авторы смягчают эту проблему, внедряя стратегию выполнения на этапе вывода под названием Transparent Two-Pass Execution, которая разделяет выполнение инструментов и генерацию ответа. Этот подход восстанавливает вызов инструментов, сохраняя гарантии структурированного вывода без необходимости переобучения модели. Исследование подчеркивает, что оценка возможностей по отдельности может упускать из виду критические проблемы надежности в производственных системах.

arxiv arXiv cs.CL · 9 ч назад

REVERIEMEM: Ограниченная перспективой память для ролевых агентов на основе книг

Недавние системы ролевой игры на базе больших языковых моделей часто терпят неудачу в контекстах длинных нарративов из-за фактических переобобщений и стилистической монотонности. Фактические переобобщения возникают, когда персонажи получают доступ к информации за пределами своей нарративной перспективы, а стилевая монотонность сглаживает голоса персонажей посредством статических описаний профилей. Для решения этих проблем авторы предлагают REVERIEMEM — трехуровневую архитектуру памяти, разработанную для книжных персональных агентов. Эта система использует эпизодический слой для воспоминаний о сценах от первого лица, семантический слой для фактов с тегами видимости и слой личности для поведенческих паттернов, зависящих от ситуации. Исследователи также представляют KBF-QA — бенчмарк, состоящий из 4386 вопросов по восьми романам, предназначенный для проверки границ знаний. Экспериментальные результаты показывают, что REVERIEMEM улучшает показатель верности границам знаний (Knowledge Boundary Fidelity) на 34,6 процентных пункта по сравнению с предыдущими методами. Кроме того, модель достигает примерно 79% доли побед в пятимерном парном нарративном протоколе BOOKWORLD. Эти выводы свидетельствуют о том, что память, ограниченная перспективой, эффективно повышает как фактическую точность, так и генерацию нарративов, привязанных к персонажу.

arxiv arXiv cs.CL · 10 ч назад

MedGuards: Многоагентная система для надежного обнаружения и исправления медицинских ошибок

Авторы предлагают MedGuards, фреймворк защитных механизмов безопасности в медицине, предназначенный для обнаружения и исправления ошибок в тексте, сгенерированном большими языковыми моделями. Эта система рассматривает обработку ошибок как задачу контекстного обучения с несколькими агентами, где специализированные агенты по отдельности выполняют обнаружение, локализацию и исправление. Механизм арбитража, управляемый уверенностью, разрешает разногласия между агентами с использованием цепочек рассуждений и оценок уверенности без необходимости дополнительного обучения модели. В исследовании вводится новый показатель — Keyword-Prioritized Correction Score (KPCS), который оценивает точность критически важных ключевых слов в эталонном тексте. Эксперименты, проведенные на четырех многоязычных медицинских наборах данных клинических заметок, демонстрируют значительное улучшение показателей производительности. Эти результаты подчеркивают улучшенную интерпретируемость, устойчивость и адаптивность для более безопасного развертывания больших языковых моделей в здравоохранении. Код для бенчмарка MedErrBench общедоступен на GitHub.

github llama.cpp · 10 ч назад

Выпуск llama.cpp b9786 добавляет поддержку неконгруэнтных строк через OpenCL

Проект llama.cpp выпустил версию b9786, добавившую поддержку неконгруэнтных строк в нормализации через OpenCL. Это обновление является частью текущей разработки команды ggml-org по улучшению аппаратной совместимости и производительности на различных платформах. В релизе предоставлены бинарные файлы для macOS Apple Silicon, Intel Mac и iOS XCFrameworks. Пользователи Linux могут получить сборки для архитектур Ubuntu x64, arm64 и s390x с использованием CPU, Vulkan, ROCm 7.2, OpenVINO и SYCL-бэкендов. Поддержка Android доступна для устройств на базе CPU arm64, а Windows предлагает обширный выбор вариантов, включая CPU, CUDA 12 и 13, Vulkan, OpenVINO, SYCL и HIP. В релизе также перечислены отключенные сборки для KleidiAI на платформах macOS и openEuler.