Все статьи — korshunov.ai

Все статьи Страница 1 / 91

Обзор стратегий обнаружения и смягчения токсичности для многоязычных языковых моделей

В данном обобщающем исследовании синтезируются материалы по обнаружению токсичности и стратегиям детоксикации, специально разработанным для многоязычных больших языковых моделей. В нем систематизируются модели угроз, использующие лингвистические вариации, такие как код-свитчинг (переключение кодов), орфографические различия и трансляционные пивоты, для обхода механизмов безопасности. Авторы структурируют существующие работы по формулировкам задач, таким как переписывание токсичного текста в нейтральный и классификация, а также по различным подходам обнаружения, включая кроссоязычные энкодеры и детекторы на основе больших языковых моделей. Стратегии смягчения подробно рассматриваются в контексте фильтрации данных, контролируемой тонкой настройки, управления процессом декодирования и внедрения многоязычных систем контроля (guardrails). Анализ подчеркивает сохраняющиеся проблемы в области, в частности неравномерное покрытие языков и фрагментированные протоколы оценки. Кроме того, обсуждается сложность культурно обусловленных определений вреда и риск того, что усилия по детоксикации могут подавить легитимные диалектные или связанные с идентичностью формы выражения.

arxiv arXiv cs.CL · 3 ч назад

Представляем корпусы Hlava Cor и Hlava AD: Вариации человеческих оценок в задачах кореференции и дискурсивных отношений

Исследователи создали два новых корпуса, Hlava Cor и Hlava AD, для изучения вариаций человеческого восприятия связности текста. Эти ресурсы содержат множественные аннотации чешских текстов вместе с объяснениями аннотаторов их выбора. Первый корпус, Hlava Cor, состоит из 1024 контекстов, аннотированных тремя людьми, чтобы зафиксировать различия в идентификации кореференции. Он охватывает местоимения, полные именные группы и анафорические наречия в различных типах текстов и грамматико-семантических категориях. Второй корпус, Hlava AD, включает 512 контекстов, аннотированных пятью аннотаторами, с фокусом на дискурсивных отношениях в атрибутивных и неатрибутивных конструкциях. Оба корпуса достигают меж-аннотаторского согласия примерно на уровне 60–65 процентов. Анализ показывает, что более низкое согласие по кореференции коррелирует с несогласием автоматических моделей, что указывает на большую неоднозначность. Комментарии аннотаторов дополнительно подчеркивают различные уровни уверенности и индивидуальные стратегии чтения.

arxiv arXiv cs.CL · 3 ч назад

Моделирование мира, созданное агентом, согласует обучение с потребностями принятия решений

В статье представлена процедура обучения Agent-Authored World Modeling (AAWM), которая устраняет ограничения стандартных целей моделирования мира, связанных с предсказанием следующего наблюдения. Этот традиционный подход часто игнорирует динамику, релевантную для текущего решения агента, поскольку обучение под контролем зависит от того, что раскрывает переход, а не от того, что необходимо. AAWM формирует обучение под контролем непосредственно из потребностей принятия решений политики, позволяя агенту определять необходимое понимание среды в каждом состоянии. Релевантные доказательства переходов извлекаются по траекториям и синтезируются в обучающие цели, которые захватывают эту ориентированную на решения динамику. Этот метод согласует цель обучения с конкретной информацией, необходимой перед действием, вместо того чтобы заставлять модель реконструировать следующее наблюдение. Экспериментальные результаты подтверждают эффективность AAWM в нескольких средах и настройках обучения. Результаты показывают, что цели моделирования мира, учитывающие принятие решений, обеспечивают более эффективный сигнал обучения, чем стандартное предсказание следующего наблюдения.

arxiv arXiv cs.CL · 3 ч назад

OscillaTTS: Адаптивная осцилляторная индуктивная предвзятость для моделирования резких просодических динамики в диффузионных TTS-системах

Диффузионные модели преобразования текста в речь улучшили качество синтеза, но испытывают трудности с резкими просодическими переходами и быстрыми изменениями высоты тона. Существующие декодеры часто используют периодические нелинейности, такие как функция активации Snake, которые не обладают адаптивностью к внезапным изменениям амплитуды и частоты. Для решения этой проблемы авторы предлагают OscillaTTS — систему, оснащённую адаптивной осцилляторной нелинейностью. Этот компонент обеспечивает управляемую периодическую модуляцию, одновременно гарантируя стабильность сигнала благодаря механизму линейного обхода. В исследовании рассматривается роль осцилляторной индуктивной предвзятости в декодерах диффузионных TTS-систем. Эксперименты, проведённые на наборах данных LJSpeech и Emotional Speech Dataset, демонстрируют последовательные улучшения как по объективным, так и по субъективным метрикам. Эти результаты показывают, что OscillaTTS эффективно моделирует выразительную просодическую динамику по сравнению с предыдущими методами.

arxiv arXiv cs.CL · 3 ч назад

Оценка устойчивости к японским диалектам в речевых и текстовых больших языковых моделях

В данном исследовании изучается диалектная устойчивость больших языковых моделей (LLM) и речевых языковых моделей (SLM) на примере японских диалектов. Несмотря на прогресс в развитии диалоговых систем на базе LLM, диалектные вариации остаются значительной проблемой, особенно при обработке устных входных данных. В работе устойчивость определяется как отношение производительности на диалектных и стандартных входах, что позволяет проводить справедливые сравнения между различными типами моделей. Эксперименты показывают, что устойчивость SLM напрямую коррелирует с устойчивостью их базовых текстовых аналогов LLM. Кроме того, исследование выявляет, что как обучение с использованием диалектных данных, так и тонкая настройка речевого кодировщика способствуют повышению устойчивости SLM. Эти результаты проясняют влияние базовых возможностей LLM на производительность SLM и определяют эффективные стратегии улучшения понимания диалектов.

github llama.cpp · 3 ч назад

Исправление упавших юнит-тестов для conv_3d в SYCL

Репозиторий llama.cpp устранил конкретную проблему, связанную с бэкендом SYCL. Была подана заявка на слияние (pull request) для исправления упавших юнит-тестов, связанных с операцией conv_3d. Это обновление направлено в проект ggml-org/llama.cpp на GitHub. Изменения устраняют ошибки, которые ранее препятствовали успешному выполнению этих тестов. Данное исправление обеспечивает лучшую стабильность для пользователей, полагающихся на аппаратное ускорение на базе SYCL.

arxiv arXiv cs.CL · 3 ч назад

PolicyAlign: Прямое согласование политик для обеспечения безопасности больших языковых моделей

Авторы представляют PolicyAlign — фреймворк, предназначенный для прямого согласования больших языковых моделей с политиками безопасности, заданными на естественном языке, вместо использования дорогостоящих размеченных данных. Этот подход решает проблему несоответствия между быстро меняющимися требованиями к безопасности и традиционными методами выравнивания, основанными на данных. Процесс начинается с синтеза инструкций, нарушающих указанную политику, за которым следует самодистилляция в рамках текущей политики для усвоения желаемого поведения. Для повышения стабильности обучения и эффективности использования данных метод включает Policy-Sensitive Filtering (чувствительную к политике фильтрацию), которая отбирает инструкции, вызывающие наибольшее изменение поведения. Эксперименты на нескольких моделях показывают, что PolicyAlign последовательно улучшает показатели безопасности при сохранении низкого уровня избыточных отказов и сохранении общих возможностей. Фреймворк также эффективно обобщается на специализированные области, такие как медицинские, юридические и финансовые сценарии безопасности. Код этого масштабируемого подхода к выравниванию опубликован по адресу https://github.com/Qwen-Applications/PolicyAlign.

arxiv arXiv cs.CL · 3 ч назад

Предобучение речевого энкодера с усилением за счёт перевода улучшает речевые большие языковые модели

Подключение предварительно обученного речевого энкодера к большой языковой модели (LLM) создаёт структурное несоответствие, поскольку энкодеры часто генерируют представления, специфичные для языка, тогда как LLM работают в едином, независимом от языка пространстве. Авторы утверждают, что включение целей перевода речи в процесс предобучения обеспечивает принципиальный механизм для преодоления этого разрыва. В отличие от моноязычной транскрипции, перевод заставляет модель обучаться представлениям, независимым от конкретных языков. В исследовании экспериментально оценивается влияние добавления этих целей перевода на этапе предобучения речевого энкодера. Результаты демонстрируют, что такой подход значительно улучшает кросс-модальную интеграцию между речевым и текстовым модусами. В результате модели, использующие предобучение с усилением за счёт перевода, показывают превосходные результаты в различных задачах речевых больших языковых моделей.

arxiv arXiv cs.CL · 4 ч назад

Проектирование инструментальных обвязок и постобучение агентов на основе больших языковых моделей

В статье рассматривается влияние проектирования инструментальных обвязок (tool harness design) на постобучение агентов на основе больших языковых моделей. Утверждается, что хотя агенты регулярно проходят постобучение, каркас, определяющий воздействие инструментов, часто рассматривается как фиксированная деталь. Существующие алгоритмы обычно предполагают статические среды, игнорируя изменения в инструментах и задачах во время развертывания. Чтобы восполнить этот пробел, авторы расширили ALFWorld, чтобы рассматривать проектирование обвязки как управляемый параметр. Это расширение поддерживает оценку при сдвигах как в среде задач, так и в среде инструментов. В исследовании систематически анализируется влияние обвязки на постобучение в условиях распределений внутри выборки (in-distribution) и вне выборки (out-of-distribution). Результаты показывают, что постобучение с учетом характеристик обвязки улучшает производительность и обеспечивает надежную адаптацию к новым средам. Напротив, минимальные усилия по проектированию приводят к резкому падению производительности при сильных сдвигах среды.

arxiv arXiv cs.CL · 4 ч назад

Оценка Reclaim показывает, что потеряющая память хуже, чем отсутствие памяти

Исследование демонстрирует, что наличие в памяти языковой модели неверных выводов более вредно, чем полное отсутствие памяти. Когда модели сохраняют устаревшие значения, отбрасывая при этом поддерживающие данные, они выдают уверенные, но ошибочные ответы, тогда как пустая память позволяет воздерживаться от ответов. Это явление, названное хрупкой памятью (brittle memory), наблюдалось в семи моделях, причем направление ошибки никогда не менялось независимо от задачи или disposition. Исследователи предложили оценку Reclaim для измерения исправляемости путем сжатия взаимодействий и проверки того, восстанавливаются ли коррекции до ground truth без использования judge. Результаты показывают, что исправляемость зависит от того, сохраняется ли исходная информация после сжатия, а не от возможностей модели. Политика source-first, которая сохраняет пересчитываемые источники и отбрасывает выводимые заключения, значительно лучше восстанавливает исправляемость по сравнению с контрольными группами, сопоставленными по длине. В циклах связанной памяти ошибки из-за потери источников необратимо искажают последующие шаги, тогда предлагаемое решение поддерживает ограниченные горизонты производительности. Выводы воспроизводятся в трех развернутых системах и реальных диалоговых данных, при этом hand-built oracle достигает идеальной точности.

arxiv arXiv cs.CL · 4 ч назад

Спектр обобщения: хроматографический подход к оценке алгоритмов обучения

Традиционные оценки сводят обучение к единому агрегированному показателю, скрывая то, насколько хорошо знания из одного примера обобщаются на другие. Авторы вводят Спектр обобщения (Generalization Spectrum) — фреймворк оценки, который измеряет обобщение для каждого образца путем отслеживания производительности по вариантам тестов с увеличивающимся расстоянием переноса. Эти варианты варьируются от точного воспроизведения до переноса реализации между языками и переноса контекста при нарративном перефрейминге. Фреймворк реализован на основе соревновательного программирования с использованием конвейера выбора и синтеза, инициированного недавними задачами для снижения риска загрязнения данных. Сравнения канонических парадигм обучения показывают, что обучение с подкреплением (Reinforcement Learning) преобразует запоминание в перенос на близкие задачи эффективнее, чем базовые методы контролируемой тонкой настройки (Supervised Fine-Tuning). Обучение в контексте (in-context learning) демонстрирует сильные, но зависящие от соответствия возможности переноса в данном контексте. Диагностические профили показывают, что локальные улучшения не обязательно расширяют радиус обобщения для всех методов. В частности, абстракции и подсказки в основном повышают локальный перенос, тогда как Контролируемая тонкая настройка с использованием эталонов (Reference SFT) сохраняет более сильный хвост распределения для дальнего переноса по сравнению с RL с подкреплением (RFT). Кроме того, самодистилляция или

arxiv arXiv cs.CL · 4 ч назад

Исследование самонадзирательных речевых представлений для поддиалектов мандаринского языка с помощью ненадзорного артикуляторного анализа

В данном исследовании изучается, как внутренние фонетические представления в моделях самонадзирательного обучения ведут себя при тонких диалектных вариациях, что позволяет преодолеть ограничения существующих исследований зондирования (probing studies), опирающихся на курируемые корпуса. Авторы представляют кейс-стади с использованием полностью ненадзорного конвейера зондирования для поддиалектов мандаринского языка. Последовательности фонем генерируются с помощью универсального распознавателя фонем, не зависящего от языка, и отображаются в векторы артикуляторных признаков, что позволяет проводить зондирование на уровне кадров без ручной аннотации. Результаты выявляют структурированные паттерны декодируемости артикуляторных признаков для различных диалектов мандаринского языка. Акустически заметные признаки, такие как лабиальность и стриденция, остаются относительно стабильными, тогда как признаки, связанные с более тонкими спектральными различиями, демонстрируют большую вариативность в зависимости от диалекта. Эта вариативность обусловлена преимущественно повышенной декодируемостью для пекинской речи по сравнению с другими поддиалектами. Послойный анализ демонстрирует различные динамические характеристики представлений для этих групп признаков, что указывает на неравномерную чувствительность к диалектам в различных артикуляторных измерениях.

arxiv arXiv cs.CL · 4 ч назад

Полностью дифференцируемое нейронное форсированное выравнивание с помощью мягкого динамического программирования

Авторы предлагают сквозную, полностью дифференцируемую нейронную архитектуру, специально разработанную для фонемного выравнивания, чтобы преодолеть застой в этой области по сравнению с достижениями в распознавании речи (ASR). Модель включает кодировщик с двумя дополнительными ветвями, предназначенными для проверки идентичности фонемы и обнаружения границ. Декодер, реализованный в виде обучаемого модуля на основе дифференцируемого мягкого динамического программирования, формирует окончательные решения по выравниванию. Вся система оптимизируется с использованием нового контрастивного лосса, который способствует четкому разделению между областями стационарных состояний фонем и границами переходов. Экспериментальные результаты показывают, что предложенный подход превосходит современные методы на размеченных вручную английских бенчмарках. Кроме того, модель демонстрирует сильные способности к обобщению на уровне слов и эффективную работу на невиданных ранее языках.

arxiv arXiv cs.CL · 4 ч назад

Доработанная модель PEGASUS достигает лучших результатов на корпусе XL-Sum на английском языке

В данной статье представлен метод оптимизации абстрактного суммирования текста путем дообучения модели PEGASUS на корпусе данных XL-Sum на английском языке. Цель состоит в том, чтобы превзойти показатели базовой модели mT5 при генерации кратких резюме, которые передают ключевые идеи, а не просто извлекают предложения. Сгенерированные резюме оцениваются с помощью метрики ROUGE, которая сравнивает автоматически созданные результаты с референсами, созданными человеком. В исследовании утверждается, что дообученная модель PEGASUS достигает лучших результатов на этом конкретном наборе данных. Количественный анализ показывает улучшение показателя ROUGE-1 на 4,04% по сравнению с базовой моделью. Кроме того, модель демонстрирует значительное увеличение показателя ROUGE-2 на 15,25%. Наконец, зафиксировано улучшение показателя ROUGE-L на 3,39%, что подтверждает эффективность подхода дообучения.

arxiv arXiv cs.CL · 4 ч назад

Фреймворк для красного тестирования выявляет уязвимости верности больших языковых моделей через многоуровневую архитектуру

В данной статье представлен фреймворк для красного тестирования, предназначенный для систематического выявления уязвимостей в выводах больших языковых моделей с использованием многоуровневой архитектуры. Система применяет модели-цели, атакующие и жюри для генерации состязательных промптов и строгой оценки точности и согласованности ответов. В случае исследования оценки верности использование эксплуатационных состязательных промптов увеличило долю успешных атак до 7,9% в задачах ответа на вопросы. Исследование демонстрирует, что выбор архитектурного дизайна обычно имеет большее значение, чем масштабирование параметров, при определении безопасности модели, и показывает, как структурные ограничения формируют паттерны уязвимостей. Фреймворк демонстрирует адаптивность в различных задачах оценки, от ответов на вопросы на английском языке до суммаризации на арабском. Однако подход сталкивается с трудностями в полной автоматизации генерации состязательных промптов для разных языков. Кроме того, эксперименты выявляют ограничения в обнаружении тонких форм неверности, которые не проявляются как явные фактические противоречия.

arxiv arXiv cs.CL · 4 ч назад

Калибровка и устойчивость к состязательным атакам автоматизированной оценки ASR

В данном исследовании оценивается надежность автоматизированных судей, используемых для измерения частоты успешных атак (ASR) при джейлбрейке LLM, путем их сравнения с мнением большинства людей. Используя 596 аннотированных человеком завершений из HarmBench, авторы обнаруживают, что специализированные классификаторы безопасности дают много ложных срабатываний при высоком значении recall, но более низком precision, тогда как LLM-as-judges демонстрируют нестабильное значение recall в диапазоне от 0.06 до 0.65. Эти расхождения приводят к значительной вариативности сообщаемых показателей ASR в зависимости от того, какое семейство судей используется. Исследование также подчеркивает резкие различия в устойчивости: обертки с безвредным оформлением могут изменять решения LLM-судей от 57% до 100% случаев. Напротив, специализированные классификаторы устойчивы к таким поверхностным атакам, но остаются уязвимыми к белым ящикам GCG-атак, которые изменили 70% уверенных истинно положительных результатов, несмотря на небольшой бюджет оптимизации. Двуханнотаторский аудит подтвердил, что эти состязательные изменения сохраняют исходный вредоносный характер контента. В результате многие текущие метрики ASR признаются ненадежными как при целенаправленном давлении, так и в средних условиях. Авторы рекомендуют сообщать точность (precision) и полноту (recall) судей на данных, аннотированных человеком, а также включать состязательные проверки в будущие исследования.

arxiv arXiv cs.CL · 5 ч назад

STC улучшает обслуживание клиентов на арабском языке с помощью анализа настроений MARBERT

Saudi Telecom Company (STC) стремится повысить удовлетворенность пользователей, используя обратную связь из Twitter для анализа настроений. Исследование восполняет пробел в обработке естественного языка на арабском языке путем обучения модели MARBERT на специфическом наборе данных из 24 513 твитов. Эта коллекция включает 1 437 положительных, 13 828 отрицательных и 5 694 нейтральных твитов, а также 1 221 саркастических и 2 297 неопределенных записей. Основная цель заключается в анализе этих настроений для повышения отзывчивости службы поддержки клиентов STC. Производительность оценивалась с использованием метрик f1-score, precision и recall для обеспечения надежного обнаружения спама и настроений. Результаты показывают, что предложенная схема обеспечивает перспекточную точность по сравнению с существующими методами в литературе.

arxiv arXiv cs.CL · 5 ч назад

Поведенческие факторы несоответствия рейтингов и тональности в отзывах о туризме Шри-Ланки

Настоящее исследование изучает несоответствие между звездными рейтингами и тональностью текстовых отзывов в отзывах о туристических достопримечательностях Шри-Ланки. Проанализировав набор данных из 16 156 отзывов за период с 2010 по 2023 год, исследователи использовали конвейер на основе трансформеров для независимого определения тональности текста без учета присвоенных рейтингов. Анализ показывает, что 18,6% отзывов демонстрируют несоответствие, в первую очередь обусловленное поведением «консервативного оценщика» и «обязательной пятизвездочной оценки». Эти расхождения варьируются в зависимости от типа объекта: музеи демонстрируют самые высокие показатели расхождений. Статистические тесты, логистическая регрессия, Random Forest и SHAP-анализ выявили тип объекта, экспертность рецензента, длину отзыва и временные факторы как ключевые причины этого явления. Результаты показывают, что звездные рейтинги не являются взаимозаменяемыми с текстовой тональностью и требуют проверки перед использованием в качестве эталонных меток (ground-truth) в задачах NLP.

arxiv arXiv cs.CL · 5 ч назад

Cliff Tokens: Выявление триггеров сбоев на одном токене в математическом рассуждении больших языковых моделей

Исследователи вводят понятие cliff tokens для выявления конкретных триггеров сбоев на одном токене в больших языковых моделях при выполнении задач математического рассуждения. В отличие от предыдущих работ, анализирующих сбои на уровне шагов или предложений, данный метод точно определяет токен, где вероятность успеха значительно падает, используя адаптивный порог на основе z-теста. Исследование оценивает семь моделей на трех бенчмарках: GSM1K, MATH500 и AIME 2025. Удаление первого cliff токена и повторная выборка позволяют восстановить показатель pass@64 до 1.0, тогда как его сохранение ограничивает восстановление в диапазоне от 0.71 до 1.00. Авторы предлагают таксономию, классифицирующую cliffs как детерминированные, неопределенные или отсеченные выборкой (sampled-off) на основе жадного выбора и энтропии токена. Эта классификация обобщается для моделей разных масштабов и демонстрирует различные вероятностные характеристики для каждого типа. Кроме того, команда проверяет эту таксономию с помощью оптимизации предпочтений на одном токене, известной как Cliff-DPO. Обученная на GSM8K, Cliff-DPO повышает точность до +6.6 по всем бенчмаркам. Оптимизация оказывается эффективной для неопределенных и отсеченных выборкой cliffs, но не дает улучшений для детерминированных.

arxiv arXiv cs.CL · 5 ч назад

Бенчмарк SWE-Pro выявляет значительный разрыв между LLM и экспертной оптимизацией программного обеспечения

Бенчмарк SWE-Pro решает проблему отсутствия реалистичных оценочных фреймворков для оптимизации производительности программного обеспечения, предлагая набор данных на уровне репозитория, полученный из 102 оптимизаций, написанных экспертами. В отличие от предыдущих бенчмарков, которые чрезмерно упрощают задачи, SWE-Pro сопоставляет каждую задачу с параметризованными тестами для оценки времени выполнения, пикового потребления памяти и Времени-Взвешенного Использования Памяти (Time-Weighted Memory Usage) в условиях, учитывающих наличие шума. Исследование показывает, что современные большие языковые модели (LLM) испытывают значительные трудности с этими сложными требованиями, демонстрируя пренебрежимо малые улучшения времени выполнения и практически отсутствующие оптимизации потребления памяти. В резком контрасте с этим экспертные реализации обеспечили совокупное ускорение в 15.5 раза и снижение пикового потребления памяти в 171.3 раза по задачам бенчмарка. Экспертные улучшения были зафиксированы в 91.2% задач для времени выполнения и в 65.7% для пикового потребления памяти. Эти выводы обнажают существенный разрыв между текущими возможностями LLM и требованиями инженерии экспертного уровня.