Тема · Voice & audio
arxiv arXiv cs.AI · 7 д назад

ScenA: Система генерации аудио-сцены на основе ссылок

ScenA настраивает текстово-аудио модель на основе нескольких ссылочных голосов и естественного языкового запроса сцены для генерации реалистичных разговоров с несколькими участниками. Она решает проблему "сокращения ссылки" за счёт использования тренировочного расписания с высоким уровнем шума, обеспечивая привязку голосов на основе текстовых запросов, а не на основе акустической схожести. Оценка на CoVoMix2-Dialogue показывает, что ScenA превосходит существующие системы по привязке участников и генерирует богатые, естественные аудио-сцены с перекрывающимися речевыми фрагментами и фоновым шумом.

lab Hugging Face Blog · 12 ч назад

Введение в рейтинг FFASR: оценка ASR в реальных условиях

Рейтинг FFASR был запущен для оценки систем распознавания речи в реальных условиях. Он предоставляет критерий для оценки производительности моделей автоматического распознавания речи в различных средах и сценариях использования.

arxiv arXiv cs.CL · 22 ч назад

Выпущена версия v0.1 CN-NewsTTS Bench

CN-NewsTTS Bench v0.1 — это открытая база для оценки способности китайских систем синтеза речи правильно произносить исходный текст новостей. В ней содержатся 200 разработочных и 800 публичных тестовых записей, 992 автоматически оцениваемых целей и результаты для семи систем синтеза речи, при этом лучшая система достигла строгой точности 0.879, а несколько других — ниже 0.60.

arxiv arXiv cs.CL · 1 д назад

Постер: Исследование обнаружения мошеннических звонков на основе аудио в турецком

Этот исследовательский проект представляет первый открытый многомодальный датасет из 100 сопоставленных пар аудио-транскриптов для турецких мошеннических и бензинных звонков. В ходе исследования оцениваются семь крупных языковых моделей при использовании исходного аудио, автоматически полученных и ручно исправленных транскриптов, и выявляется, что транскрипты превосходят обработку аудио напрямую, при этом ручная корректировка оказывает минимальное влияние.

arxiv arXiv cs.AI · 1 д назад

Улучшение идентификации речевых сигналов для невербальных звуков

Новый подход объединяет зафиксированные признаки Data2Vec с ECAPA-TDNN и модулем смеси экспертов для повышения идентификации речевых сигналов для невербальных звуков. Он использует условную дистилляцию и потери контрастности для поддержания точности речи, одновременно снижая EER для речевых и невербальных звуков с 38,93% до 22,66% и улучшая EER для речи с 13,17% до -9,24%.

arxiv arXiv cs.AI · 1 д назад

LambdaMark: первый общий схема радиоактивной аудио-вставки

LambdaMark представляет первый общий схему радиоактивной аудио-вставки, которая встраивает многобитные сообщения в семантические аудио-скрытые представления. Она обеспечивает устойчивость к искажениям и атакам на удаление, и остается эффективной даже на сгенерированных речевых данных от настроенных моделей, обеспечивая сильную защиту от копирования голоса и подделки.

arxiv arXiv cs.AI · 1 д назад

Сексуализированные ИИ-голоса усиливают гендерные несоответствия в вопросах власти

Исследование показало, что сексуализированные ИИ-голоса на коммерческой платформе укрепляют двоичные, гетеронормативные гендерные выражения. Голоса, кодирующие женский пол, чаще получают метки сексуализации и подчинения, в то время как голоса, кодирующие мужской пол, ассоциируются с доминированием и положительными качествами, что подчёркивает сохраняющиеся гендерные несоответствия в дизайне ИИ-голосов.

media r/LocalLLaMA · 1 д назад

Оценка TTS без использования CPU: Kokoro 82M против Supertonic 3 против Inflect-Nano-v1

Оценка TTS без использования CPU сравнивает Kokoro-82M, Supertonic-3 и Inflect-Nano-v1 на процессоре Intel Xeon с 4 ядрами и 15,6 ГБ ОЗУ. Kokoro обеспечивает наиболее естественный звук (MOS 4,44-4,45), несмотря на более медленную скорость, при этом версия ONNX превосходит версию PyTorch по показателю реального времени, сохраняя идентичное качество. Supertonic-5-step достигает сбалансированного результата при скорости 3,2x и MOS 4,37, что делает его наиболее практичным выбором с точки зрения удобства использования и качества.

arxiv arXiv cs.CL · 2 д назад

Модель TTS на основе потока-соответствия имитирует эффект Ломбарда

Вводится модель текста к голосу на основе потока-соответствия для имитации эффекта Ломбарда, при котором люди говорят громче и четче в шумных условиях. Модель обеспечивает непрерывный и раздельный контроль за усилием голоса и произношением, с акцентом на уровне слов для обеспечения четкости. Эксперименты показывают улучшенную акустическую четкость и понятность в шумных условиях по сравнению с базовыми системами.

arxiv arXiv cs.CL · 2 д назад

Ширина сегментации и размер кластера влияют на резинсис речи в моделях генеративного речевого языка

Изменение ширины сегментации и размера кластера в моделях генеративного речевого языка позволяет обеспечивать понятную и естественную синтез речи при более низких битрейтах по сравнению с базовым вариантом. Качество продолжения речи остается стабильным при этих более низких битрейтах по нескольким метрикам, что указывает на то, что традиционные настройки могут быть необязательными. Метрики, основанные на больших языковых моделях, коррелируют лучше с оценками людей, но все еще показывают низкую согласованность, что подчеркивает необходимость улучшения автоматической оценки.

arxiv arXiv cs.CL · 2 д назад

OpenWER: Улучшение оценки межязыковой речевой распознавательной системы

OpenWER представляет открытую платформу, которая повышает устойчивость к ошибкам слов за счёт нормализации на языковом уровне и обнаружения сложных слов. Оно обеспечивает алигнирование на уровне токенов, поддерживая детальные метрики точности и встраивание метаданных. Анализ 52 языков показывает снижение абсолютной ошибки на 25%, что способствует справедливой оценке межязыковой речевой распознавательной системы.

arxiv arXiv cs.CL · 2 д назад

Синтетическая аудиофреймворк улучшает распознавание речи в системах воздушного транспорта

Вводится синтетическая система генерации аудио для решения проблемы недостатка данных в распознавании речи в системах воздушного транспорта. Она использует нейронные методы, такие как текст-в-речь и преобразование интонации, для имитации неанглийских акцентов, что повышает эффективность автоматического распознавания речи. Эксперименты с моделью Whisper на корпусе ATCO2 показывают снижение ошибок распознавания слов при тонкой настройке с синтетическими или смешанными данными реальных и синтетических источников.

arxiv arXiv cs.CL · 2 д назад

Оценочная рамка для восстановления голоса в системах текст-в-голос

Новая оценочная рамка для восстановления голоса в системах текст-в-голос вводит субъективные и объективные меры для оценки восприимчивости и идентичности говорящего. Она решает недостатки существующих методов, предлагая двойную ссылку на распределение, которая лучше отражает компромисс между восприимчивостью и идентичностью, и подтверждена на 193 говорящих с использованием 17 систем нулевого обучения.

arxiv arXiv cs.CL · 2 д назад

Сексуализированные голоса ИИ усиливают гендерные несбалансированные отношения

Исследование показало, что сексуализированные голоса ИИ на коммерческих платформах укрепляют бинарные гендерные нормы. Голоса, кодирующие женский пол, чаще описываются субъектными, сексуализированными терминами, в то время как голоса, кодирующие мужской пол, связаны с доминированием и положительными качествами, что отражает укоренившиеся гендерные несбалансированные отношения.

media Hugging Face Forums · 3 д назад

NOVA-VAD побеждает Silero, Pyannote и WebRTC при шумном аудио с точностью 93%

NOVA-VAD, лёгкий и интерпретируемый детектор активности речи, достигает точности 93% при шумном аудио из набора данных UrbanSound8K, превосходя WebRTC (58%), Pyannote (62%) и Silero (87%). Он использует только scikit-learn, не требует GPU и предоставляет важность признаков и оценки уверенности на простом английском языке.

arxiv arXiv cs.AI · 6 д назад

Переиспользование классификатора речи для генерации на основе диффузии

Предварительно обученный классификатор речи переиспользуется как основа для генерации речи на основе диффузии. При привязке легкого подмодуля и обучении его методом сопоставления сценария устранения шума, подход достигает высокого качества речи при снижении памяти и вычислительных затрат, используя один модель вместо двух отдельно обученных компонентов.

arxiv arXiv cs.AI · 6 д назад

FlowEdit: долгосрочная адаптация произношения в модели Flow-Matching TTS

FlowEdit позволяет адаптировать исправления произношения в замороженных моделях flow-matching TTS с течением времени с помощью скрытых редакций в векторных представлениях текста. Оно хранит исправления в современной сети Хопфилда и извлекает их с помощью мягкой внимательности с воротником схожести, снижая ошибки фонем на 92,7% при 312 многоречевых собственных имен, при этом сохраняя качество общего речевого произношения. Время выполнения исправлений составляет около 15 секунд на одном GPU.

arxiv arXiv cs.AI · 6 д назад

Перекрестное внимание по атрибуции для стиля-описательного текста-к-голосу

Новая методика адаптирует DAAM к моделям диффузии речи, анализируя, как стилизующие подписи влияют на волны ТТС. Она показывает, что стилизующие токены имеют меньшую временну дисперсию, чем содержательные токены, при этом внимание к стилю коррелирует с интонацией и энергией, а пик стилизации происходит на ранних слоях, где энтропия внимания минимизируется, что указывает на максимальную селективность.

arxiv arXiv cs.LG · 6 д назад

Переиспользование классификатора речи для генерации на основе диффузии

Предварительно обученный классификатор речи переиспользуется как основа для генерации речи на основе диффузии. При присоединении легкого подсети и обучении ее методом сопоставления сценария устранения шума, подход достигает высокого качества речи при снижении памяти и вычислительных затрат, используя один модель вместо двух отдельно обученных компонентов.

arxiv arXiv cs.AI · 6 д назад

Гибридный диффузионный трансформер для редактирования аудио с использованием инструкций

Гибридная двухэтапная архитектура диффузионного трансформера обеспечивает эффективное и точное редактирование аудио с использованием инструкций. Она использует семантическую синхронизацию от грубого к детальному уровню через совместное внимание на низком разрешении, а затем уточнение редактирования с помощью альтернирующего совместного и перекрестного внимания на высоком разрешении. Метод обеспечивает лучшие результаты на сложных задачах редактирования с улучшенной эффективностью и компактной моделью.