Voice & audio
arxiv arXiv cs.AI · 6 д назад

Гибридный диффузионный трансформер для редактирования аудио с использованием инструкций

Гибридная двухэтапная архитектура диффузионного трансформера обеспечивает эффективное и точное редактирование аудио с использованием инструкций. Она использует семантическую синхронизацию от грубого к детальному уровню через совместное внимание на низком разрешении, а затем уточнение редактирования с помощью альтернирующего совместного и перекрестного внимания на высоком разрешении. Метод обеспечивает лучшие результаты на сложных задачах редактирования с улучшенной эффективностью и компактной моделью.

arxiv arXiv cs.LG · 6 д назад

PASQA: модель оценки качества речи с фокусом на интонационные акценты

PASQA — это модель оценки качества речи, разработанная для оценки правильности интонационных акцентов в синтезированной японской речи. Она использует набор данных с контролируемыми ошибками акцента и достигает высокой точности при ранжировании степени серьезности ошибок акцента, превосходя традиционные модели и лучше соответствует оценкам людей.

arxiv arXiv cs.CL · 6 д назад

Легкая оценка произношения с помощью несвязанного спектрального сюрприза речевых токенов

Новый подход оценивает произношение только на основе исходных речевых данных, без помеченных ошибок. Он использует сюрприз речевых токенов и выравнивание по транскрипции для обнаружения отклонений от фонетических правил, достигая результатов, близких к результатам обученных методов, на нескольких наборах данных.

arxiv arXiv cs.CL · 6 д назад

Модели качества речи не улавливают вариативность пронуциации и частоты фундаментальной волны

Модели прогнозирования качества MOS точно отражают акустические искажения, но не обнаруживают ошибки в пронуциации и характеристики речи, такие как частота и темп речи. Люди воспринимают значительное падение качества при таких искажениях, в то время как модели демонстрируют сильные искажения в фундаментальной частоте и не чувствительны к вариативности темпа и частоты фундаментальной волны.

arxiv arXiv cs.CL · 6 д назад

Обнаружение речи на уровне сегментов для выявления когнитивных нарушений

Новый фреймворк использует автоэнкодер с обучением на основе контрастов для анализа речи на уровне сегментов на китайском языке с целью выявления когнитивных нарушений. Он обеспечивает стабильную и конкурентную производительность на четырех наборах данных, с существенным улучшением в классификации на три класса, особенно при ограниченном количестве помеченных данных.

arxiv arXiv cs.CL · 6 д назад

PASQA: модель оценки качества речи с фокусом на интонационных акцентах

PASQA — это модель оценки качества речи, предназначенная для оценки правильности интонационных акцентов в синтезированной японской речи. Она использует набор данных с контролируемыми ошибками акцентов и включает в себя саморегулирующее обучение, синтез с учетом моры, потери ранжирования и локализацию ошибок акцентов, чтобы обеспечить высокую точность обнаружения ошибок акцентов у разных говорящих, превосходя традиционные модели по согласованию с человеческими оценками.

arxiv arXiv cs.CL · 6 д назад

ReNikud: аудио-обучаемая конвертация графемы в звук в иврите

ReNikud вводит новую аудио-обучаемую методику для конвертации графемы в звук на иврите, используя слабую аудио-супервизию и архитектуру псевдозвукового преобразования. Оно превосходит предыдущие методы передовых достижений на бенчмарках по ивриту G2-Ph и на новом бенчмарке MILIM, что позволяет получать более естественный говорящий иврит в приложениях текст-в-голос.

media r/LocalLLaMA · 6 д назад

Какой самый лучший открытый инструмент для преобразования речи в текст сегодня?

Пользователь ищет рекомендации по инструментам для преобразования речи в текст в реальном времени с возможностью дифференциации голосов, спрашивает о заменах Wispr Flow и MacParakeet, который использует модели Parakeet и Whisper. Он уточняет, появилось ли новое поколение моделей, поддерживающих работу в реальном времени.

arxiv arXiv cs.AI · 7 д назад

ScenA: Система генерации аудио-сцены на основе ссылок

ScenA настраивает текстово-аудио модель на основе нескольких ссылочных голосов и естественного языкового запроса сцены для генерации реалистичных разговоров с несколькими участниками. Она решает проблему "сокращения ссылки" за счёт использования тренировочного расписания с высоким уровнем шума, обеспечивая привязку голосов на основе текстовых запросов, а не на основе акустической схожести. Оценка на CoVoMix2-Dialogue показывает, что ScenA превосходит существующие системы по привязке участников и генерирует богатые, естественные аудио-сцены с перекрывающимися речевыми фрагментами и фоновым шумом.

arxiv arXiv cs.LG · 7 д назад

Обучаемый кодировщик речи-спайков для спайковых нейронных сетей

Обучаемый резидуальный кодировщик речи-спайков обучается совместно с рекуррентной сетью с ленивой интеграцией и запуском, достигая точности до 94,97% на тестовом наборе данных Google Speech Commands v2. Версия с 35 тыс. параметров достигает 89,8%, превосходя предыдущие методы при значительно меньшем количестве параметров, и демонстрирует спайковые представления, синхронизированные с задачей, что улучшает разделяемость классов.

arxiv arXiv cs.CL · 7 д назад

Речь-обусловленная конечная система распознавания языков для китайских диалектов

Исследование оценивает речь-обусловленные MFCC-признаки и модель HMM-DNN с механизмами внимания для распознавания китайских диалектов. Подход объединяет векторы слов на уровне слов и MFCC-признаки с помощью CNN, обеспечивая превосходную производительность на стандартизированных корпусах диалектов по сравнению с существующими методами.

media r/LocalLLaMA · 7 д назад

Я выпустил Inflect-Nano, экстремально маленький модель TTS с 4,63 млн параметров

Модель Inflect-Nano-v1 является второй по размеру публично доступной моделью TTS после TinyTTS, с общим количеством 4,63 млн параметров. Она показывает удивительно хорошие результаты при таком размере, работает локально на устройствах с низкой производительностью и служит базой для небольших систем синтеза речи в встраиваемых или оффлайн-приложениях.

media r/LocalLLaMA · 8 д назад

Год разработки полностью локального голосового помощника для дома

Разработчик потратил 12 месяцев на создание локального, открытого голосового помощника, вдохновленного Alexa, документируя возникающие трудности и прогресс. Проект ставил целью создание альтернативы с акцентом на приватность, используя локальные модели, с постоянными улучшениями и исправлениями.

media r/LocalLLaMA · 8 д назад

Поиск локально размещаемого инструмента для создания английских субтитров из видео

Пользователь ищет локально размещаемое, автономное приложение для генерации английских субтитров (в формате .srt или .ass) из видеофайлов. Они рассматривают Qwen-ASR и Whisper как сильные варианты, но отмечают плохое сопоставление временных меток в реализациях ComfyUI и нестабильную работу с более старыми моделями, такими как те, что используются в storytoolkitAI. Они просят рекомендации, которые хорошо работают на Windows и могут обрабатывать несколько языков.

arxiv arXiv cs.CL · 8 д назад

Декодирование NAR-MBR для быстрой и точной распознавания речи

Декодирование NAR-MBR улучшает распознавание речи за счёт максимизации ожидаемой полезности от отобранных выходов неавторегрессивных моделей. Оно обеспечивает лучшие результаты по сравнению с предыдущими методами NAR и работает быстрее, чем авторегрессивное декодирование, на нескольких корпусах.

arxiv arXiv cs.CL · 8 д назад

Двухязычная настройка улучшает автоматическое распознавание речи в языках с низким количеством ресурсов с использованием идентификации языка

Исследование показало, что двухязычная настройка повышает автоматическое распознавание речи в языках с низким количеством ресурсов при точной идентификации языка. Включение токена идентификации языка на этапе инференса улучшает производительность распознавания речи при низкой точности идентификации, особенно в разнообразных парах языков из разных семей и систем письма.

arxiv arXiv cs.CL · 8 д назад

Самообучаемые модели речи не учитывают компенсацию тонального контекста

Модель wav2vec2.0 не показывает никаких признаков перцептивной компенсации мандаринских тонов в сходствах встраиваемых векторов. Классификаторы, используемые для исследования, показывают ограниченную компенсацию и не достигают уровня человеческой производительности при изоляции слогов, что указывает на необходимость надзора при обучении для абстракции фонологической регулярности.

arxiv arXiv cs.CL · 8 д назад

Интервенционное постобучивание речевых фундаментальных моделей

Новый метод использует интервенционное контрастное обучение для уточнения речевых фундаментальных моделей, преобразуя их переплетённые представления в отдельные подпространства содержания и говорящего. Метод улучшает производительность при проверке говорящих за пределами области и демонстрирует ясное разделение информации о говорящем и содержании в обученных подпространствах.

arxiv arXiv cs.AI · 9 д назад

Низкая частота кадров в нейронных аудиокодеках

Качественный спад на частоте 6,25 Гц в нейронных аудиокодеках вызван недостаточным количеством обучающих токенов из-за фиксированной продолжительности кадра. Коррекция этой конфигурации обучения позволяет обеспечить плавное снижение ошибки распознавания до 3,1 Гц и 1,6 Гц, что указывает на то, что низкая частота кадров может быть достигнута эффективнее, чем ранее считалось.