Voice & audio
arxiv arXiv cs.CL · 8 д назад

Декодирование NAR-MBR для быстрой и точной распознавания речи

Декодирование NAR-MBR улучшает распознавание речи за счёт максимизации ожидаемой полезности от отобранных выходов неавторегрессивных моделей. Оно обеспечивает лучшие результаты по сравнению с предыдущими методами NAR и работает быстрее, чем авторегрессивное декодирование, на нескольких корпусах.

arxiv arXiv cs.CL · 8 д назад

Двухязычная настройка улучшает автоматическое распознавание речи в языках с низким количеством ресурсов с использованием идентификации языка

Исследование показало, что двухязычная настройка повышает автоматическое распознавание речи в языках с низким количеством ресурсов при точной идентификации языка. Включение токена идентификации языка на этапе инференса улучшает производительность распознавания речи при низкой точности идентификации, особенно в разнообразных парах языков из разных семей и систем письма.

arxiv arXiv cs.CL · 8 д назад

Самообучаемые модели речи не учитывают компенсацию тонального контекста

Модель wav2vec2.0 не показывает никаких признаков перцептивной компенсации мандаринских тонов в сходствах встраиваемых векторов. Классификаторы, используемые для исследования, показывают ограниченную компенсацию и не достигают уровня человеческой производительности при изоляции слогов, что указывает на необходимость надзора при обучении для абстракции фонологической регулярности.

arxiv arXiv cs.CL · 8 д назад

Интервенционное постобучивание речевых фундаментальных моделей

Новый метод использует интервенционное контрастное обучение для уточнения речевых фундаментальных моделей, преобразуя их переплетённые представления в отдельные подпространства содержания и говорящего. Метод улучшает производительность при проверке говорящих за пределами области и демонстрирует ясное разделение информации о говорящем и содержании в обученных подпространствах.

arxiv arXiv cs.AI · 9 д назад

Низкая частота кадров в нейронных аудиокодеках

Качественный спад на частоте 6,25 Гц в нейронных аудиокодеках вызван недостаточным количеством обучающих токенов из-за фиксированной продолжительности кадра. Коррекция этой конфигурации обучения позволяет обеспечить плавное снижение ошибки распознавания до 3,1 Гц и 1,6 Гц, что указывает на то, что низкая частота кадров может быть достигнута эффективнее, чем ранее считалось.