wav2VOT: Автоматическая оценка времени начала голоса, длительности закрытия и реализации взрыва с помощью wav2vec2

В статье представлен wav2VOT — инструмент для автоматической оценки времени начала голоса, длительности закрытия и реализации взрыва, использующий модель wav2vec2. Он решает потребность в точных инструментах аннотации речи для фонетических исследований, демонстрируя, как большие речевые модели могут применяться к этим конкретным задачам.

wav2VOT показывает результаты, сопоставимые с современными подходами на невидимых наборах данных.
Инструмент может оценивать признаки с высокой точностью при дообучении.
Анализ демонстрирует высокую достоверность в отношении оглушенности смычных и места артикуляции.

Эти результаты показывают, что большие речевые модели способны создавать точные аннотации, что стимулирует их дальнейшее исследование как инструментов в конвейерах фонетических исследований.