В статье представлен wav2VOT — инструмент для автоматической оценки времени начала голоса, длительности закрытия и реализации взрыва, использующий модель wav2vec2. Он решает потребность в точных инструментах аннотации речи для фонетических исследований, демонстрируя, как большие речевые модели могут применяться к этим конкретным задачам.

  • wav2VOT показывает результаты, сопоставимые с современными подходами на невидимых наборах данных.
  • Инструмент может оценивать признаки с высокой точностью при дообучении.
  • Анализ демонстрирует высокую достоверность в отношении оглушенности смычных и места артикуляции.

Эти результаты показывают, что большие речевые модели способны создавать точные аннотации, что стимулирует их дальнейшее исследование как инструментов в конвейерах фонетических исследований.