В данном исследовании проводится аудит надежности восьми современных моделей автоматического распознавания речи на реальных данных психиатрических интервью на каннада, хинди и индийском английском. Результаты выявляют значительную вариативность между моделями и языками: некоторые системы демонстрируют конкурентоспособные результаты для индийского английского, но терпят неудачу при распознавании региональной речи.
- Аудит сравнивал IndicWhisper, WhisperLargeV3, Sarvam, GoogleS2T, Gemma3n, OmniLingual, Vaani и Gemini.
- Дообучение лучших открытых моделей с высокой производительностью, Gemma3n и OmniLingual, выявило систематические пробелы в результатах, связанные с ролью говорящего и его полом.
- Авторы предлагают SamaVaani — унифицированный метод устранения смещения, который одновременно улучшает качество ASR и справедливость для различных демографических групп.
Полученные результаты вызывают опасения относительно справедливого развертывания в клинических условиях, что решается с помощью предложенных методов дообучения, учитывающих фактор справедливости.