В данном исследовании проводится аудит надежности восьми современных моделей автоматического распознавания речи на реальных данных психиатрических интервью на каннада, хинди и индийском английском. Результаты выявляют значительную вариативность между моделями и языками: некоторые системы демонстрируют конкурентоспособные результаты для индийского английского, но терпят неудачу при распознавании региональной речи.

  • Аудит сравнивал IndicWhisper, WhisperLargeV3, Sarvam, GoogleS2T, Gemma3n, OmniLingual, Vaani и Gemini.
  • Дообучение лучших открытых моделей с высокой производительностью, Gemma3n и OmniLingual, выявило систематические пробелы в результатах, связанные с ролью говорящего и его полом.
  • Авторы предлагают SamaVaani — унифицированный метод устранения смещения, который одновременно улучшает качество ASR и справедливость для различных демографических групп.

Полученные результаты вызывают опасения относительно справедливого развертывания в клинических условиях, что решается с помощью предложенных методов дообучения, учитывающих фактор справедливости.