SamaVaani: Аудит и устранение смещения в многоязычной клинической ASR для индийских языков

В данном исследовании проводится аудит надежности восьми современных моделей автоматического распознавания речи на реальных данных психиатрических интервью на каннада, хинди и индийском английском. Результаты выявляют значительную вариативность между моделями и языками: некоторые системы демонстрируют конкурентоспособные результаты для индийского английского, но терпят неудачу при распознавании региональной речи.

Аудит сравнивал IndicWhisper, WhisperLargeV3, Sarvam, GoogleS2T, Gemma3n, OmniLingual, Vaani и Gemini.
Дообучение лучших открытых моделей с высокой производительностью, Gemma3n и OmniLingual, выявило систематические пробелы в результатах, связанные с ролью говорящего и его полом.
Авторы предлагают SamaVaani — унифицированный метод устранения смещения, который одновременно улучшает качество ASR и справедливость для различных демографических групп.

Полученные результаты вызывают опасения относительно справедливого развертывания в клинических условиях, что решается с помощью предложенных методов дообучения, учитывающих фактор справедливости.