Este estudio audita la fiabilidad de ocho modelos de Reconocimiento Automático del Habla (ASR) de última generación sobre datos reales de entrevistas psiquiátricas en kannada, hindi e inglés indio. Los resultados revelan una variabilidad sustancial entre modelos e idiomas, con algunos sistemas que compiten en inglés indio pero fallan en el habla regional.

  • La auditoría comparó IndicWhisper, WhisperLargeV3, Sarvam, GoogleS2T, Gemma3n, OmniLingual, Vaani y Gemini.
  • El ajuste fino de los modelos de código abierto con mejor rendimiento, Gemma3n y OmniLingual, descubrió brechas sistemáticas de rendimiento vinculadas al rol del hablante y el género.
  • Los autores proponen SamaVaani, una técnica unificada de desviación de sesgos que mejora simultáneamente el rendimiento del ASR y la equidad entre grupos demográficos.

Los hallazgos plantean preocupaciones sobre el despliegue equitativo en entornos clínicos, las cuales se abordan mediante los métodos de ajuste fino conscientes de la equidad propuestos.