SamaVaani: Auditoría y desviación de sesgos en ASR clínico multilingüe para idiomas indios

Este estudio audita la fiabilidad de ocho modelos de Reconocimiento Automático del Habla (ASR) de última generación sobre datos reales de entrevistas psiquiátricas en kannada, hindi e inglés indio. Los resultados revelan una variabilidad sustancial entre modelos e idiomas, con algunos sistemas que compiten en inglés indio pero fallan en el habla regional.

La auditoría comparó IndicWhisper, WhisperLargeV3, Sarvam, GoogleS2T, Gemma3n, OmniLingual, Vaani y Gemini.
El ajuste fino de los modelos de código abierto con mejor rendimiento, Gemma3n y OmniLingual, descubrió brechas sistemáticas de rendimiento vinculadas al rol del hablante y el género.
Los autores proponen SamaVaani, una técnica unificada de desviación de sesgos que mejora simultáneamente el rendimiento del ASR y la equidad entre grupos demográficos.

Los hallazgos plantean preocupaciones sobre el despliegue equitativo en entornos clínicos, las cuales se abordan mediante los métodos de ajuste fino conscientes de la equidad propuestos.