Pipeline de aprendizaje profundo para el reconocimiento y la traducción al hindi de lenguas señas indias

Un pipeline de aprendizaje profundo en dos etapas clasifica clips de video de lengua de señas india en palabras en inglés utilizando un modelo VideoMAE ajustado finamente y los traduce a hindi, telugu y bengalí mediante el modelo multilingüe NLLB-200. El sistema alcanza una precisión del 99% en entrenamiento y del 78% en validación sobre un conjunto de datos de 13 clases y 197 clips con clips uniformes de 16 fotogramas a resolución 22-224, e incluye una demo de Streamlit para videos subidos por el usuario con análisis por clase e identificación de modos de fallo.