Un pipeline de aprendizaje profundo en dos etapas clasifica clips de video de lengua de señas india en palabras en inglés utilizando un modelo VideoMAE ajustado finamente y los traduce a hindi, telugu y bengalí mediante el modelo multilingüe NLLB-200. El sistema alcanza una precisión del 99% en entrenamiento y del 78% en validación sobre un conjunto de datos de 13 clases y 197 clips con clips uniformes de 16 fotogramas a resolución 22-224, e incluye una demo de Streamlit para videos subidos por el usuario con análisis por clase e identificación de modos de fallo.
Pipeline de aprendizaje profundo para el reconocimiento y la traducción al hindi de lenguas señas indias
Traducido del English → Español