Pipeline de aprendizaje profundo para el reconocimiento y la traducción al hindi de lenguas señas indias

Un modelo de aprendizaje profundo en dos etapas clasifica clips de vídeo de lengua de signos india en palabras en inglés utilizando un transformador VideoMAE ajustado, alcanzando una precisión del 99% en entrenamiento y del 78% en validación sobre un conjunto de datos de 13 clases. Las etiquetas en inglés predichas se traducen a hindi, telugu y bengalí utilizando el modelo multilingüe NLLB-200 de Meta AI, con una demo de Streamlit que permite la inferencia de vídeos subidos por el usuario y la salida entre idiomas.