Un modelo de aprendizaje profundo en dos etapas clasifica clips de vídeo de lengua de signos india en palabras en inglés utilizando un transformador VideoMAE ajustado, alcanzando una precisión del 99% en entrenamiento y del 78% en validación sobre un conjunto de datos de 13 clases. Las etiquetas en inglés predichas se traducen a hindi, telugu y bengalí utilizando el modelo multilingüe NLLB-200 de Meta AI, con una demo de Streamlit que permite la inferencia de vídeos subidos por el usuario y la salida entre idiomas.