Глубокое обучение для распознавания жестов и перевода на индийские языки

Двухэтапная система глубокого обучения классифицирует видеофрагменты индийского жестового языка на английские слова с использованием настроенного модели VideoMAE и переводит их на хинди, телугу и бенгали с помощью модели NLLB-200. Система достигает точности 99% на обучении и 78% на валидации на наборе из 13 классов и 197 видеофрагментов, при равномерных видеофрагментах размером 16 кадров и разрешением 22-224, и включает демонстрацию на Streamlit для загрузки пользователем видео с анализом по классам и идентификацией неисправностей.