Глубокое обучение для распознавания жестов и перевода в индийских языках

Двухэтапная модель глубокого обучения классифицирует видеофрагменты индийского жестового языка на английские слова с использованием тонко настроенного трансформера VideoMAE, достигая точности 99% на обучающем и 78% на валидационном наборах данных из 13 классов. Прогнозируемые английские метки переводятся на хинди, телугу и бенгали с использованием многопрофильной модели NLLB-200 от Meta AI, при этом веб-демо позволяет пользователям загружать видео и получать результаты в разных языках.