IndicContextEval: бенчмарк для использования контекста в аудио-моделях языковых моделей

IndicContextEval представляет 56-часовой мультяжный бенчмарк, включающий естественные речевые данные 555 говорящих из 8 индийских языков и 23 областей. В нем используется 7-уровневая система запросов для постепенного тестирования использования контекста, включая метаданные, описания и противоречивые вводы. Оценка пяти моделей показывает значительные различия в контекстной фиксации, что подчеркивает необходимость явной оценки использования контекста в аудио-моделях языковых моделей.