ParaPairAudioBench представляет парный бенчмарк из 5175 пар аудио по пяти паралингвистическим измерениям. Он показывает, что текущие LALM-оценщики отстают от человеческих оценок в среднем на 32% и не демонстрируют калибровку, особенно в случаях равенства, где отказ от оценки является правильным.
ParaPairAudioBench: Бенчмарк для оценки паралингвистических характеристик речи
Переведено с English → Русский