ParaPairAudioBench: Benchmark para la Evaluación de Habla Paralingüística
ParaPairAudioBench introduce un benchmark por pares de 5.175 pares de audio en cinco dimensiones paralingüísticas. Revela que los jueces LALM actuales están un 32% por debajo de los juicios humanos en promedio y fallan al calibrarse, especialmente en casos de empate donde la abstención es correcta.