arxiv arXiv cs.CL · hace 2 h · fuente: hace 4 d · research

ParaPairAudioBench: Benchmark para la Evaluación de Habla Paralingüística

Traducido del English → Español

ParaPairAudioBench introduce un benchmark por pares de 5.175 pares de audio en cinco dimensiones paralingüísticas. Revela que los jueces LALM actuales están un 32% por debajo de los juicios humanos en promedio y fallan al calibrarse, especialmente en casos de empate donde la abstención es correcta.

Importancia 2/3 arXiv cs.CL Evaluation & benchmarks Multimodal

Leer original