IndicContextEval: Benchmark para la Utilización de Contexto en LLMs de Audio
IndicContextEval introduce un benchmark multilingüe de 56 horas que presenta habla natural de 555 hablantes en 8 idiomas indios y 23 dominios. Emplea un marco de prompting de 7 niveles para probar progresivamente la utilización del contexto, incluyendo metadatos, descripciones e inputs adversarios. La evaluación de cinco modelos muestra diferencias significativas en el anclaje contextual, subrayando la necesidad de una evaluación explícita del uso del contexto en AudioLLMs.