El ancho de segmentación y el tamaño del clúster impactan la resíntesis de habla en GSLMs

Variar el ancho de segmentación y el tamaño del clúster en modelos de lenguaje hablado generativos permite una síntesis de habla inteligible y natural a tasas de bits más bajas que las de referencia. La calidad de la continuación del habla permanece estable a estas tasas de bits más bajas según múltiples métricas, lo que indica que los ajustes convencionales pueden no ser necesarios. Las métricas basadas en LLM se correlacionan mejor con los juicios humanos pero aún muestran una alineación baja, subrayando la necesidad de mejorar la evaluación automática.