Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 58

Sarashina2.2-TTS: Abordando la polifonía de kanji en la generación de voz japonesa mediante escalado de datos y síntesis dirigida

Sarashina2.2-TTS es un sistema de texto a voz basado en LLM centrado en japonés, diseñado para abordar el desafío lingüístico de la polifonía de kanji dependiente del contexto. El modelo escala los datos de entrenamiento a aproximadamente 361k horas, utilizando una mezcla equilibrada de corpus de voz japonesa e inglesa. Para manejar específicamente la desambiguación de lectura, los autores implementaron un pipeline de aumento de datos dirigido que cubre los 2,136 kanji de uso regular Joyo. Junto con el lanzamiento del modelo, el artículo presenta el Benchmark Joyo Kanji Yomi, que incluye 4,378 lecturas distintas para estos caracteres. Los autores también proponen Kana-CER, una métrica que evalúa la corrección de la pronunciación comparando la voz sintetizada con las lecturas de referencia en el espacio kana. Los resultados experimentales muestran que este aumento de datos dirigido mejora significativamente la precisión de lectura y alcanza un rendimiento de nivel kanji de vanguardia. El sistema iguala a las principales líneas base en la pronunciación a nivel de oración general, mientras ofrece la mayor similitud del hablante en escenarios de síntesis zero-shot. Además, las evaluaciones multilingües confirman que el enfoque de entrenamiento equilibrado garantiza una pronunciación japonesa estable independientemente del idioma del prompt utilizado.

arxiv arXiv cs.CL · hace 1 h En vivo

Estilometría computacional de traducciones al inglés del Canon Pali a través de los Pitakas

Este estudio presenta un análisis estilométrico computacional del Tipitaka en los tres Pitakas en traducción inglesa, extendiendo el trabajo previo sobre el Sutta Pitaka. El corpus comprende 134.831 segmentos de la Sutta Pitaka de Bhikkhu Sujato, la Vinaya Pitaka de Bhikkhu Brahmali, la traducción al vinaya de I.B. Horner de 1938, tres traducciones al inglés del Abhidhammattha Sangaha y textos de Vinaya trans-tradicionales. Los autores calculan distribuciones de frecuencia-rango de Zipf, diversidad léxica MATTR-500, densidad número-palabra y métricas de superposición de vocabulario. Los hallazgos principales indican que todos los corpus muestran distribuciones consistentes con Zipf con valores de R-cuadrado superiores a 0.989. La Sutta y la Vinaya Theravada exhiben puntuaciones de diversidad léxica casi idénticas de 0.399 y 0.400, mientras que el corpus Sangaha es más diverso con 0.560. El corpus Sangaha también muestra la mayor densidad número-palabra en 3.26%, reflejando su enumeración sistemática de categorías. Además, la Vinaya Mulasarvastivada comparte una superposición significativa de vocabulario con la Vinaya Theravada, mientras que dos traducciones al inglés de la misma fuente comparten solo el 24.2% de su vocabulario.

arxiv arXiv cs.CL · hace 1 h En vivo

Operadores de historia: Descomponer la transformación de original a secuela en el espacio de incrustaciones

Este estudio modela las transformaciones literarias como operaciones geométricas dentro de un espacio de incrustaciones de oraciones utilizando vectores all-mpnet-base-v2 del corpus PG19. Al calcular vectores de desplazamiento entre novelas originales y sus secuelas, el autor descompone estos cambios a lo largo de una base de contenido derivada mediante PCA. El análisis de trece pares de autores verificados revela una taxonomía de tipos de secuela: formulaica, concentrada y composicional. Las transformaciones formulaicas implican cambios mínimos en el rango, como las colecciones de Holmes de Doyle con una norma de 0.12. Los desplazamientos concentrados están dominados por un solo eje, ejemplificado por la transición de Alcott de Little Women a Little Men donde el 75% del cambio ocurre en un solo movimiento. Las transformaciones composicionales implican muchos ejes pequeños, observadas en obras de Twain, Burroughs y Nesbit. Para Tom Sawyer a Huckleberry Finn, el eje dominante es estructural, reflejando un cambio desde la domesticidad hacia la aventura picaresca más que temas superficiales como la voz vernácula. Los hallazgos geométricos se corroboran contra la intención autorial documentada de Mark Twain en cartas a Howells.

arxiv arXiv cs.CL · hace 1 h En vivo

SFL-MTSC: Aprovechando la autoconsistencia multi-tarea a nivel de fotogramas semánticos para una comprensión robusta del lenguaje hablado con múltiples intenciones

La comprensión del lenguaje hablado basada en prompts con modelos de lenguaje grandes a menudo sufre de estructuras inconsistentes de intención-slot debido a la estocasticidad del descodificado, particularmente en escenarios de múltiples intenciones. Para abordar esto, los investigadores proponen la autoconsistencia multi-tarea a nivel de fotogramas semánticos (SFL-MTSC), un nuevo marco de agregación estructurada que opera a nivel de fotograma semántico. En lugar de depender del voto mayoritario a nivel de salida, SFL-MTSC descompone las predicciones en fotogramas específicos de intención y aplica agrupación por dominio-intención junto con clustering a nivel de slot. El marco evalúa la fiabilidad del cluster utilizando puntuación de soporte de ruta para determinar qué fotogramas son confiables. Los fotogramas confiables se retienen y reintegran para formar la predicción final, asegurando una mayor consistencia estructural. Experimentos zero-shot en el conjunto de datos MAC-SLU demuestran mejoras en las puntuaciones F1 de slot y precisión general en comparación con la inferencia de un solo camino. La precisión de intención permanece mayormente estable en la mayoría de los ajustes mientras se logran estas ganancias en el rendimiento a nivel de slot.

Sarashina2.2-TTS: Abordando la polifonía de kanji en la generación de voz japonesa mediante escalado de datos y síntesis dirigida

Estilometría computacional de traducciones al inglés del Canon Pali a través de los Pitakas

Operadores de historia: Descomponer la transformación de original a secuela en el espacio de incrustaciones

SFL-MTSC: Aprovechando la autoconsistencia multi-tarea a nivel de fotogramas semánticos para una comprensión robusta del lenguaje hablado con múltiples intenciones

Encuesta de estrategias de detección y mitigación de toxicidad para modelos de lenguaje multilingües

Presentación de los corpus Hlava Cor y Hlava AD: Variación humana en la coreferencia y las relaciones discursivas

La modelización del mundo autorizada por agentes alinea el entrenamiento con las necesidades de decisión

OscillaTTS: Sesgo inductivo oscilatorio adaptativo para modelar dinámicas prosódicas agudas en TTS basado en difusión

Evaluación de la robustez ante dialectos japoneses en modelos de lenguaje grandes basados en habla y texto

PolicyAlign: Alineación de seguridad basada directamente en políticas para modelos de lenguaje grandes

El preentrenamiento de codificadores de habla mejorados con traducción mejora los LLMs de habla

Diseño de arneses y post-entrenamiento en agentes LLM

La evaluación Reclaim muestra que la memoria con pérdida es peor que no tener memoria

El Espectro de Generalización: Un Enfoque Cromatográfico para Evaluar Algoritmos de Aprendizaje

Explorando representaciones de habla auto-supervisadas en subdialectos del mandarín mediante análisis articulatorio no supervisado

Alineación forzada neuronal completamente diferenciable mediante programación dinámica suave

PEGASUS Ajustado Alcanza Rendimiento de Última Generación en el Corpus XL-Sum Inglés

El marco de red teaming descubre vulnerabilidades de fidelidad en LLMs mediante una arquitectura multi-rol

Calibración y robustez adversaria de la puntuación automática de ASR

STC mejora el servicio al cliente en árabe mediante análisis de sentimiento con MARBERT