Todos los artículos
arxiv arXiv cs.CL · hace 1 h En vivo

OpenWER: Mejora de la evaluación de ASR multilingüe

OpenWER introduce un marco de código abierto que mejora la robustez de la Tasa de Error de Palabra mediante normalización específica del idioma y detección de palabras compuestas. Permite alineación de Levenshtein basada en tokens, soportando métricas de precisión granulares e incrustación de metadatos. El análisis de 52 idiomas muestra reducciones absolutas de WER de hasta el 25%, avanzando hacia una evaluación justa de ASR multilingüe.

arxiv arXiv cs.CL · hace 1 h En vivo

RoPE no impide la aparición de cabezales de recuperación, según un estudio

Un análisis mecanicista muestra que los cabezales de recuperación son causalmente necesarios para la recuperación de contexto largo. Las frecuencias más altas de RoPE no reducen el número de cabezales, y anular las dimensiones de baja frecuencia de RoPE en los cabezales de recuperación degrada la recuperación de manera dependiente de la dosis, con efectos observados en cinco modelos y múltiples arquitecturas.

arxiv arXiv cs.CL · hace 1 h En vivo

ARCO: Rúbrica adaptativa con coevolución para agentes LLM de múltiples pasos

ARCO introduce un marco de rúbricas que permite la asignación de crédito a nivel de paso para agentes LLM de múltiples pasos. Actualiza conjuntamente un modelo compartido con cabezales de generación y puntuación, permitiendo que el contenido de la rúbrica y la función de puntuación coevolucionen mediante datos on-policy, mejorando el rendimiento y la interpretabilidad en benchmarks.

arxiv arXiv cs.CL · hace 1 h En vivo

El marco de audio sintético mejora el reconocimiento de voz en control de tráfico aéreo

Se presenta un marco de generación de audio sintético para abordar la escasez de datos en el reconocimiento de voz del control de tráfico aéreo. Utiliza técnicas neuronales como Texto-a-Voz y conversión de acento para simular acentos no nativos del inglés, mejorando el rendimiento del Reconocimiento Automático de Voz. Los experimentos con el modelo Whisper en el corpus ATCO2 muestran una reducción en las tasas de error de palabras cuando se ajusta finamente con datos sintéticos o mixtos reales-sintéticos.

arxiv arXiv cs.CL · hace 1 h En vivo

Marco de evaluación para la reconstrucción de voz TTS

Un nuevo marco de evaluación para la reconstrucción de voz de texto a habla introduce medidas subjetivas y objetivas para evaluar la inteligibilidad percibida y la identidad del hablante. Aborda las limitaciones de los métodos existentes proponiendo una métrica distribucional de doble referencia que captura mejor el equilibrio entre inteligibilidad e identidad, validado en 193 hablantes utilizando 17 sistemas TTS de cero disparos.

arxiv arXiv cs.CL · hace 1 h En vivo

El ajuste fino científico aumenta las alucinaciones de los LLM

SciFactCheck evalúa 18 LLM en cinco dominios científicos, encontrando que los modelos ajustados finamente desde el punto de vista científico muestran una fiabilidad factual degradada y una confianza interna reducida a pesar de una mayor asertividad lingüística. Los estudios humanos revelan un acuerdo limitado entre las herramientas de verificación de hechos y los juicios de expertos, destacando los desafíos en la definición de afirmaciones científicas válidas.

arxiv arXiv cs.CL · hace 2 h

CAT-Translate: Modelos compactos japonés-inglés superan a los multilingües en tareas del mundo real

CAT-Translate presenta una familia de modelos pequeños y de código abierto especializados en la traducción japonés-inglés. Mediante el uso de corpus paralelos sintéticos y un enfoque de ajuste fino en dos etapas, los modelos logran un rendimiento superior en benchmarks del mundo real en los ámbitos empresarial, legal, médico, financiero y de patentes, superando a los grandes modelos multilingües en aplicaciones prácticas.

arxiv arXiv cs.CL · hace 2 h

Generación de informes radiológicos con control de precisión y exhaustividad

Un marco de aprendizaje por refuerzo permite un control preciso de la precisión clínica y la exhaustividad en la generación de informes radiológicos. Al integrar una recompensa clínica y un entrenamiento relativo al grupo, el modelo mejora la eficacia clínica más allá de las métricas de fluidez del lenguaje, superando a los métodos de última generación en el conjunto de datos MIMIC-CXR.

arxiv arXiv cs.CL · hace 2 h

Evaluación de referencia de modelos de lenguaje pequeños para PLN en árabe

Una evaluación de referencia de 240 elementos de prueba en árabe a través de ocho dominios y diez habilidades evalúa doce modelos de lenguaje pequeños en configuraciones zero-shot. Gemma 3 (12B) obtuvo la puntuación general más alta (4.548/5), seguido por Aya y C4AI Command Arabic, con un rendimiento vinculado más a la alineación en árabe y al seguimiento de instrucciones que al tamaño del modelo. Los modos de fallo comunes incluyen filtración de prompt, alucinación y débil adherencia a la tarea.

arxiv arXiv cs.CL · hace 2 h

Cambios económicos y evolución cultural en el drama francés

El drama francés muestra un cambio de temas aristocráticos a burgueses a medida que se desarrollaba el capitalismo. Los temas burgueses respondieron a los choques del PIB a partir del siglo XVIII, con las preocupaciones económicas domésticas volviéndose sensibles solo después de 1820. Los efectos de pares y la sensibilidad económica explican conjuntamente esta transición, respaldada por simulaciones.

arxiv arXiv cs.CL · hace 2 h

La alineación en dos etapas mejora la pedagogía de tutoría matemática

Una canalización de alineación en dos etapas mejora el rendimiento pedagógico de los modelos de lenguaje grandes en la corrección de errores matemáticos. El enfoque combina el ajuste fino supervisado con la Optimización Directa de Preferencias utilizando datos sintéticos sobre andamiaje y factualidad, superando a los modelos base y existentes en precisión y calidad de enseñanza. Las evaluaciones humanas muestran que el modelo compite con una línea base propietaria, ofreciendo mayor apertura y reproducibilidad.

arxiv arXiv cs.CL · hace 2 h

La prueba MedHal-Loc evalúa la fidelidad de localización en detectores de alucinaciones médicas

MedHal-Loc introduce un benchmark para evaluar si los detectores de alucinaciones médicas localizan con precisión los errores. Encuentra que, aunque algunas arquitecturas localizan bien por encima del azar, una pipeline basada en grafos de conocimiento no funciona mejor que el azar debido a la mala extracción de entidades, a pesar de un fuerte rendimiento de detección. Los resultados muestran que la capacidad de detección no garantiza una localización fiel, desafiando las suposiciones sobre la explicabilidad arquitectónica.

arxiv arXiv cs.CL · hace 2 h

Estudio de ablación de componentes RAG agénticos con modelo local de 7B

Un estudio de ablación controlado evalúa los componentes RAG agénticos utilizando un modelo local de 7B en HotpotQA. La recuperación híbrida fija supera a la enrutamiento adaptativo por 1.8 EM y 1.9 F1, mientras que dos iteraciones de recuperación capturan el 95% de las ganancias de cinco. La descomposición de consultas y el reordenamiento con cross-encoder muestran mejoras estadísticamente significativas pero menores.

arxiv arXiv cs.CL · hace 2 h

PeerMathDial: Primer conjunto de datos sobre resolución de problemas matemáticos entre estudiantes

PeerMathDial es el primer conjunto de datos de diálogos de resolución colaborativa de problemas matemáticos entre pares en aulas de escuela secundaria. Incluye 55 diálogos de 27 estudiantes, con un total de 6,406 turnos, y presenta una taxonomía de actos de diálogo basada en el corpus. El conjunto de datos permite investigar la evolución del diálogo, las relaciones entre rasgos estudiantiles y comportamiento, y el rendimiento de LLMs al simular interacciones entre estudiantes.

media r/LocalLLaMA · hace 2 h

Microsoft lanza FastContext de código abierto para agentes de codificación LLM

Microsoft ha liberado como código abierto FastContext-1.0, un subagente ligero de exploración de repositorios que separa la exploración del repositorio de código de la resolución de tareas en agentes de codificación LLM. Utiliza llamadas de herramientas paralelas solo de lectura para devolver rutas de archivo compactas y rangos de líneas, mejorando la precisión de extremo a extremo y reduciendo el uso de tokens hasta un 60.3%, con el modelo 4B-RL superando a un modelo 30B-SFT en SWE-bench Pro.