Todos los artículos
arxiv arXiv cs.CL · hace 1 h En vivo

MedLayXPlain: Evaluando la brecha entre expertos y no expertos en modelos de visión e idioma médicos

MedLayXPlain presenta el primer benchmark a gran escala para la generación de lenguaje médico para no expertos, con 122.789 muestras ancladas por región en ocho modalidades de imagen. Evalúa modelos de visión e idioma médicos en la alineación entre expertos y no expertos utilizando un sistema de ontología jerárquica y un evaluador ligero, revelando una brecha sistemática: el rendimiento a nivel de experto en la generación de descripciones coexiste con una degradación significativa en el lenguaje para no expertos, mientras que los modelos de propósito general carecen de precisión clínica.

arxiv arXiv cs.CL · hace 1 h En vivo

Referencia basada en perfiles en el anclaje de LLM

El artículo sostiene que la referencia en los modelos de lenguaje grandes no es un enlace fijo, sino un fenómeno basado en perfiles, sensible al contexto y estructurado numéricamente. Propone que los LLM anclan la referencia a través de rastros lingüísticos parametrizados mediante optimización, con perfiles referenciales distribuidos y activados mediante computaciones sensibles al contexto en espacios vectoriales.

arxiv arXiv cs.CL · hace 1 h En vivo

OpenWER: Mejora de la evaluación de ASR multilingüe

OpenWER introduce un marco de código abierto que mejora la robustez de la Tasa de Error de Palabra mediante normalización específica del idioma y detección de palabras compuestas. Permite alineación de Levenshtein basada en tokens, soportando métricas de precisión granulares e incrustación de metadatos. El análisis de 52 idiomas muestra reducciones absolutas de WER de hasta el 25%, avanzando hacia una evaluación justa de ASR multilingüe.

arxiv arXiv cs.CL · hace 1 h En vivo

RoPE no impide la aparición de cabezales de recuperación, según un estudio

Un análisis mecanicista muestra que los cabezales de recuperación son causalmente necesarios para la recuperación de contexto largo. Las frecuencias más altas de RoPE no reducen el número de cabezales, y anular las dimensiones de baja frecuencia de RoPE en los cabezales de recuperación degrada la recuperación de manera dependiente de la dosis, con efectos observados en cinco modelos y múltiples arquitecturas.

arxiv arXiv cs.CL · hace 1 h En vivo

ARCO: Rúbrica adaptativa con coevolución para agentes LLM de múltiples pasos

ARCO introduce un marco de rúbricas que permite la asignación de crédito a nivel de paso para agentes LLM de múltiples pasos. Actualiza conjuntamente un modelo compartido con cabezales de generación y puntuación, permitiendo que el contenido de la rúbrica y la función de puntuación coevolucionen mediante datos on-policy, mejorando el rendimiento y la interpretabilidad en benchmarks.

arxiv arXiv cs.CL · hace 1 h En vivo

El marco de audio sintético mejora el reconocimiento de voz en control de tráfico aéreo

Se presenta un marco de generación de audio sintético para abordar la escasez de datos en el reconocimiento de voz del control de tráfico aéreo. Utiliza técnicas neuronales como Texto-a-Voz y conversión de acento para simular acentos no nativos del inglés, mejorando el rendimiento del Reconocimiento Automático de Voz. Los experimentos con el modelo Whisper en el corpus ATCO2 muestran una reducción en las tasas de error de palabras cuando se ajusta finamente con datos sintéticos o mixtos reales-sintéticos.

arxiv arXiv cs.CL · hace 1 h En vivo

Marco de evaluación para la reconstrucción de voz TTS

Un nuevo marco de evaluación para la reconstrucción de voz de texto a habla introduce medidas subjetivas y objetivas para evaluar la inteligibilidad percibida y la identidad del hablante. Aborda las limitaciones de los métodos existentes proponiendo una métrica distribucional de doble referencia que captura mejor el equilibrio entre inteligibilidad e identidad, validado en 193 hablantes utilizando 17 sistemas TTS de cero disparos.

arxiv arXiv cs.CL · hace 1 h En vivo

El ajuste fino científico aumenta las alucinaciones de los LLM

SciFactCheck evalúa 18 LLM en cinco dominios científicos, encontrando que los modelos ajustados finamente desde el punto de vista científico muestran una fiabilidad factual degradada y una confianza interna reducida a pesar de una mayor asertividad lingüística. Los estudios humanos revelan un acuerdo limitado entre las herramientas de verificación de hechos y los juicios de expertos, destacando los desafíos en la definición de afirmaciones científicas válidas.

arxiv arXiv cs.CL · hace 2 h

CAT-Translate: Modelos compactos japonés-inglés superan a los multilingües en tareas del mundo real

CAT-Translate presenta una familia de modelos pequeños y de código abierto especializados en la traducción japonés-inglés. Mediante el uso de corpus paralelos sintéticos y un enfoque de ajuste fino en dos etapas, los modelos logran un rendimiento superior en benchmarks del mundo real en los ámbitos empresarial, legal, médico, financiero y de patentes, superando a los grandes modelos multilingües en aplicaciones prácticas.

arxiv arXiv cs.CL · hace 2 h

Generación de informes radiológicos con control de precisión y exhaustividad

Un marco de aprendizaje por refuerzo permite un control preciso de la precisión clínica y la exhaustividad en la generación de informes radiológicos. Al integrar una recompensa clínica y un entrenamiento relativo al grupo, el modelo mejora la eficacia clínica más allá de las métricas de fluidez del lenguaje, superando a los métodos de última generación en el conjunto de datos MIMIC-CXR.

arxiv arXiv cs.CL · hace 2 h

Evaluación de referencia de modelos de lenguaje pequeños para PLN en árabe

Una evaluación de referencia de 240 elementos de prueba en árabe a través de ocho dominios y diez habilidades evalúa doce modelos de lenguaje pequeños en configuraciones zero-shot. Gemma 3 (12B) obtuvo la puntuación general más alta (4.548/5), seguido por Aya y C4AI Command Arabic, con un rendimiento vinculado más a la alineación en árabe y al seguimiento de instrucciones que al tamaño del modelo. Los modos de fallo comunes incluyen filtración de prompt, alucinación y débil adherencia a la tarea.

arxiv arXiv cs.CL · hace 2 h

Cambios económicos y evolución cultural en el drama francés

El drama francés muestra un cambio de temas aristocráticos a burgueses a medida que se desarrollaba el capitalismo. Los temas burgueses respondieron a los choques del PIB a partir del siglo XVIII, con las preocupaciones económicas domésticas volviéndose sensibles solo después de 1820. Los efectos de pares y la sensibilidad económica explican conjuntamente esta transición, respaldada por simulaciones.

arxiv arXiv cs.CL · hace 2 h

La alineación en dos etapas mejora la pedagogía de tutoría matemática

Una canalización de alineación en dos etapas mejora el rendimiento pedagógico de los modelos de lenguaje grandes en la corrección de errores matemáticos. El enfoque combina el ajuste fino supervisado con la Optimización Directa de Preferencias utilizando datos sintéticos sobre andamiaje y factualidad, superando a los modelos base y existentes en precisión y calidad de enseñanza. Las evaluaciones humanas muestran que el modelo compite con una línea base propietaria, ofreciendo mayor apertura y reproducibilidad.

arxiv arXiv cs.CL · hace 2 h

La prueba MedHal-Loc evalúa la fidelidad de localización en detectores de alucinaciones médicas

MedHal-Loc introduce un benchmark para evaluar si los detectores de alucinaciones médicas localizan con precisión los errores. Encuentra que, aunque algunas arquitecturas localizan bien por encima del azar, una pipeline basada en grafos de conocimiento no funciona mejor que el azar debido a la mala extracción de entidades, a pesar de un fuerte rendimiento de detección. Los resultados muestran que la capacidad de detección no garantiza una localización fiel, desafiando las suposiciones sobre la explicabilidad arquitectónica.