Todos los artículos
arxiv arXiv cs.CL · hace 1 h En vivo

Ingeniería de Respuestas: Edición de Trayectorias Locales para la Toma de Decisiones Restringida por Protocolo

La Ingeniería de Respuestas introduce una capa en tiempo de ejecución que aplica correcciones localizadas basadas en reglas a la trayectoria de razonamiento de un modelo durante la generación, sin necesidad de reentrenamiento. En una evaluación clínica para la pérdida auditiva neurosensorial súbita, aumentó los resultados conformes al protocolo del 54,5% al 83,5% y el cumplimiento en casos conductivos del 1,6% al 58,9%.

arxiv arXiv cs.CL · hace 1 h En vivo

Un estudio revela que la IA sigue sin detectar alucinaciones en citas legales

Un nuevo estudio revela que más de 1.000 escritos legales contienen citas fabricadas, con un número que aumenta anualmente. La evaluación de cinco modelos de IA muestra un rendimiento mejorado, con GPT-5 alcanzando una recuperación del 82,8% y un F1 de 60,5 en entornos agénticos, aunque todos los modelos tienen dificultades con errores sutiles y enfrentan limitaciones de recursos debido al acceso limitado a la información.

arxiv arXiv cs.CL · hace 1 h En vivo

MedLayXPlain: Evaluando la brecha entre expertos y no expertos en modelos de visión e idioma médicos

MedLayXPlain presenta el primer benchmark a gran escala para la generación de lenguaje médico para no expertos, con 122.789 muestras ancladas por región en ocho modalidades de imagen. Evalúa modelos de visión e idioma médicos en la alineación entre expertos y no expertos utilizando un sistema de ontología jerárquica y un evaluador ligero, revelando una brecha sistemática: el rendimiento a nivel de experto en la generación de descripciones coexiste con una degradación significativa en el lenguaje para no expertos, mientras que los modelos de propósito general carecen de precisión clínica.

arxiv arXiv cs.CL · hace 1 h En vivo

Referencia basada en perfiles en el anclaje de LLM

El artículo sostiene que la referencia en los modelos de lenguaje grandes no es un enlace fijo, sino un fenómeno basado en perfiles, sensible al contexto y estructurado numéricamente. Propone que los LLM anclan la referencia a través de rastros lingüísticos parametrizados mediante optimización, con perfiles referenciales distribuidos y activados mediante computaciones sensibles al contexto en espacios vectoriales.

arxiv arXiv cs.CL · hace 1 h En vivo

OpenWER: Mejora de la evaluación de ASR multilingüe

OpenWER introduce un marco de código abierto que mejora la robustez de la Tasa de Error de Palabra mediante normalización específica del idioma y detección de palabras compuestas. Permite alineación de Levenshtein basada en tokens, soportando métricas de precisión granulares e incrustación de metadatos. El análisis de 52 idiomas muestra reducciones absolutas de WER de hasta el 25%, avanzando hacia una evaluación justa de ASR multilingüe.

arxiv arXiv cs.CL · hace 1 h En vivo

RoPE no impide la aparición de cabezales de recuperación, según un estudio

Un análisis mecanicista muestra que los cabezales de recuperación son causalmente necesarios para la recuperación de contexto largo. Las frecuencias más altas de RoPE no reducen el número de cabezales, y anular las dimensiones de baja frecuencia de RoPE en los cabezales de recuperación degrada la recuperación de manera dependiente de la dosis, con efectos observados en cinco modelos y múltiples arquitecturas.

arxiv arXiv cs.CL · hace 1 h En vivo

ARCO: Rúbrica adaptativa con coevolución para agentes LLM de múltiples pasos

ARCO introduce un marco de rúbricas que permite la asignación de crédito a nivel de paso para agentes LLM de múltiples pasos. Actualiza conjuntamente un modelo compartido con cabezales de generación y puntuación, permitiendo que el contenido de la rúbrica y la función de puntuación coevolucionen mediante datos on-policy, mejorando el rendimiento y la interpretabilidad en benchmarks.

arxiv arXiv cs.CL · hace 1 h En vivo

El marco de audio sintético mejora el reconocimiento de voz en control de tráfico aéreo

Se presenta un marco de generación de audio sintético para abordar la escasez de datos en el reconocimiento de voz del control de tráfico aéreo. Utiliza técnicas neuronales como Texto-a-Voz y conversión de acento para simular acentos no nativos del inglés, mejorando el rendimiento del Reconocimiento Automático de Voz. Los experimentos con el modelo Whisper en el corpus ATCO2 muestran una reducción en las tasas de error de palabras cuando se ajusta finamente con datos sintéticos o mixtos reales-sintéticos.

arxiv arXiv cs.CL · hace 1 h En vivo

Marco de evaluación para la reconstrucción de voz TTS

Un nuevo marco de evaluación para la reconstrucción de voz de texto a habla introduce medidas subjetivas y objetivas para evaluar la inteligibilidad percibida y la identidad del hablante. Aborda las limitaciones de los métodos existentes proponiendo una métrica distribucional de doble referencia que captura mejor el equilibrio entre inteligibilidad e identidad, validado en 193 hablantes utilizando 17 sistemas TTS de cero disparos.

arxiv arXiv cs.CL · hace 1 h En vivo

El ajuste fino científico aumenta las alucinaciones de los LLM

SciFactCheck evalúa 18 LLM en cinco dominios científicos, encontrando que los modelos ajustados finamente desde el punto de vista científico muestran una fiabilidad factual degradada y una confianza interna reducida a pesar de una mayor asertividad lingüística. Los estudios humanos revelan un acuerdo limitado entre las herramientas de verificación de hechos y los juicios de expertos, destacando los desafíos en la definición de afirmaciones científicas válidas.

arxiv arXiv cs.CL · hace 1 h En vivo

CAT-Translate: Modelos compactos japonés-inglés superan a los multilingües en tareas del mundo real

CAT-Translate presenta una familia de modelos pequeños y de código abierto especializados en la traducción japonés-inglés. Mediante el uso de corpus paralelos sintéticos y un enfoque de ajuste fino en dos etapas, los modelos logran un rendimiento superior en benchmarks del mundo real en los ámbitos empresarial, legal, médico, financiero y de patentes, superando a los grandes modelos multilingües en aplicaciones prácticas.

arxiv arXiv cs.CL · hace 1 h En vivo

Generación de informes radiológicos con control de precisión y exhaustividad

Un marco de aprendizaje por refuerzo permite un control preciso de la precisión clínica y la exhaustividad en la generación de informes radiológicos. Al integrar una recompensa clínica y un entrenamiento relativo al grupo, el modelo mejora la eficacia clínica más allá de las métricas de fluidez del lenguaje, superando a los métodos de última generación en el conjunto de datos MIMIC-CXR.