Todos los artículos — korshunov.ai — noticias de ML

Todos los artículos Página 1 / 45

arxiv arXiv cs.CL · hace 1 h En vivo

Ingeniería de Respuestas: Edición de Trayectorias Locales para la Toma de Decisiones Restringida por Protocolo

La Ingeniería de Respuestas introduce una capa en tiempo de ejecución que aplica correcciones localizadas basadas en reglas a la trayectoria de razonamiento de un modelo durante la generación, sin necesidad de reentrenamiento. En una evaluación clínica para la pérdida auditiva neurosensorial súbita, aumentó los resultados conformes al protocolo del 54,5% al 83,5% y el cumplimiento en casos conductivos del 1,6% al 58,9%.

arxiv arXiv cs.CL · hace 1 h En vivo

Marco de auditoría multiagente para la detección clínica de salud mental

Un marco de auditoría multiagente mejora la detección clínica de salud mental al descomponer el razonamiento en etapas de percepción, recuperación, inferencia y auditoría. Evaluado en el conjunto de datos DAIC-WOZ, reduce el error de predicción de la gravedad de la depresión PHQ-8 de 5.35 a 5.02 y ofrece razones diagnósticas interpretables y verificables.

arxiv arXiv cs.CL · hace 1 h En vivo

AdaMem: Aprender qué recordar para agentes LLM de horizonte largo personalizados

AdaMem aprende qué recordar para cada usuario a partir de la retroalimentación, reduciendo el crecimiento de la memoria y mejorando la precisión de QA hasta un 9.0% en comparación con las líneas base uniformes, mientras reduce el volumen de memoria en un 9%.

arxiv arXiv cs.CL · hace 1 h En vivo

Un estudio revela que la IA sigue sin detectar alucinaciones en citas legales

Un nuevo estudio revela que más de 1.000 escritos legales contienen citas fabricadas, con un número que aumenta anualmente. La evaluación de cinco modelos de IA muestra un rendimiento mejorado, con GPT-5 alcanzando una recuperación del 82,8% y un F1 de 60,5 en entornos agénticos, aunque todos los modelos tienen dificultades con errores sutiles y enfrentan limitaciones de recursos debido al acceso limitado a la información.

arxiv arXiv cs.CL · hace 1 h En vivo

Dementia-Agents: Sistema multiagente multimodal para la estadificación de la demencia

Dementia-Agents presenta un marco multiagente alineado clínicamente para la estadificación y fenotipado de la demencia en el mundo real. Mejora el rendimiento diagnóstico frente a modelos monolíticos y sistemas previos, manteniendo la interpretabilidad a nivel de dominio, utilizando datos de 1,066 pacientes de dos servicios de neurología cognitiva.

arxiv arXiv cs.CL · hace 1 h En vivo

MedLayXPlain: Evaluando la brecha entre expertos y no expertos en modelos de visión e idioma médicos

MedLayXPlain presenta el primer benchmark a gran escala para la generación de lenguaje médico para no expertos, con 122.789 muestras ancladas por región en ocho modalidades de imagen. Evalúa modelos de visión e idioma médicos en la alineación entre expertos y no expertos utilizando un sistema de ontología jerárquica y un evaluador ligero, revelando una brecha sistemática: el rendimiento a nivel de experto en la generación de descripciones coexiste con una degradación significativa en el lenguaje para no expertos, mientras que los modelos de propósito general carecen de precisión clínica.

arxiv arXiv cs.CL · hace 1 h En vivo

Referencia basada en perfiles en el anclaje de LLM

El artículo sostiene que la referencia en los modelos de lenguaje grandes no es un enlace fijo, sino un fenómeno basado en perfiles, sensible al contexto y estructurado numéricamente. Propone que los LLM anclan la referencia a través de rastros lingüísticos parametrizados mediante optimización, con perfiles referenciales distribuidos y activados mediante computaciones sensibles al contexto en espacios vectoriales.

arxiv arXiv cs.CL · hace 1 h En vivo

Ilusiones de coherencia en LLMs neerlandeses reveladas

Los modelos de lenguaje neerlandeses exhiben ilusiones de coherencia similares a las de los lectores humanos. Las métricas de sorpresa y entropía de atención muestran que los modelos son engañados por coincidencias de contexto, con energía de la memoria asociativa identificando mecanismos de coherencia discursiva.

arxiv arXiv cs.CL · hace 1 h En vivo

OpenWER: Mejora de la evaluación de ASR multilingüe

OpenWER introduce un marco de código abierto que mejora la robustez de la Tasa de Error de Palabra mediante normalización específica del idioma y detección de palabras compuestas. Permite alineación de Levenshtein basada en tokens, soportando métricas de precisión granulares e incrustación de metadatos. El análisis de 52 idiomas muestra reducciones absolutas de WER de hasta el 25%, avanzando hacia una evaluación justa de ASR multilingüe.

arxiv arXiv cs.CL · hace 1 h En vivo

RoPE no impide la aparición de cabezales de recuperación, según un estudio

Un análisis mecanicista muestra que los cabezales de recuperación son causalmente necesarios para la recuperación de contexto largo. Las frecuencias más altas de RoPE no reducen el número de cabezales, y anular las dimensiones de baja frecuencia de RoPE en los cabezales de recuperación degrada la recuperación de manera dependiente de la dosis, con efectos observados en cinco modelos y múltiples arquitecturas.

arxiv arXiv cs.CL · hace 1 h En vivo

SCOPE: Sonda Conformante Secuencial para Rechazo OOD en LLMs

SCOPE introduce un marco que utiliza una capa oculta legible y calibración conformante para detectar entradas fuera de distribución. Emplea un e-proceso de supermartingala para proporcionar garantías teóricas para la detección de límites de servicio, superando a los detectores de capa final estándar en múltiples backbones de LLM.

arxiv arXiv cs.CL · hace 1 h En vivo

ARCO: Rúbrica adaptativa con coevolución para agentes LLM de múltiples pasos

ARCO introduce un marco de rúbricas que permite la asignación de crédito a nivel de paso para agentes LLM de múltiples pasos. Actualiza conjuntamente un modelo compartido con cabezales de generación y puntuación, permitiendo que el contenido de la rúbrica y la función de puntuación coevolucionen mediante datos on-policy, mejorando el rendimiento y la interpretabilidad en benchmarks.

arxiv arXiv cs.CL · hace 1 h En vivo

Incertidumbre en las incrustaciones de hablante interpretables

LISE descompone las incrustaciones de hablante en componentes interpretables sin anotaciones. Los experimentos de escucha muestran que los participantes humanos distinguen correctamente a los hablantes con una precisión del 83,9%, validando la interpretabilidad de los componentes mientras se preserva el rendimiento de ASV.

arxiv arXiv cs.CL · hace 1 h En vivo

El marco de audio sintético mejora el reconocimiento de voz en control de tráfico aéreo

Se presenta un marco de generación de audio sintético para abordar la escasez de datos en el reconocimiento de voz del control de tráfico aéreo. Utiliza técnicas neuronales como Texto-a-Voz y conversión de acento para simular acentos no nativos del inglés, mejorando el rendimiento del Reconocimiento Automático de Voz. Los experimentos con el modelo Whisper en el corpus ATCO2 muestran una reducción en las tasas de error de palabras cuando se ajusta finamente con datos sintéticos o mixtos reales-sintéticos.

arxiv arXiv cs.CL · hace 1 h En vivo

Marco de evaluación para la reconstrucción de voz TTS

Un nuevo marco de evaluación para la reconstrucción de voz de texto a habla introduce medidas subjetivas y objetivas para evaluar la inteligibilidad percibida y la identidad del hablante. Aborda las limitaciones de los métodos existentes proponiendo una métrica distribucional de doble referencia que captura mejor el equilibrio entre inteligibilidad e identidad, validado en 193 hablantes utilizando 17 sistemas TTS de cero disparos.

arxiv arXiv cs.CL · hace 1 h En vivo

La recuperación factual en los LLMs es no contigua y redundante

Los modelos de lenguaje grandes utilizan rutas no contiguas y redundantes para recuperar atributos factuales. Estas rutas a menudo saltan capas e involucran múltiples rutas equivalentes, lo que indica un cálculo de conocimiento distribuido y redundante, desafiando la comprensión actual del almacenamiento y la recuperación de conocimiento en los LLMs.

arxiv arXiv cs.CL · hace 1 h En vivo

El ajuste fino científico aumenta las alucinaciones de los LLM

SciFactCheck evalúa 18 LLM en cinco dominios científicos, encontrando que los modelos ajustados finamente desde el punto de vista científico muestran una fiabilidad factual degradada y una confianza interna reducida a pesar de una mayor asertividad lingüística. Los estudios humanos revelan un acuerdo limitado entre las herramientas de verificación de hechos y los juicios de expertos, destacando los desafíos en la definición de afirmaciones científicas válidas.

arxiv arXiv cs.CL · hace 1 h En vivo

Las voces de IA sexualizadas amplifican las asimetrías de poder de género

Un estudio revela que las voces de IA sexualizadas en plataformas comerciales refuerzan las normas binarias de género. Las voces codificadas como femeninas se describen con mayor frecuencia con términos sumisos y sexualizados, mientras que las voces codificadas como masculinas se asocian con dominancia y rasgos positivos, reflejando asimetrías de poder de género arraigadas.

arxiv arXiv cs.CL · hace 1 h En vivo

CAT-Translate: Modelos compactos japonés-inglés superan a los multilingües en tareas del mundo real

CAT-Translate presenta una familia de modelos pequeños y de código abierto especializados en la traducción japonés-inglés. Mediante el uso de corpus paralelos sintéticos y un enfoque de ajuste fino en dos etapas, los modelos logran un rendimiento superior en benchmarks del mundo real en los ámbitos empresarial, legal, médico, financiero y de patentes, superando a los grandes modelos multilingües en aplicaciones prácticas.

arxiv arXiv cs.CL · hace 1 h En vivo

Generación de informes radiológicos con control de precisión y exhaustividad

Un marco de aprendizaje por refuerzo permite un control preciso de la precisión clínica y la exhaustividad en la generación de informes radiológicos. Al integrar una recompensa clínica y un entrenamiento relativo al grupo, el modelo mejora la eficacia clínica más allá de las métricas de fluidez del lenguaje, superando a los métodos de última generación en el conjunto de datos MIMIC-CXR.