Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 128

Gráficos de razonamiento clínico: evaluación estructurada del razonamiento diagnóstico de LLMs revela competencia sin consistencia

Este estudio introduce gráficos de razonamiento clínico para evaluar los patrones de razonamiento diagnóstico de modelos de lenguaje grandes, revelando que, aunque logran competencia, carecen de esquemas de razonamiento consistentes. Los autores extrajeron representaciones gráficas estructuradas a partir de 750 trazos en cinco LLMs y probaron la existencia de patrones de razonamiento estables en casos clínicamente similares.

arxiv arXiv cs.CL · hace 5 h

SABER-Math: Benchmark automatizado para la evaluación de recuperación de información en matemáticas

Los investigadores presentan SABER-Math, el primer benchmark completamente automatizado para evaluar la recuperación de información matemática sin anotación experta, abordando la dificultad de aislar los efectos del recuperador en el rendimiento posterior.

arxiv arXiv cs.CL · hace 5 h

MemDelta: Líneas base controladas y confusores ocultos en la evaluación de memoria de agentes

El artículo presenta MemDelta, un protocolo de evaluación controlada para sistemas de memoria de agentes que aísla componentes individuales para evitar que variables confusas distorsionen los resultados. Utilizando el conjunto de datos LongMemEval-S con 500 preguntas a través de tres familias de modelos, el estudio revela que las ganancias reportadas a menudo mezclan cambios en métodos de memoria con variaciones en modelos de lenguaje o pipelines de recuperación.

arxiv arXiv cs.CL · hace 5 h

¿Puede LLM-as-a-Judge verificar confiablemente rúbricas en escenarios agénticos?

Este estudio investiga la fiabilidad del uso de Modelos de Lenguaje Grande como jueces para verificar rúbricas en complejos escenarios agénticos, presentando RuVerBench como el primer benchmark para este propósito. La investigación evalúa modelos de vanguardia en tareas de investigación profunda y codificación, revelando que, aunque el rendimiento es sólido, persiste un ruido significativo en la verificación.

arxiv arXiv cs.CL · hace 5 h

Hacia intuiciones físicas para la dinámica de alineación: Un estudio de caso con cristalización de aleatoriedad

Este artículo propone utilizar la teoría de transiciones de fase termodinámicas para comprender la dinámica de la alineación de modelos de lenguaje durante el post-entrenamiento, específicamente a través de la lente de la cristalización de materiales. Los autores argumentan que este marco físico proporciona un vocabulario fundamentado para razonar sobre cómo cambian los modelos y de dónde origina la estructura inducida por la alineación.

arxiv arXiv cs.CL · hace 5 h

ParametricSkills: Convertir habilidades textuales en adaptadores LoRA

Los autores proponen ParametricSkills, un marco que convierte habilidades de texto libre en parámetros en el momento de la prueba mediante el entrenamiento de una hiperred para generar adaptadores LoRA. Este enfoque permite la explotación de habilidades sin contexto, abordando la dificultad de adherirse a las instrucciones en escenarios complejos.

arxiv arXiv cs.CL · hace 5 h

Pequeños cerebros, grandes hazañas: Explorando modelos de lenguaje compactos

Este estudio investiga el rendimiento de los modelos de lenguaje pequeños durante la etapa de generación dentro de un sistema de Generación Aumentada por Recuperación (RAG). La investigación evalúa estos modelos utilizando conjuntos de datos diversos de código abierto y propietarios para evaluar su efectividad en varias áreas temáticas.

github llama.cpp · hace 5 h

Lanzamiento b9846 de llama.cpp con optimización de matmul Vulkan para Asahi Linux

El proyecto llama.cpp ha lanzado la versión b9846, que incluye una optimización del backend Vulkan para Asahi Linux. Esta actualización revierte el bucle del tamaño de bloque en la multiplicación de matrices para mejorar la compatibilidad y el rendimiento en hardware Apple Silicon ejecutando Linux.

arxiv arXiv cs.CL · hace 6 h

LatentRevise: Aprendizaje a partir de razonamiento con cero aciertos

El artículo presenta LatentRevise, un método de revisión latente de primer orden diseñado para recuperar señales de entrenamiento en aprendizaje por refuerzo con recompensas verificables (RLVR) para prompts donde las trayectorias correctas se muestrean raramente. Al optimizar los embeddings de entrada de un prefijo de razonamiento basándose en rollouts fallidos y respuestas doradas, el método genera datos útiles a partir de intentos previamente improductivos.

arxiv arXiv cs.CL · hace 6 h

Saber antes de recuperar: Asignación calibrada del presupuesto de recuperación para la generación aumentada por recuperación

Este artículo presenta un marco de trabajo de RAG adaptativo que asigna presupuestos de recuperación al calibrar las señales de incertidumbre de log-probabilidad de secuencia y logit de prefijo en probabilidades de corrección. El sistema decide si responder con conocimiento interno, recuperar un contexto compacto (k=1), recuperar un contexto completo (k=5) o abstenerse basándose en estas probabilidades calibradas.

arxiv arXiv cs.CL · hace 6 h

IHDec: Decodificación contrastiva guiada por divergencia para asegurar jerarquías de instrucciones en múltiples turnos

IHDec aborda el fallo de los Modelos de Lenguaje Grandes (LLM) para mantener jerarquías de instrucciones en contextos de múltiples turnos, aprovechando la Divergencia de Jensen-Shannon para detectar y corregir inversiones de influencia de roles. Este método sin entrenamiento suprime dinámicamente los roles subordinados que anulan las directivas superiores durante la generación de tokens.

arxiv arXiv cs.CL · hace 6 h

¿Medimos la estrategia o la redacción? La brecha entre la diversidad superficial y la de enfoque en el razonamiento matemático de LLM

Este estudio introduce la diversidad de enfoque para abordar la brecha entre la variación superficial y las diferencias estratégicas reales en el razonamiento matemático de LLM. Demuestra que las métricas anteriores no logran capturar la verdadera diversidad metodológica, lo que lleva a un declive en la diversidad de enfoque durante el entrenamiento de RLVR consciente de la diversidad.

arxiv arXiv cs.CL · hace 6 h

VISTA: Un panel de control propioceptivo para la gestión del contexto de LLM

El artículo presenta VISTA, una capa sin entrenamiento diseñada para abordar las limitaciones de la ventana de contexto de los agentes de herramientas a largo plazo exponiendo su estado interno. Argumenta que los modelos de vanguardia son ciegos ante su propio uso del contexto y propone una interfaz que muestra detalles de la memoria de trabajo en lugar de depender de políticas de compresión aprendidas.

arxiv arXiv cs.CL · hace 6 h

Consistencia semántica nodo-vecindario: Alineación texto-topología para detección de anomalías en TAGs

Este artículo aborda la detección de anomalías en grafos atribuidos con texto al formalizarla como un problema de consistencia semántica nodo-vecindario, donde las anomalías surgen de discrepancias entre la semántica textual y las relaciones topológicas. Los autores proponen N2NSC, un marco que utiliza dos caminos de fusión complementarios para alinear la topología del grafo con la semántica textual, permitiendo que los modelos de lenguaje grandes aprovechen tanto la información estructural como la textual del vecindario.

arxiv arXiv cs.CL · hace 6 h

SHOVIR: Una evaluación para medir el aprendizaje de atajos visuales en la generación de informes radiológicos

La evaluación SHOVIR mide el aprendizaje de atajos visuales en la generación de informes radiológicos al extender MIMIC-CXR y PadChest-GR con etiquetas CheXpert por cuadro. Utiliza experimentos de oclusión a nivel de imagen y de enfermedad para aislar atajos directos y contextuales donde los modelos dependen de correlaciones espurias en lugar de evidencia visual real.

github llama.cpp · hace 6 h

la versión b9844 de llama.cpp añade soporte NVFP4 y nuevos binarios

El proyecto llama.cpp ha lanzado la versión b9844, que introduce soporte ggml-webgpu para el formato de cuantización NVFP4. Esta actualización también proporciona binarios precompilados para macOS, iOS, Linux, Android, Windows y openEuler en varios backends de hardware.

arxiv arXiv cs.CL · hace 7 h

Sabores casi-humanos: el omnivorismo estilizado de los sustitutos de encuestas de LLM

Este estudio evalúa la capacidad de los modelos de lenguaje grandes para aproximar los gustos culturales humanos generando sustitutos de silicio a partir de la Encuesta de Participación Pública en las Artes. Utilizando modelos de OpenAI, Anthropic y DeepSeek, los autores analizan 277.470 encuestados sintéticos para determinar si los LLM pueden replicar fielmente los datos de encuestas del mundo real.

arxiv arXiv cs.CL · hace 7 h

Generación aumentada por recuperación eficiente mediante grafos de coocurrencia de tokens

Los investigadores proponen TIGRAG (Token-Induced GraphRAG), un marco que utiliza estadísticas de coocurrencia de tokens para construir grafos de conocimiento escalables para la generación aumentada por recuperación eficiente. Este enfoque aborda las limitaciones del RAG estándar en el razonamiento multi-paso al evitar costosos pipelines de extracción basados en LLM.

arxiv arXiv cs.CL · hace 7 h

Dinámica de la Información en la Comunicación del Lenguaje

Los investigadores presentan un marco teórico de la información para cuantificar el flujo dirigido del contenido semántico entre interlocutores y descomponer las contribuciones de múltiples fuentes en componentes redundantes, únicos y sinérgicos.

arxiv arXiv cs.CL · hace 7 h

¿Realmente ayuda el pensamiento en cadena detallado? Evidencia dentro de la distribución de que el contenido, no la longitud, es lo que importa

Este estudio investiga si el uso de prompts de pensamiento en cadena detallados mejora el razonamiento de los modelos de lenguaje grandes mediante un mayor cómputo o al proporcionar contenido semántico útil. Los autores presentan evidencia obtenida del muestreo dentro de la distribución e intervenciones controladas para determinar los factores específicos que impulsan las mejoras en el rendimiento.