Todos los artículos
arxiv arXiv cs.LG · hace 2 h

BLITZ: Prueba de independencia condicional no paramétrica rápida y calibrada

BLITZ introduce un método de regresión en dos etapas para la prueba de independencia condicional no paramétrica. Primero elimina dependencias suaves amplias mediante regresión polinómica, luego aplica regresiones con árboles poco profundos para residualizar características no lineales, permitiendo pruebas precisas y rápidas con una mejor calibración nula en comparación con los métodos existentes.

arxiv arXiv cs.AI · hace 2 h

STAR: Asignación de recompensa adaptativa espaciotemporal para el post-entrenamiento RL de texto a imagen

STAR introduce un método de asignación de recompensa espaciotemporal para la generación de texto a imagen, utilizando mapas de atención para asignar dinámicamente ventajas en los pasos de desruido. Mejora la alineación semántica, la renderización de texto y la optimización de preferencias en Stable Diffusion 3.5 Medium, logrando 0.9759, 0.9757 y 23.60 en GenEval, OCR y PickScore respectivamente.

arxiv arXiv cs.AI · hace 2 h

Modelado de latentes semántico primero para la reconstrucción de RMN 3D

Un nuevo marco prioriza las semánticas anatómicas durante la compresión latente de RMN 3D, abordando la coherencia a largo plazo y la pérdida de detalles clínicos. Introduce un Codificador de Armonización Latente y un Bloque de Recuperación Semántica para preservar estructuras significativas, y una Pérdida de Frecuencia consciente de la anatomía para mantener las características diagnósticas de alta frecuencia. Los experimentos en conjuntos de datos públicos de RMN muestran una mejor calidad de reconstrucción y síntesis entre contrastes.

arxiv arXiv cs.AI · hace 2 h

McWC: Pronóstico con Ciclicidad, Tendencia y Correlación de Canales

McWC introduce un modelo que captura por separado la ciclicidad, la tendencia y las correlaciones inter-canales en el pronóstico de series temporales a largo plazo. Utiliza construcción de ciclicidad multicapa, descomposición wavelet y un perceptrón multicapa para extraer y fusionar información de alta y baja frecuencia, mientras desacopla las autocorrelaciones intra-canal mediante una pérdida en el dominio de la frecuencia. Los experimentos en seis conjuntos de datos del mundo real muestran que McWC logra un rendimiento de vanguardia con alta eficiencia computacional.

arxiv arXiv cs.LG · hace 2 h

ActiveSAM: Segmentación rápida y precisa de vocabulario abierto

ActiveSAM es un marco sin entrenamiento y zero-shot que mejora SAM 3 para la segmentación semántica de vocabulario abierto identificando un conjunto activo de clases condicionado por imagen. Mejora el equilibrio entre velocidad y precisión, superando a SegEarth-OV3 en +1.4 mIoU en promedio y ejecutándose hasta 5.5 veces más rápido en conjuntos de datos de gran vocabulario, con una fuerte robustez ante la corrupción de imágenes.

arxiv arXiv cs.AI · hace 2 h

C2FL: Aprendizaje Federado Continuo Agrupado bajo Deriva Espacial y Temporal

C2FL es un enfoque de aprendizaje federado distribuido que permite a los nodos autoorganizarse en clústeres espaciales basados en proximidad geográfica. Aborda la deriva temporal combinando repetición de experiencias con promediado adaptivo consciente del tiempo de permanencia, permitiendo a los nodos mantener conocimiento actualizado y específico de la región mientras se adaptan a las distribuciones de datos en evolución.

arxiv arXiv cs.AI · hace 2 h

Teoría del Comportamiento del Consumidor con LLM: Un Nuevo Campo de Investigación

Este artículo presenta la Teoría del Comportamiento del Consumidor con LLM, un nuevo campo que analiza cómo los modelos de lenguaje grandes toman decisiones de consumo en nombre de los usuarios. Unifica investigaciones sobre la toma de decisiones con LLM, la simulación del comportamiento humano y la elicición de preferencias bajo principios económicos, identificando brechas clave en supuestos como la racionalidad y la heterogeneidad en mercados basados en agentes.

arxiv arXiv cs.AI · hace 2 h

LegalHalluLens: Auditoría de alucinaciones en IA legal

LegalHalluLens introduce un marco para auditar alucinaciones de la IA en contextos legales mediante el análisis de perfiles de alucinación tipificados en cuatro categorías de afirmaciones. Revela una brecha de 38-40 puntos entre las afirmaciones obligatorias/numéricas y temporales, y muestra que dos sistemas con tasas de alucinación idénticas del 52% pueden tener direcciones de riesgo opuestas. El marco utiliza un Índice de Dirección de Riesgo y pipelines de debate calibrados para reducir las detecciones fabricadas en un 45% y mejorar la responsabilidad en el despliegue de IA legal.

arxiv arXiv cs.AI · hace 2 h

ProvenanceGuard: Verificación de factualidad consciente de la fuente para agentes LLM basados en MCP

ProvenanceGuard introduce un verificador consciente de la fuente para agentes LLM basados en MCP que detecta la confluencia entre fuentes al enrutar afirmaciones a fuentes de evidencia específicas y comparar la atribución declarada con la propiedad real de la fuente. Logra un F1 por bloque de 0.802 y una precisión de fuente de 0.858 en 260 afirmaciones elegibles por fuente, superando a las líneas base ciegas a la fuente, y detecta todos los intercambios de atribución inyectados en 50 pruebas clínicas.

arxiv arXiv cs.AI · hace 2 h

La experiencia vivida sintética de la IA en el apoyo al cuidado

Los LLM pueden generar respuestas similares a las de pares que imitan narrativas personales, creando una falsa impresión de experiencia vivida. El análisis psicolingüístico muestra que la IA utiliza menos lenguaje en primera persona y centrado en el pasado que los humanos, y a menudo fabrica fundamentos experienciales. Esto revela una brecha en la autenticidad narrativa, requiriendo que los sistemas de IA distingan entre un marco de apoyo y una experiencia vivida fabricada.

arxiv arXiv cs.AI · hace 2 h

PseudoBench: Evaluación de la resistencia de los sistemas de auto-investigación agéntica frente a la seudociencia

PseudoBench evalúa la capacidad de los sistemas de auto-investigación agéntica para detectar afirmaciones seudocientíficas. Al probar siete agentes de última generación, encuentra tasas de rechazo cercanas a cero y solo un 27,4% de resistencia a las narrativas seudocientíficas. Los sistemas actuales suelen presentar la seudociencia con lenguaje científico creíble, lo que destaca un riesgo crítico para la integridad científica.

arxiv arXiv cs.AI · hace 2 h

Indicaciones de seguridad y privacidad en conversaciones usuario-LLM

Un estudio de 14.727 indicaciones de seguridad y privacidad de 3,2M de conversaciones reales entre usuarios y LLMs identifica nueve categorías de preguntas de S&P. El análisis temático y las pruebas de respuesta muestran que los LLMs comerciales superan a los modelos abiertos, con GPT 5.5 proporcionando buenas respuestas en el 98% de las indicaciones frente al 47% de Llama 4, aunque algunos modelos comerciales producen respuestas inconsistentes entre ejecuciones.

arxiv arXiv cs.AI · hace 2 h

ScaFE: Uso de LLMs para extraer características clínicamente significativas de cicatrices

ScaFE propone el uso de modelos de lenguaje grandes como ingenieros de características para transformar imágenes médicas en representaciones clínicamente interpretables. Al generar código Python determinista a partir de criterios establecidos de evaluación de cicatrices, extrae características alineadas con sistemas de puntuación clínica como la Escala de Cicatrices de Vancouver. El método logra un rendimiento superior con datos limitados, con ventajas en eficiencia de datos, preservación de la privacidad e interpretabilidad.

arxiv arXiv cs.AI · hace 2 h

El marco de IA agente reduce errores diagnósticos en la atención médica

Un marco de IA multiagente aborda el traspaso prematuro del diagnóstico y las alucinaciones silenciosas en la atención médica mediante la aplicación estricta de protocolos clínicos estructurados y la cuantificación de la incertidumbre epistémica. Las evaluaciones en 150 casos simulados muestran una precisión diagnóstica del 49,3%, una mejora de 11,3 puntos porcentuales sobre la línea base, con una correlación negativa estadísticamente significativa entre la completitud de OLDCARTS y la incertidumbre diagnóstica.

arxiv arXiv cs.AI · hace 2 h

Los Modelos Generativos de Volterra Introducen Ruido Fraccional para la Generación Basada en Puntuación

Los modelos generativos de Volterra proponen un marco continuo basado en puntuación que utiliza núcleos fraccionarios para inyectar ruido dependiente de la trayectoria, evitando el ruido sin memoria en los modelos de difusión tradicionales. El enfoque emplea elevaciones markovianas de dimensión finita y demuestra una generación mejorada en MNIST y CIFAR-10, con un muestreador de puente que mejora la estabilidad para modelos más grandes.

arxiv arXiv cs.AI · hace 2 h

HyGRAG: Marco unificado para Graph RAG consciente del contexto y las relaciones

HyGRAG introduce un marco de Graph RAG jerárquico que integra información contextual y relacional a través de resúmenes sintetizados. Permite la recuperación de conocimiento emergente mediante búsqueda consciente del contexto y las relaciones en múltiples niveles de abstracción y admite actualizaciones dinámicas con re-resumen local. Los experimentos muestran una mejora del 9,7% en la precisión del razonamiento multi-hop.