Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 86

MKAN: Redes de Kolmogorov-Arnold monótonas con monotonía estricta

MKAN introduce una Red de Kolmogorov-Arnold con monotonía estricta garantizada para todos los valores de parámetros, lograda mediante reparametrización exponencial, pesos de arista positivos y una activación base monótona. Permite el entrenamiento con descenso de gradiente estándar y proporciona un teorema de costo de representación que muestra que cualquier extractor de características puede realizarse con estructura monótona a un tamaño no mayor que el doble del original, ofreciendo una regla de escalado fundamentada para codificadores monótonos.

arxiv arXiv cs.LG · hace 4 h

La dimensionalidad controla cuándo la modularidad ayuda en el aprendizaje continuo

La arquitectura modular mejora el aprendizaje continuo composicional solo en regímenes de baja dimensionalidad donde los subespacios representacionales se alinean parcialmente para tareas similares. En regímenes de alta dimensionalidad, tanto las redes modulares como las únicas tienen un rendimiento similar, lo que indica que el beneficio de la modularidad depende de la dimensionalidad representacional inducida por la escala de inicialización.

arxiv arXiv cs.LG · hace 4 h

KANLib: Un marco modular y eficiente para redes de Kolmogorov-Arnold

KANLib presenta un marco modular, extensible y computacionalmente eficiente para Redes de Kolmogorov-Arnold. Unifica conceptos clave de PyKAN, EfficientKAN y FastKAN, admitiendo reescalado adaptativo de cuadrículas y personalización arquitectónica fina mientras mantiene la compatibilidad con PyTorch. Los experimentos en el conjunto de datos California Housing muestran que KANLib logra una eficiencia competitiva y reproduce el rendimiento establecido de KAN.

arxiv arXiv cs.LG · hace 4 h

Ret-DNN híbrido con XGBoost para la predicción del comportamiento del cliente

Un estudio propone un modelo híbrido de Ret-DNN con XGBoost para predecir el comportamiento del cliente en el comercio electrónico. Utilizando 500,000 registros de transacciones de un minorista del Reino Unido, el modelo logra un Error Absoluto Medio de 0.2193, superando al modelo Ret-DNN existente.

arxiv arXiv cs.LG · hace 4 h

SoftMoE: Enrutamiento suave y diferenciable para Mezcla de Expertos en LLMs

SoftMoE reemplaza el enrutamiento discreto top-k con una relajación LapSum suave y diferenciable top-k, permitiendo la optimización basada en gradientes de la selección de expertos. Aprende a asignar la activación del experto de forma no uniforme entre capas, con las capas posteriores activando más expertos, mientras utiliza significativamente menos expertos que el MoE disperso tradicional.

arxiv arXiv cs.LG · hace 4 h

CERS: Razonamiento mejorado con Cadena de Pensamiento para la segmentación de imágenes médicas

CERS introduce el razonamiento de Cadena de Pensamiento para mejorar la segmentación semi-supervisada de imágenes médicas integrando descripciones lingüísticas de modelos de lenguaje grandes. Utiliza una selección de referencia consciente de la semántica y atención de coordenadas multiescala para resolver ambigüedades en los bordes e inconsistencias semánticas, superando a los métodos más avanzados en escenarios clínicos con desajuste visual-semántico.

arxiv arXiv cs.LG · hace 4 h

Privacidad diferencial en el muestreo posterior de procesos gaussianos

El muestreo posterior de procesos gaussianos proporciona inherentemente privacidad diferencial debido a su aleatoriedad intrínseca. Los límites explícitos de Rényi-DP muestran que la privacidad depende de la regularización ridge, con ataques de inferencia de pertenencia que confirman los patrones de fuga predichos. Añadir ruido GP calibrado mejora la privacidad mientras mantiene la utilidad en tareas posteriores.

arxiv arXiv cs.LG · hace 4 h

McWC: Pronóstico con Ciclicidad, Tendencia y Correlación de Canales

McWC introduce un modelo que captura por separado la ciclicidad, la tendencia y las correlaciones inter-canales en el pronóstico de series temporales a largo plazo. Utiliza construcción de ciclicidad multicapa, descomposición wavelet y un perceptrón multicapa para extraer y fusionar información de alta y baja frecuencia, mientras desacopla las autocorrelaciones intra-canal mediante una pérdida en el dominio de la frecuencia. Los experimentos en seis conjuntos de datos del mundo real muestran que McWC logra un rendimiento de vanguardia con alta eficiencia computacional.

arxiv arXiv cs.LG · hace 4 h

Suficiencia del enlace parcial en modelos de fundación de grafos de conocimiento

Un nuevo estudio muestra que los KGFMs pueden predecir enlaces completos utilizando solo observaciones parciales, como enlaces parciales. Identifica cuatro escenarios basados en enlaces parciales observados y revela que los modelos de última generación aprovechan los enlaces parciales vistos, mientras que los no vistos presentan desafíos significativos de generalización. Esta taxonomía ofrece un marco diagnóstico para evaluar y mejorar la robustez del KGFM.

arxiv arXiv cs.LG · hace 4 h

C2FL: Aprendizaje Federado Continuo Agrupado bajo Deriva Espacial y Temporal

C2FL es un enfoque de aprendizaje federado distribuido que permite a los nodos autoorganizarse en agrupaciones espaciales basadas en proximidad geográfica. Aborda la deriva temporal combinando repetición de experiencias con promediado adaptativo consciente del tiempo de permanencia, permitiendo a los nodos mantener conocimiento actualizado y específico de la región mientras se adaptan a las condiciones ambientales cambiantes.

arxiv arXiv cs.LG · hace 4 h

BLITZ: Prueba de independencia condicional no paramétrica rápida y calibrada

BLITZ introduce un método de regresión en dos etapas para la prueba de independencia condicional no paramétrica. Primero elimina dependencias suaves amplias mediante regresión polinómica, luego aplica regresiones con árboles poco profundos para residualizar características no lineales, permitiendo pruebas precisas y rápidas con una mejor calibración nula en comparación con los métodos existentes.

arxiv arXiv cs.AI · hace 4 h

STAR: Asignación de recompensa adaptativa espaciotemporal para el post-entrenamiento RL de texto a imagen

STAR introduce un método de asignación de recompensa espaciotemporal para la generación de texto a imagen, utilizando mapas de atención para asignar dinámicamente ventajas en los pasos de desruido. Mejora la alineación semántica, la renderización de texto y la optimización de preferencias en Stable Diffusion 3.5 Medium, logrando 0.9759, 0.9757 y 23.60 en GenEval, OCR y PickScore respectivamente.

arxiv arXiv cs.AI · hace 4 h

Modelado de latentes semántico primero para la reconstrucción de RMN 3D

Un nuevo marco prioriza las semánticas anatómicas durante la compresión latente de RMN 3D, abordando la coherencia a largo plazo y la pérdida de detalles clínicos. Introduce un Codificador de Armonización Latente y un Bloque de Recuperación Semántica para preservar estructuras significativas, y una Pérdida de Frecuencia consciente de la anatomía para mantener las características diagnósticas de alta frecuencia. Los experimentos en conjuntos de datos públicos de RMN muestran una mejor calidad de reconstrucción y síntesis entre contrastes.

arxiv arXiv cs.AI · hace 4 h

McWC: Pronóstico con Ciclicidad, Tendencia y Correlación de Canales

arxiv arXiv cs.AI · hace 4 h

Se lanza el conjunto de datos de presentaciones EDGAR de Stanford

Stanford presenta SEFD, una reconstrucción fiel a la disposición de las presentaciones ante la SEC en MultiMarkdown. El conjunto de datos SEFD-v1 con 152B tokens permite el modelado del lenguaje financiero e incluye benchmarks para pronósticos y transcripción de tablas, con menos del 0.1% de superposición con Common Crawl.

arxiv arXiv cs.LG · hace 4 h

ActiveSAM: Segmentación rápida y precisa de vocabulario abierto

ActiveSAM es un marco sin entrenamiento y zero-shot que mejora SAM 3 para la segmentación semántica de vocabulario abierto identificando un conjunto activo de clases condicionado por imagen. Mejora el equilibrio entre velocidad y precisión, superando a SegEarth-OV3 en +1.4 mIoU en promedio y ejecutándose hasta 5.5 veces más rápido en conjuntos de datos de gran vocabulario, con una fuerte robustez ante la corrupción de imágenes.

arxiv arXiv cs.AI · hace 5 h

Bucle ReAct compatible con T-API para redes ópticas

Se introduce un bucle agénico ReAct compatible con T-API para redes ópticas, que permite la gestión en circuito cerrado basada en intenciones. Las herramientas compuestas específicas del dominio logran una corrección validada por oráculo del 90% y reducen el uso de tokens en tres veces en comparación con las herramientas genéricas.

arxiv arXiv cs.AI · hace 5 h

C2FL: Aprendizaje Federado Continuo Agrupado bajo Deriva Espacial y Temporal

C2FL es un enfoque de aprendizaje federado distribuido que permite a los nodos autoorganizarse en clústeres espaciales basados en proximidad geográfica. Aborda la deriva temporal combinando repetición de experiencias con promediado adaptivo consciente del tiempo de permanencia, permitiendo a los nodos mantener conocimiento actualizado y específico de la región mientras se adaptan a las distribuciones de datos en evolución.

arxiv arXiv cs.AI · hace 5 h

Teoría del Comportamiento del Consumidor con LLM: Un Nuevo Campo de Investigación

Este artículo presenta la Teoría del Comportamiento del Consumidor con LLM, un nuevo campo que analiza cómo los modelos de lenguaje grandes toman decisiones de consumo en nombre de los usuarios. Unifica investigaciones sobre la toma de decisiones con LLM, la simulación del comportamiento humano y la elicición de preferencias bajo principios económicos, identificando brechas clave en supuestos como la racionalidad y la heterogeneidad en mercados basados en agentes.

arxiv arXiv cs.AI · hace 5 h

LegalHalluLens: Auditoría de alucinaciones en IA legal

LegalHalluLens introduce un marco para auditar alucinaciones de la IA en contextos legales mediante el análisis de perfiles de alucinación tipificados en cuatro categorías de afirmaciones. Revela una brecha de 38-40 puntos entre las afirmaciones obligatorias/numéricas y temporales, y muestra que dos sistemas con tasas de alucinación idénticas del 52% pueden tener direcciones de riesgo opuestas. El marco utiliza un Índice de Dirección de Riesgo y pipelines de debate calibrados para reducir las detecciones fabricadas en un 45% y mejorar la responsabilidad en el despliegue de IA legal.