Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 79

Memorias latentes ligeras y experienciales para la mejora continua

Un nuevo método permite que los modelos de lenguaje grandes aprendan de sus propias trazas de razonamiento sin supervisión externa. Al destilar el cómputo del tiempo de inferencia en memorias latentes ligeras y modulares, el modelo logra un rendimiento competitivo con el entrenamiento completo y supera las líneas base de cero disparos y ICL crudo en tareas de razonamiento matemático, con una sobrecarga computacional mínima.

arxiv arXiv cs.LG · hace 2 h

QueryMarket: Aprendizaje Activo en Línea Sensible al Costo en Mercados de Datos

QueryMarket introduce OVBAL, un marco de aprendizaje activo en línea basado en varianza que estima la utilidad marginal de cada punto de datos utilizando un criterio de D-optimalidad con olvido exponencial. OVBAL selecciona muestras basándose en utilidad y precio, operando bajo restricciones presupuestarias móviles y adaptándose a la deriva conceptual, mostrando mejores compensaciones entre error y costo en tareas de pronóstico de energía solar.

arxiv arXiv cs.LG · hace 2 h

No-Free-Fairness: Límites fundamentales en sistemas de aprendizaje

El artículo introduce teoremas de 'No-Free-Fairness' que demuestran tres límites fundamentales en los sistemas de aprendizaje. Estos incluyen compensaciones inherentes entre equidad y costo, disparidad inevitable entre subgrupos en muestras finitas y restricciones de expresividad del modelo que impiden la equidad independientemente de los datos. Los resultados muestran que la equidad está limitada por la estructura del problema, los límites de los datos y la capacidad del modelo, no solo por datos sesgados.

arxiv arXiv cs.LG · hace 2 h

Leyes de conservación para arquitecturas neuronales modernas

Este artículo presenta un marco unificado para identificar leyes de conservación en el flujo del gradiente para arquitecturas neuronales modernas. Cubre redes feedforward con activaciones GELU, SiLU y SwiGLU, atención multi-cabeza con codificaciones posicionales sinusoidales y rotatorias, y modelos Mixture-of-Experts bajo varios esquemas de gating. Los experimentos validan los invariantes predichos, apoyando los hallazgos teóricos.

arxiv arXiv cs.LG · hace 2 h

Equivalencia funcional en la atención con codificaciones posicionales

Un estudio exhaustivo revela que las codificaciones posicionales sinusoidales preservan la equivalencia funcional en los Transformers, mientras que las codificaciones posicionales rotatorias reducen la simetría, mejorando la expresividad. La investigación muestra que las codificaciones posicionales influyen críticamente en la conectividad de modo lineal, con resultados empíricos que demuestran variabilidad en la conectividad dependiendo de la codificación utilizada.

arxiv arXiv cs.LG · hace 2 h

Estabilización de creencias en LLM mediante remuestreo predictivo con indicaciones

Los modelos de lenguaje grandes presentan una deriva temprana de las creencias en la respuesta a preguntas de opción múltiple, violando la propiedad de martingala. El remuestreo predictivo con indicaciones (PPR) revela esta deriva, que se autoestabiliza tras un remuestreo suficiente, conduciendo a distribuciones predictivas coherentes. Proponemos una estrategia de indicación con respuesta semilla y una pérdida de autoconsistencia para acelerar la estabilización y reducir la deriva, mejorando la coherencia predictiva sin afectar la precisión.

arxiv arXiv cs.LG · hace 2 h

Qwen-RobotManip logra generalización en manipulación robótica

Qwen-RobotManip, un modelo base de Visión-Lenguaje-Acción, permite el entrenamiento a gran escala mediante una alineación unificada entre representación, movimiento y comportamiento. Utiliza datos de código abierto para construir un corpus de preentrenamiento de 38.100 horas y demuestra generalización emergente, superando a los modelos anteriores más avanzados en configuraciones fuera de la distribución y ocupando el primer lugar en RoboChallenge con una mejora relativa del 20% en plataformas de robots reales.

arxiv arXiv cs.LG · hace 2 h

WallZero supera a los profesionales de Go en WallGo

WallZero, un agente basado en AlphaZero, derrota a dos jugadores profesionales de Go en WallGo, promediando 1.98x más territorio por partida. El estudio encuentra que la apertura de la serie de Netflix crea un juego más equilibrado, sugiriendo una mayor equidad en el juego.

arxiv arXiv cs.LG · hace 2 h

Meta-clasificación de modelos de una clase mediante ranking y vecino más cercano

Este artículo propone un método de meta-clasificación para modelos de clasificación de una clase representándolos como rangos de normalidad y utilizando correlación de rangos y métricas de vecino más cercano. El enfoque logra alta precisión al clasificar modelos basados en conjuntos de datos de entrenamiento, algoritmos e hiperparámetros, y funciona incluso cuando los conjuntos de datos comparten la misma clase. El método clasifica eficazmente los conjuntos de datos tratando múltiples muestras como una única entrada, ofreciendo una solución unificada para modelos OCC, conjuntos de datos y rangos.

arxiv arXiv cs.LG · hace 2 h

AnchorKV: Compresión de caché KV consciente de la seguridad con ancla de rechazo

AnchorKV introduce un mecanismo de penalización suave para sesionar la retención de tokens en la caché KV alejándola de direcciones de prompt dañinas. Utiliza una ancla de espacio de proyección de clave específica por capa derivada de la ingeniería de representaciones para mejorar la alineación de seguridad sin sacrificar mucha utilidad, ofreciendo una solución plug-in que mejora la defensa contra ataques de jailbreak.

arxiv arXiv cs.LG · hace 2 h

Representaciones de nivel de celda independientes del orden para el reconocimiento de tablas multitarea

Este artículo introduce un módulo de refinamiento estructural que utiliza atención no causal para generar características de celda independientes del orden en el reconocimiento de tablas multitarea autoregresivo. El enfoque permite la inferencia paralela del contenido de las celdas mientras mantiene el contexto global, mejorando la localización de las celdas y el reconocimiento de extremo a extremo con una reducción triple en el tiempo de inferencia.

arxiv arXiv cs.LG · hace 2 h

MKAN: Redes de Kolmogorov-Arnold monótonas con monotonía estricta

MKAN introduce una Red de Kolmogorov-Arnold con monotonía estricta garantizada para todos los valores de parámetros, lograda mediante reparametrización exponencial, pesos de arista positivos y una activación base monótona. Permite el entrenamiento con descenso de gradiente estándar y proporciona un teorema de costo de representación que muestra que cualquier extractor de características puede realizarse con estructura monótona a un tamaño no mayor que el doble del original, ofreciendo una regla de escalado fundamentada para codificadores monótonos.

arxiv arXiv cs.LG · hace 2 h

La dimensionalidad controla cuándo la modularidad ayuda en el aprendizaje continuo

La arquitectura modular mejora el aprendizaje continuo composicional solo en regímenes de baja dimensionalidad donde los subespacios representacionales se alinean parcialmente para tareas similares. En regímenes de alta dimensionalidad, tanto las redes modulares como las únicas tienen un rendimiento similar, lo que indica que el beneficio de la modularidad depende de la dimensionalidad representacional inducida por la escala de inicialización.

arxiv arXiv cs.LG · hace 2 h

KANLib: Un marco modular y eficiente para redes de Kolmogorov-Arnold

KANLib presenta un marco modular, extensible y computacionalmente eficiente para Redes de Kolmogorov-Arnold. Unifica conceptos clave de PyKAN, EfficientKAN y FastKAN, admitiendo reescalado adaptativo de cuadrículas y personalización arquitectónica fina mientras mantiene la compatibilidad con PyTorch. Los experimentos en el conjunto de datos California Housing muestran que KANLib logra una eficiencia competitiva y reproduce el rendimiento establecido de KAN.

arxiv arXiv cs.LG · hace 2 h

Ret-DNN híbrido con XGBoost para la predicción del comportamiento del cliente

Un estudio propone un modelo híbrido de Ret-DNN con XGBoost para predecir el comportamiento del cliente en el comercio electrónico. Utilizando 500,000 registros de transacciones de un minorista del Reino Unido, el modelo logra un Error Absoluto Medio de 0.2193, superando al modelo Ret-DNN existente.

arxiv arXiv cs.LG · hace 2 h

SoftMoE: Enrutamiento suave y diferenciable para Mezcla de Expertos en LLMs

SoftMoE reemplaza el enrutamiento discreto top-k con una relajación LapSum suave y diferenciable top-k, permitiendo la optimización basada en gradientes de la selección de expertos. Aprende a asignar la activación del experto de forma no uniforme entre capas, con las capas posteriores activando más expertos, mientras utiliza significativamente menos expertos que el MoE disperso tradicional.

arxiv arXiv cs.LG · hace 2 h

CERS: Razonamiento mejorado con Cadena de Pensamiento para la segmentación de imágenes médicas

CERS introduce el razonamiento de Cadena de Pensamiento para mejorar la segmentación semi-supervisada de imágenes médicas integrando descripciones lingüísticas de modelos de lenguaje grandes. Utiliza una selección de referencia consciente de la semántica y atención de coordenadas multiescala para resolver ambigüedades en los bordes e inconsistencias semánticas, superando a los métodos más avanzados en escenarios clínicos con desajuste visual-semántico.

arxiv arXiv cs.LG · hace 2 h

Privacidad diferencial en el muestreo posterior de procesos gaussianos

El muestreo posterior de procesos gaussianos proporciona inherentemente privacidad diferencial debido a su aleatoriedad intrínseca. Los límites explícitos de Rényi-DP muestran que la privacidad depende de la regularización ridge, con ataques de inferencia de pertenencia que confirman los patrones de fuga predichos. Añadir ruido GP calibrado mejora la privacidad mientras mantiene la utilidad en tareas posteriores.

arxiv arXiv cs.LG · hace 2 h

McWC: Pronóstico con Ciclicidad, Tendencia y Correlación de Canales

McWC introduce un modelo que captura por separado la ciclicidad, la tendencia y las correlaciones inter-canales en el pronóstico de series temporales a largo plazo. Utiliza construcción de ciclicidad multicapa, descomposición wavelet y un perceptrón multicapa para extraer y fusionar información de alta y baja frecuencia, mientras desacopla las autocorrelaciones intra-canal mediante una pérdida en el dominio de la frecuencia. Los experimentos en seis conjuntos de datos del mundo real muestran que McWC logra un rendimiento de vanguardia con alta eficiencia computacional.

arxiv arXiv cs.LG · hace 2 h

Suficiencia del enlace parcial en modelos de fundación de grafos de conocimiento

Un nuevo estudio muestra que los KGFMs pueden predecir enlaces completos utilizando solo observaciones parciales, como enlaces parciales. Identifica cuatro escenarios basados en enlaces parciales observados y revela que los modelos de última generación aprovechan los enlaces parciales vistos, mientras que los no vistos presentan desafíos significativos de generalización. Esta taxonomía ofrece un marco diagnóstico para evaluar y mejorar la robustez del KGFM.