Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 83

CARLOS: RL profundo para la detención óptima en tiempo continuo

CARLOS utiliza una red neuronal profunda agregada para aprender una frontera de ejercicio conjunta espacio-temporal para problemas de detención óptima. Refina progresivamente las decisiones de detención a resoluciones temporales más finas y emplea muestreo adaptativo para centrar el entrenamiento cerca de la frontera de detención. Los resultados de benchmark muestran que CARLOS supera a los solucionadores existentes de Bermudan, acercándose al límite superior americano con alta eficiencia.

arxiv arXiv cs.LG · hace 3 h

Reversión Q-Learning: Un nuevo algoritmo de RL off-policy

La Reversión Q-Learning (RQL) es un nuevo algoritmo de aprendizaje por refuerzo off-policy que entrena una política de flujo utilizando datos previos. Al modelar los pasos de refinamiento del flujo como acciones en un proceso de decisión de Markov expandido y aplicar trayectorias on-policy virtuales mediante reversión, RQL permite un aprendizaje offline efectivo sin retropropagación a través del tiempo. Los experimentos en 50 tareas robóticas muestran que RQL logra el mejor rendimiento promedio entre los métodos más avanzados de RL offline basados en flujo.

arxiv arXiv cs.LG · hace 3 h

Marco ST-CND para la alerta temprana de puntos de inflexión geográficos

El diagnóstico de redes causales espaciotemporales (ST-CND) introduce un marco basado en datos para detectar puntos de inflexión geográficos modelando campos espaciales como redes causales que evolucionan en el tiempo. Supera a los métodos existentes en benchmarks de temperatura de la superficie del mar, logrando una AUROC de 0.783 y una IoU de subred crítica de 0.378 para la AMOC del Atlántico Norte.

arxiv arXiv cs.LG · hace 3 h

AoiZora: Optimización auto-paralela consciente de la topología para inferencia de difusión de video

AoiZora es un planificador de topología mediado por compilador que mejora la inferencia de difusión de video de baja latencia en sub-slices de TPU. Al alinear el fragmentado lógico con la colocación física a través del flujo de compilación, reduce la latencia de desruido de un paso hasta 1.42x en sub-slices de TPU v5e en comparación con los métodos existentes.

arxiv arXiv cs.LG · hace 3 h

SCBoost: Reducir la redundancia del aprendiz mediante ortogonalización residual

SCBoost introduce la ortogonalización residual para eliminar la redundancia del aprendiz en el boosting. Utiliza Proyección Residual Espectral y Ponderación Regularizada por Covarianza para asegurar que cada aprendiz capture componentes de error novedosos y reduzca las correlaciones del conjunto. El análisis teórico y los experimentos muestran una mejora en la precisión y las puntuaciones F1 en diez conjuntos de datos de referencia.

arxiv arXiv cs.LG · hace 3 h

Credit-in-Event: Reanclando el crédito del evento en modelos de dinámica

Un nuevo método llamado Credit-in-Event identifica y aborda la dilución temporal del crédito en modelos de dinámica aprendidos. CREST, una lectura sin etiquetas y sin entrenamiento, reancla las representaciones agrupadas estimando los núcleos transitorios de los eventos y aplicando contraste entre evento y resto, reduciendo el error fuera de distribución en múltiples sistemas y tipos de datos. Las ablativos confirman que la mejora proviene del reanclaje del crédito del núcleo del evento, no de priores genéricos de localidad o estabilidad.

arxiv arXiv cs.LG · hace 3 h

Las características de LLM pueden perjudicar a los GNNs mediante interferencia por concatenación

Concatenar características generadas por LLM a redes neuronales gráficas reduce sistemáticamente la precisión en benchmarks homofílicos, con una caída de la precisión en PubMed de -17.0 +/- 0.3 pp. Una medida de discriminabilidad solo de LLM, Delta_sig, se correlaciona fuertemente con el rendimiento por concatenación (r^2 = 0.38), y una regla basada en Delta_sig <= 13.8 pp predice correctamente un impacto no positivo en 7 de cada 9 conjuntos de datos.

arxiv arXiv cs.LG · hace 3 h

SelFix: Inversión de punto fijo con selección de raíz para flujos rectificados mediante la linealidad de trayectorias

SelFix mejora la inversión de punto fijo seleccionando soluciones que producen trayectorias inversas más rectas, mejorando la reconstrucción de imágenes reales y la edición que preserva la fuente. Los experimentos en FLUX.1-dev y PIE-Bench muestran que supera a las líneas base anteriores tanto en calidad de reconstrucción como en fidelidad de edición.

arxiv arXiv cs.LG · hace 3 h

SPHERE-JEPA: Familia de Regularizadores Estadísticos para la Hiperesfera

SPHERE-JEPA introduce regularizadores estadísticos deterministas en la hiperesfera, reemplazando métodos estocásticos segmentados con objetivos integrados analíticamente como MMD, KSD y divergencia KL. Los núcleos invariantes por rotación basados en filtros de calor y limitados en banda garantizan un aprendizaje libre de sesgo espacial, con resultados empíricos que muestran una convergencia y rendimiento mejorados en ImageNet y Galaxy10, y una separación de instancias superior en la recuperación de texturas procedimentales utilizando divergencia KL.

arxiv arXiv cs.LG · hace 3 h

SkillMigrator: Patrones de interacción transferibles para la eficiencia de agentes web

SkillMigrator aprende habilidades web reutilizables al emparejar estructuras de diseño en lugar de referencias a elementos. Almacena cada habilidad como un patrón de interacción transferible con un boceto estructural, lo que permite una transferencia eficiente de habilidades entre sitios. En comparación con los métodos más avanzados, reduce el recuento promedio de acciones del LLM en un 8-10% en WebArena y Mind2Web a tasas de éxito equivalentes.

media r/LocalLLaMA · hace 3 h

Qwen3-VL-2B destaca en la extracción de JSON en hardware de gama baja

Un usuario informa que Qwen3-VL-2B es el único modelo viable de visión y lenguaje para extraer datos de imágenes a JSON de forma fiable en dispositivos con especificaciones bajas, como portátiles Intel i3 con 8GB de RAM. El autor señala que, a pesar de su rendimiento, el modelo está ausente de las principales evaluaciones como Artificial Analysis y la Open LLM Leaderboard.

arxiv arXiv cs.LG · hace 3 h

Marco de descomposición de riesgos para la predicción del ajuste fino previo

Un nuevo marco descompone el riesgo de predicción del ajuste fino previo en límites intrínsecos y varianza de optimización. Demuestra un límite inferior necesario para el decaimiento de la varianza e introduce una estrategia de sondeo óptima en términos de presupuesto, validada a través de benchmarks sintéticos y del mundo real mediante tres regímenes de predicción distintos.

arxiv arXiv cs.LG · hace 3 h

Las redes neuronales con restricciones físicas mejoran la predicción del clima

Un estudio mejora las redes neuronales con restricciones físicas mediante la introducción de un solucionador numérico actualizado, un bloque autoregresivo unificado y dos arquitecturas de red neuronal. Estas mejoras reducen el error cuadrático medio en un 8-22% en pronósticos a corto plazo sobre el Pacífico Sur y preservan mejor la consistencia física.

arxiv arXiv cs.LG · hace 3 h

TUNEAHEAD Predice el Rendimiento del Ajuste Fino Antes del Entrenamiento

TUNEAHEAD es un marco ligero que predice el rendimiento del ajuste fino utilizando vectores de metacaracterísticas a partir de descriptores de conjuntos de datos y ejecuciones de prueba cortas. Supera a las líneas base como la Extrapolación de Parada Temprana y ProxyLM, logrando una RMSE de 1.47 puntos porcentuales y el 95.1% de las predicciones dentro de ±3 puntos porcentuales de los puntajes verdaderos en 370 ejecuciones retenidas.

arxiv arXiv cs.LG · hace 3 h

Parches de grafos aprendibles para la heterogeneidad de características

Proponemos parches de grafos aprendibles como las unidades semánticas más pequeñas en datos de grafos para abordar la heterogeneidad de características sin información textual. Nuestro marco utiliza codificadores y agregadores de parches para extraer y combinar conocimiento entre dominios, permitiendo el preentrenamiento universal y un mejor rendimiento en tareas posteriores con más datos de preentrenamiento.

arxiv arXiv cs.LG · hace 3 h

ASTEROID: Transformer para Pronóstico de MD Multietapa

ASTEROID es un marco impulsado por datos que predice coordenadas atómicas multietapa en simulaciones de dinámica molecular sin integración iterativa. Utiliza una arquitectura Transformer espaciotemporal para modelar dependencias multiescala, logrando mayor precisión y menor costo computacional en comparación con métodos existentes en conjuntos de datos derivados de mecánica cuántica.

arxiv arXiv cs.LG · hace 3 h

EnvRL: Aprovechando la Dinámica del Entorno en RL Agéntico

EnvRL introduce un marco que mejora el aprendizaje por refuerzo agéntico incorporando la dinámica del entorno a través de objetivos de predicción de estado y dinámica inversa. Al entrenarse con GRPO, EnvRL mejora las tasas de éxito de Qwen-2.5-1.5B-Instruct de 72.8% a 77.4% en ALFWorld y de 56.8% a 67.0% en WebShop.

arxiv arXiv cs.LG · hace 3 h

Equidad en Redes Neuronales Gráficas mediante Adaptación Laplaciana

Un nuevo marco modifica el operador Laplaciano en la difusión de grafos para mejorar la equidad incorporando proyecciones de subespacio, ajustes espectrales y filtrado basado en frecuencia. El método aprovecha las propiedades de suavizado de la difusión de grafos para mitigar el sesgo, con análisis teórico y validación empírica en conjuntos de datos sintéticos y del mundo real que muestran una equidad mejorada sin sobrecarga computacional significativa.

arxiv arXiv cs.LG · hace 3 h

La reformulación de objetivos basada en delta mejora la predicción de carga eléctrica

Una reformulación de objetivos basada en delta mejora la predicción de carga eléctrica a corto plazo al predecir cambios en la carga en lugar de valores absolutos. Los resultados muestran una reducción del MAPE superior al 50% para las predicciones con una hora de antelación en modelos LSTM y Transformer, con beneficios significativos para los modelos de secuencia profunda en las predicciones con un día de antelación.

arxiv arXiv cs.LG · hace 3 h

Marco de Aprendizaje Curricular de Profesor de Transferencia Consciente de Confusión

Se introduce una puntuación de dificultad consciente de confusión dentro del marco de Profesor de Transferencia para mejorar la interpretabilidad del modelo y la eficiencia de los datos. Las evaluaciones en CIFAR-10 muestran que el ordenamiento curricular consciente de confusión supera al ordenamiento aleatorio hasta un 8,7% con el 20% de los datos, demostrando ganancias consistentes en la eficiencia de los datos. Sin embargo, el ordenamiento curricular o anticurricular no mejora la precisión sobre el entrenamiento estándar con todos los datos, lo que indica que las mejoras en la función de puntuación por sí solas son insuficientes para superar los modos de fallo del aprendizaje curricular.