Todos los artículos — korshunov.ai

Todos los artículos Página 9 / 83

ReLAR: Refinamiento de Latentes Guiado por Refuerzo para el Razonamiento Estable de LLM

ReLAR introduce un marco guiado por refuerzo que refin iterativamente los estados ocultos para mejorar la estabilidad del razonamiento en LLM. Utiliza controladores de profundidad y acción aprendidos entrenados mediante gradientes de política para determinar adaptativamente los pasos de refinamiento, logrando mejor precisión y calidad de generación con menor sobrecarga de inferencia que los métodos de razonamiento explícito.

arxiv arXiv cs.LG · hace 2 h

MGUP: Alineación de Gradiente-Momento para Optimización Selectiva

MGUP introduce un mecanismo de actualización selectiva que aplica tamaños de paso más grandes a una proporción fija de parámetros en la optimización estocástica, mientras usa tamaños de paso más pequeños y no nulos para el resto. Se integra sin problemas con optimizadores como AdamW, Lion y Muon, proporcionando garantías teóricas de convergencia para MGUP-AdamW y demostrando un rendimiento superior o más estable en el entrenamiento de modelos de lenguaje grandes y tareas de preentrenamiento MAE.

arxiv arXiv cs.LG · hace 2 h

Pruebas metamórficas con puerta de validez de dominio para sustitutos SciML

Una rúbrica de validez de dominio filtra las relaciones metamórficas candidatas asegurando que la tolerancia supere el límite numérico inferior y que se cumplan las precondiciones. El método transforma las relaciones válidas en activos de prueba ejecutables y sin oráculo, validados en múltiples tareas CFD y familias de EDP, distinguiendo violaciones del modelo de aplicaciones fuera del dominio.

arxiv arXiv cs.LG · hace 2 h

La tarifa por congestión de la ciudad de Nueva York impulsa el uso del transporte público ante cambios espacialmente desiguales en la demanda

La tarifa por congestión de 2025 en la ciudad de Nueva York provocó aumentos significativos en el uso de autobuses y metro, con ganancias que se extendieron más allá del núcleo de Manhattan. La demanda general de viajes disminuyó modestamente, principalmente dentro de la Zona de Alivio de la Congestión, y las respuestas a nivel de barrio revelan una adaptación socio-demográfica desigual.

arxiv arXiv cs.LG · hace 2 h

NMF con regularización topológica para bases interpretables

Un nuevo método integra la homología persistente en la factorización de matrices no negativas para regularizar la topología de las funciones base. Este enfoque permite componentes de imagen espacialmente coherentes, series temporales periódicas y señales de grafos similares a cliques, utilizando puntuaciones topológicas sin umbral como regularizadores en el objetivo de NMF.

arxiv arXiv cs.LG · hace 2 h

Evaluación de trayectorias basada en preferencias para sistemas agénticos

La evaluación offline de sistemas agénticos a menudo produce empates en el 75% de los casos utilizando métricas estándar basadas en el éxito. La evaluación de trayectorias basada en preferencias reduce los empates al 35% comparando perfiles de progreso y tiempo hasta el retorno, mejorando el poder discriminativo y la eficiencia de datos. Estos resultados sugieren que la saturación de los benchmarks puede deberse a la elección del método de evaluación, no solo a los datos o la dificultad del problema.

arxiv arXiv cs.LG · hace 2 h

CARLOS: RL profundo para la detención óptima en tiempo continuo

CARLOS utiliza una red neuronal profunda agregada para aprender una frontera de ejercicio conjunta espacio-temporal para problemas de detención óptima. Refina progresivamente las decisiones de detención a resoluciones temporales más finas y emplea muestreo adaptativo para centrar el entrenamiento cerca de la frontera de detención. Los resultados de benchmark muestran que CARLOS supera a los solucionadores existentes de Bermudan, acercándose al límite superior americano con alta eficiencia.

arxiv arXiv cs.LG · hace 3 h

Reversión Q-Learning: Un nuevo algoritmo de RL off-policy

La Reversión Q-Learning (RQL) es un nuevo algoritmo de aprendizaje por refuerzo off-policy que entrena una política de flujo utilizando datos previos. Al modelar los pasos de refinamiento del flujo como acciones en un proceso de decisión de Markov expandido y aplicar trayectorias on-policy virtuales mediante reversión, RQL permite un aprendizaje offline efectivo sin retropropagación a través del tiempo. Los experimentos en 50 tareas robóticas muestran que RQL logra el mejor rendimiento promedio entre los métodos más avanzados de RL offline basados en flujo.

arxiv arXiv cs.LG · hace 3 h

Marco ST-CND para la alerta temprana de puntos de inflexión geográficos

El diagnóstico de redes causales espaciotemporales (ST-CND) introduce un marco basado en datos para detectar puntos de inflexión geográficos modelando campos espaciales como redes causales que evolucionan en el tiempo. Supera a los métodos existentes en benchmarks de temperatura de la superficie del mar, logrando una AUROC de 0.783 y una IoU de subred crítica de 0.378 para la AMOC del Atlántico Norte.

arxiv arXiv cs.LG · hace 3 h

AoiZora: Optimización auto-paralela consciente de la topología para inferencia de difusión de video

AoiZora es un planificador de topología mediado por compilador que mejora la inferencia de difusión de video de baja latencia en sub-slices de TPU. Al alinear el fragmentado lógico con la colocación física a través del flujo de compilación, reduce la latencia de desruido de un paso hasta 1.42x en sub-slices de TPU v5e en comparación con los métodos existentes.

arxiv arXiv cs.LG · hace 3 h

SCBoost: Reducir la redundancia del aprendiz mediante ortogonalización residual

SCBoost introduce la ortogonalización residual para eliminar la redundancia del aprendiz en el boosting. Utiliza Proyección Residual Espectral y Ponderación Regularizada por Covarianza para asegurar que cada aprendiz capture componentes de error novedosos y reduzca las correlaciones del conjunto. El análisis teórico y los experimentos muestran una mejora en la precisión y las puntuaciones F1 en diez conjuntos de datos de referencia.

arxiv arXiv cs.LG · hace 3 h

Credit-in-Event: Reanclando el crédito del evento en modelos de dinámica

Un nuevo método llamado Credit-in-Event identifica y aborda la dilución temporal del crédito en modelos de dinámica aprendidos. CREST, una lectura sin etiquetas y sin entrenamiento, reancla las representaciones agrupadas estimando los núcleos transitorios de los eventos y aplicando contraste entre evento y resto, reduciendo el error fuera de distribución en múltiples sistemas y tipos de datos. Las ablativos confirman que la mejora proviene del reanclaje del crédito del núcleo del evento, no de priores genéricos de localidad o estabilidad.

arxiv arXiv cs.LG · hace 3 h

Las características de LLM pueden perjudicar a los GNNs mediante interferencia por concatenación

Concatenar características generadas por LLM a redes neuronales gráficas reduce sistemáticamente la precisión en benchmarks homofílicos, con una caída de la precisión en PubMed de -17.0 +/- 0.3 pp. Una medida de discriminabilidad solo de LLM, Delta_sig, se correlaciona fuertemente con el rendimiento por concatenación (r^2 = 0.38), y una regla basada en Delta_sig <= 13.8 pp predice correctamente un impacto no positivo en 7 de cada 9 conjuntos de datos.

arxiv arXiv cs.LG · hace 3 h

SelFix: Inversión de punto fijo con selección de raíz para flujos rectificados mediante la linealidad de trayectorias

SelFix mejora la inversión de punto fijo seleccionando soluciones que producen trayectorias inversas más rectas, mejorando la reconstrucción de imágenes reales y la edición que preserva la fuente. Los experimentos en FLUX.1-dev y PIE-Bench muestran que supera a las líneas base anteriores tanto en calidad de reconstrucción como en fidelidad de edición.

arxiv arXiv cs.LG · hace 3 h

SPHERE-JEPA: Familia de Regularizadores Estadísticos para la Hiperesfera

SPHERE-JEPA introduce regularizadores estadísticos deterministas en la hiperesfera, reemplazando métodos estocásticos segmentados con objetivos integrados analíticamente como MMD, KSD y divergencia KL. Los núcleos invariantes por rotación basados en filtros de calor y limitados en banda garantizan un aprendizaje libre de sesgo espacial, con resultados empíricos que muestran una convergencia y rendimiento mejorados en ImageNet y Galaxy10, y una separación de instancias superior en la recuperación de texturas procedimentales utilizando divergencia KL.

arxiv arXiv cs.LG · hace 3 h

SkillMigrator: Patrones de interacción transferibles para la eficiencia de agentes web

SkillMigrator aprende habilidades web reutilizables al emparejar estructuras de diseño en lugar de referencias a elementos. Almacena cada habilidad como un patrón de interacción transferible con un boceto estructural, lo que permite una transferencia eficiente de habilidades entre sitios. En comparación con los métodos más avanzados, reduce el recuento promedio de acciones del LLM en un 8-10% en WebArena y Mind2Web a tasas de éxito equivalentes.

media r/LocalLLaMA · hace 3 h

Qwen3-VL-2B destaca en la extracción de JSON en hardware de gama baja

Un usuario informa que Qwen3-VL-2B es el único modelo viable de visión y lenguaje para extraer datos de imágenes a JSON de forma fiable en dispositivos con especificaciones bajas, como portátiles Intel i3 con 8GB de RAM. El autor señala que, a pesar de su rendimiento, el modelo está ausente de las principales evaluaciones como Artificial Analysis y la Open LLM Leaderboard.

arxiv arXiv cs.LG · hace 3 h

Marco de descomposición de riesgos para la predicción del ajuste fino previo

Un nuevo marco descompone el riesgo de predicción del ajuste fino previo en límites intrínsecos y varianza de optimización. Demuestra un límite inferior necesario para el decaimiento de la varianza e introduce una estrategia de sondeo óptima en términos de presupuesto, validada a través de benchmarks sintéticos y del mundo real mediante tres regímenes de predicción distintos.

arxiv arXiv cs.LG · hace 3 h

Las redes neuronales con restricciones físicas mejoran la predicción del clima

Un estudio mejora las redes neuronales con restricciones físicas mediante la introducción de un solucionador numérico actualizado, un bloque autoregresivo unificado y dos arquitecturas de red neuronal. Estas mejoras reducen el error cuadrático medio en un 8-22% en pronósticos a corto plazo sobre el Pacífico Sur y preservan mejor la consistencia física.

arxiv arXiv cs.LG · hace 3 h

TUNEAHEAD Predice el Rendimiento del Ajuste Fino Antes del Entrenamiento

TUNEAHEAD es un marco ligero que predice el rendimiento del ajuste fino utilizando vectores de metacaracterísticas a partir de descriptores de conjuntos de datos y ejecuciones de prueba cortas. Supera a las líneas base como la Extrapolación de Parada Temprana y ProxyLM, logrando una RMSE de 1.47 puntos porcentuales y el 95.1% de las predicciones dentro de ±3 puntos porcentuales de los puntajes verdaderos en 370 ejecuciones retenidas.