Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 81

Aproximación de difusión para el aprendizaje TD con características lineales

Se introduce un modelo de ecuación diferencial estocástica para el aprendizaje TD(0) lineal bajo ruido markoviano. Separa la dinámica de contracción de los efectos de muestreo y explica el piso de error mediante la interacción entre la covarianza a largo plazo y la geometría del operador de Bellman proyectado.

arxiv arXiv cs.LG · hace 1 h En vivo

Regresión de Kolmogorov para Políticas de Difusión Robustas

Una ecuación de Kolmogorov hacia atrás eleva las políticas de difusión a un espacio de Cameron-Martin, reemplazando el emparejamiento estocástico de puntuaciones con una EDP determinista. Este enfoque logra cotas de convergencia vinculadas al rango efectivo del núcleo, mejora la regularidad de la trayectoria y permite un detector de fallos determinista sin recompensas. La validación muestra un 17% más de recompensa en PushT y un 28.4% menos de RMSE en una línea de fabricación, con una reducción del 96% en eventos de punto muerto mediante certificación de Hamilton-Jacobi.

arxiv arXiv cs.LG · hace 1 h En vivo

Se lanza el conjunto de datos ATT&CK-Labeled Multi-Source Cybersecurity Logs Dataset

Un nuevo conjunto de datos combina registros del sistema, de red y del navegador de 870 sesiones de Windows, que incluyen 70 ataques y 800 casos benignos. Proporciona etiquetas por evento con IDs de técnicas MITRE ATT&CK para 12 tácticas y 53 técnicas, utilizando herramientas de ataque reales como RAT y túneles C2. El ajuste fino de tres Modelos de Lenguaje Pequeños (SLMs) mediante LoRA mejoró la precisión de clasificación de fragmentos al 90–97% y logró hasta un 42% de precisión en coincidencia exacta en la identificación de técnicas, mostrando una fuerte captura de razonamiento a pesar de los desafíos.

arxiv arXiv cs.LG · hace 1 h En vivo

Los Modelos de Mundo en Bucle Logran una Eficiencia de Parámetros 100 veces Mayor

Los Modelos de Mundo en Bucle (LoopWM) introducen una arquitectura en bucle que refina iterativamente los estados latentes del entorno utilizando un transformador compartido por parámetros. Este enfoque logra hasta 100 veces mayor eficiencia de parámetros en comparación con los modelos de mundo convencionales, adaptando la profundidad computacional a cada paso de predicción. LoopWM establece la profundidad latente iterativa como una nueva dimensión de escalado para la simulación del mundo.

arxiv arXiv cs.LG · hace 1 h En vivo

¿Los conjuntos destilados superan a los corsetes?

Experimentos a gran escala muestran que los métodos de destilación de conjuntos de datos de última generación son comparables o peores que la selección de coresetes en ImageNet e ImageNette. Los coresetes logran consistentemente una mejor cobertura de datos y son más eficientes computacionalmente, destacando su superioridad práctica sobre los conjuntos destilados.

arxiv arXiv cs.LG · hace 1 h En vivo

Escalado logarítmico de los picos de cola más allá de umbrales geométricos

Las leyes de pico de cola en tiempo finito en redes estocásticas muestran una transición desde un crecimiento de raíz cuadrada hasta uno logarítmico más allá de un umbral dependiente de la geometría. Este cambio ocurre debido a la auto-normalización de las fluctuaciones relativas a la deriva, eliminando la geometría de la capacidad del coeficiente logarítmico mientras se preserva en el umbral. Las cotas inferiores confirman que tanto el término logarítmico como el umbral son inevitables, con la geometría local del cuello de botella permitiendo umbrales más agudos en conmutadores con cola de entrada.

arxiv arXiv cs.LG · hace 1 h En vivo

Aprendizaje de la política del agente rojo a partir de observaciones para agentes cibernéticos neurosimbólicos

Se propone una técnica de aprendizaje de políticas que utiliza aprendizaje por imitación para predecir las acciones del agente rojo en entornos cibernéticos parcialmente observables. El método aprende las políticas del agente rojo a partir de observaciones de la red y acciones del defensor, permitiendo que los agentes de defensa cibernética neurosimbólicos predigan con precisión los ataques y adapten las defensas en diversos escenarios simulados.

media r/LocalLLaMA · hace 1 h En vivo

Ingeniería inversa de DeepSeek Chat para crear una API compatible con OpenAI

Un desarrollador ha creado un proxy local que realiza ingeniería inversa del chat web gratuito de DeepSeek para exponer un punto de conexión de API compatible con OpenAI en localhost:8000/v1. Esta herramienta permite que clientes existentes compatibles con OpenAI, como Open WebUI y varios SDKs, interactúen con los modelos V4 y R1 de DeepSeek sin cambios de código ni claves de API.

arxiv arXiv cs.LG · hace 2 h

AdaVoMP: Campos de Propiedades Mecánicas Volumétricas Adaptativas

AdaVoMP predice el módulo de Young, la relación de Poisson y la densidad espacialmente variables con precisión para objetos 3D en múltiples resoluciones. Utiliza una estructura de voxels esparsa y adaptativa junto con un codificador-decodificador de transformador esparsos para lograr una resolución 16^3 veces mayor que los métodos anteriores, con mejor precisión y menor cómputo durante la inferencia.

arxiv arXiv cs.LG · hace 2 h

ReproRepo: Auditorías de reproducibilidad escalables con GitHub Issues

ReproRepo introduce un marco escalable que utiliza GitHub issues para evaluar la reproducibilidad de artículos de ML. Muestra que los agentes LLM como Codex con GPT-5.5 identifican al menos un bloqueador reportado por humanos en el 90% de los 1,149 artículos de ML, destacando su capacidad para detectar fallos visibles y problemas semánticos, aunque la localización exacta sigue siendo limitada.

arxiv arXiv cs.LG · hace 2 h

ReLAR: Refinamiento de Latentes Guiado por Refuerzo para el Razonamiento Estable de LLM

ReLAR introduce un marco guiado por refuerzo que refin iterativamente los estados ocultos para mejorar la estabilidad del razonamiento en LLM. Utiliza controladores de profundidad y acción aprendidos entrenados mediante gradientes de política para determinar adaptativamente los pasos de refinamiento, logrando mejor precisión y calidad de generación con menor sobrecarga de inferencia que los métodos de razonamiento explícito.

arxiv arXiv cs.LG · hace 2 h

MGUP: Alineación de Gradiente-Momento para Optimización Selectiva

MGUP introduce un mecanismo de actualización selectiva que aplica tamaños de paso más grandes a una proporción fija de parámetros en la optimización estocástica, mientras usa tamaños de paso más pequeños y no nulos para el resto. Se integra sin problemas con optimizadores como AdamW, Lion y Muon, proporcionando garantías teóricas de convergencia para MGUP-AdamW y demostrando un rendimiento superior o más estable en el entrenamiento de modelos de lenguaje grandes y tareas de preentrenamiento MAE.

arxiv arXiv cs.LG · hace 2 h

Pruebas metamórficas con puerta de validez de dominio para sustitutos SciML

Una rúbrica de validez de dominio filtra las relaciones metamórficas candidatas asegurando que la tolerancia supere el límite numérico inferior y que se cumplan las precondiciones. El método transforma las relaciones válidas en activos de prueba ejecutables y sin oráculo, validados en múltiples tareas CFD y familias de EDP, distinguiendo violaciones del modelo de aplicaciones fuera del dominio.

arxiv arXiv cs.LG · hace 2 h

La tarifa por congestión de la ciudad de Nueva York impulsa el uso del transporte público ante cambios espacialmente desiguales en la demanda

La tarifa por congestión de 2025 en la ciudad de Nueva York provocó aumentos significativos en el uso de autobuses y metro, con ganancias que se extendieron más allá del núcleo de Manhattan. La demanda general de viajes disminuyó modestamente, principalmente dentro de la Zona de Alivio de la Congestión, y las respuestas a nivel de barrio revelan una adaptación socio-demográfica desigual.

arxiv arXiv cs.LG · hace 2 h

NMF con regularización topológica para bases interpretables

Un nuevo método integra la homología persistente en la factorización de matrices no negativas para regularizar la topología de las funciones base. Este enfoque permite componentes de imagen espacialmente coherentes, series temporales periódicas y señales de grafos similares a cliques, utilizando puntuaciones topológicas sin umbral como regularizadores en el objetivo de NMF.

arxiv arXiv cs.LG · hace 2 h

Evaluación de trayectorias basada en preferencias para sistemas agénticos

La evaluación offline de sistemas agénticos a menudo produce empates en el 75% de los casos utilizando métricas estándar basadas en el éxito. La evaluación de trayectorias basada en preferencias reduce los empates al 35% comparando perfiles de progreso y tiempo hasta el retorno, mejorando el poder discriminativo y la eficiencia de datos. Estos resultados sugieren que la saturación de los benchmarks puede deberse a la elección del método de evaluación, no solo a los datos o la dificultad del problema.

arxiv arXiv cs.LG · hace 2 h

CARLOS: RL profundo para la detención óptima en tiempo continuo

CARLOS utiliza una red neuronal profunda agregada para aprender una frontera de ejercicio conjunta espacio-temporal para problemas de detención óptima. Refina progresivamente las decisiones de detención a resoluciones temporales más finas y emplea muestreo adaptativo para centrar el entrenamiento cerca de la frontera de detención. Los resultados de benchmark muestran que CARLOS supera a los solucionadores existentes de Bermudan, acercándose al límite superior americano con alta eficiencia.

arxiv arXiv cs.LG · hace 2 h

Reversión Q-Learning: Un nuevo algoritmo de RL off-policy

La Reversión Q-Learning (RQL) es un nuevo algoritmo de aprendizaje por refuerzo off-policy que entrena una política de flujo utilizando datos previos. Al modelar los pasos de refinamiento del flujo como acciones en un proceso de decisión de Markov expandido y aplicar trayectorias on-policy virtuales mediante reversión, RQL permite un aprendizaje offline efectivo sin retropropagación a través del tiempo. Los experimentos en 50 tareas robóticas muestran que RQL logra el mejor rendimiento promedio entre los métodos más avanzados de RL offline basados en flujo.

arxiv arXiv cs.LG · hace 2 h

Marco ST-CND para la alerta temprana de puntos de inflexión geográficos

El diagnóstico de redes causales espaciotemporales (ST-CND) introduce un marco basado en datos para detectar puntos de inflexión geográficos modelando campos espaciales como redes causales que evolucionan en el tiempo. Supera a los métodos existentes en benchmarks de temperatura de la superficie del mar, logrando una AUROC de 0.783 y una IoU de subred crítica de 0.378 para la AMOC del Atlántico Norte.

arxiv arXiv cs.LG · hace 2 h

AoiZora: Optimización auto-paralela consciente de la topología para inferencia de difusión de video

AoiZora es un planificador de topología mediado por compilador que mejora la inferencia de difusión de video de baja latencia en sub-slices de TPU. Al alinear el fragmentado lógico con la colocación física a través del flujo de compilación, reduce la latencia de desruido de un paso hasta 1.42x en sub-slices de TPU v5e en comparación con los métodos existentes.