Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 93

Q-learning robusto para control de campo medio bajo incertidumbre de Wasserstein

El artículo presenta un algoritmo de Q-learning robusto para problemas de control de campo medio en tiempo discreto con incertidumbre de Wasserstein en ruido común. Combina cuantificación y proyección con una reformulación dual de Wasserstein y demuestra convergencia con cotas de tiempo finito tanto para esquemas síncronos como asíncronos. Los experimentos numéricos en modelos de riesgo sistémico y epidemias muestran la compensación entre robustez y rendimiento de la implementación asíncrona, así como su convergencia bajo especificación incorrecta del ruido común.

arxiv arXiv cs.AI · hace 2 h

La minería de trayectorias revela la estructura de habilidades pero no mejora las políticas

Una tubería de tres etapas extrae bibliotecas de habilidades a partir de datos de interacción con GUI, logrando una alta pureza en cinco de los ocho clústeres frente a las etiquetas de InteraSkill. Sin embargo, el método solo mejora ligeramente la precisión de pasos de habilidad en IW y no logra avanzar el rendimiento en BrowseComp+ ni en métricas clave, lo que indica limitaciones en la transferencia de políticas entre dominios.

arxiv arXiv cs.AI · hace 2 h

AutoPass: Agentes LLM guiados por evidencia para el ajuste de rendimiento del compilador

AutoPass utiliza evidencia en tiempo de ejecución y del compilador para guiar las decisiones de optimización generadas por LLM, superando a heurísticas expertas y métodos clásicos de autotuneo. Logra aceleraciones geométricas medias de 1.043x en sistemas x86-64 y 1.117x en sistemas ARM64 sin entrenamiento previo ni ajuste fino.

arxiv arXiv cs.AI · hace 2 h

CRAX: Benchmarking rápido y seguro de aprendizaje por refuerzo

CRAX introduce un benchmark de seguridad acelerado y de alta fidelidad para el aprendizaje por refuerzo utilizando MuJoCo XLA. Logra aceleraciones de hasta 100x sobre benchmarks basados en CPU mediante vectorización y aceleración por hardware, presentando seis conjuntos de entornos y tres tareas específicas del agente en tres niveles de dificultad. La evaluación de seis métodos de RL seguro muestra que ningún enfoque domina, destacando los compromisos entre rendimiento y seguridad, con el aprendizaje por currículo y la transferencia de seguridad mejorando los resultados.

Q-learning robusto para control de campo medio bajo incertidumbre de Wasserstein

La minería de trayectorias revela la estructura de habilidades pero no mejora las políticas

AutoPass: Agentes LLM guiados por evidencia para el ajuste de rendimiento del compilador

CRAX: Benchmarking rápido y seguro de aprendizaje por refuerzo

Tri-Info: Predicción de fallos generalizable para modelos VLA

Entrenamiento de LLMs para agentes de ciclo de vida largo mediante generalización entre dominios

StreamKL: Divergencia KL rápida y eficiente en memoria para destilación de atención

VIMPO: Optimización de política sin crítico para LLMs

Manejo de Escala Autoadaptativo para Pronóstico de Series Temporales

Control jerárquico basado en LLM en juegos multiagente

AD-DeepONet para la predicción rápida de respuestas en puentes

SME-OFU: Enfoque de pertenencia a conjuntos para bandits contextuales lineales estocásticos

TESSERA y los Embeddings de AlphaEarth permiten el mapeo de LCZ a escala fina en ciudades suizas

PU-UNet: Interacciones multiplicativas estables para la segmentación de imágenes médicas

Diagnóstico de la enfermedad de Alzheimer mediante fusión multimodal de MRI 3D y PET

Agente Economista de IA: Marco de Análisis Económico Basado en Modelos

Estudio comparativo de sustitutos neuronales para la predicción del estado de la batería

PaAno+: Detección de anomalías en series temporales con atención multiscale y cross-variable

Equilibrios correlados gruesos óptimos en juegos de campo medio

Modelos de base EEG para la detección de supresión por ráfagas en UCI