Todos los artículos — korshunov.ai

Todos los artículos Página 6 / 93

CRAX: Benchmarking rápido y seguro de aprendizaje por refuerzo

CRAX introduce un benchmark de seguridad acelerado y de alta fidelidad para el aprendizaje por refuerzo utilizando MuJoCo XLA. Logra aceleraciones de hasta 100x sobre benchmarks basados en CPU mediante vectorización y aceleración por hardware, presentando seis conjuntos de entornos y tres tareas específicas del agente en tres niveles de dificultad. La evaluación de seis métodos de RL seguro muestra que ningún enfoque domina, destacando los compromisos entre rendimiento y seguridad, con el aprendizaje por currículo y la transferencia de seguridad mejorando los resultados.

arxiv arXiv cs.LG · hace 2 h

Tri-Info: Predicción de fallos generalizable para modelos VLA

Tri-Info utiliza la teoría de la información para detectar fallos en modelos Visión-Lenguaje-Acción analizando la diversidad de acciones, la consistencia temporal y el acoplamiento de estados. Logra un 83% de precisión en tareas del mundo real a través de seis modelos y tres entornos, superando a métodos anteriores y manteniendo el rendimiento sin reentrenamiento.

arxiv arXiv cs.LG · hace 2 h

Entrenamiento de LLMs para agentes de ciclo de vida largo mediante generalización entre dominios

Un nuevo marco permite a los modelos de lenguaje grandes desarrollar la capacidad de 'Conectar los Puntos', permitiendo que los agentes de ciclo de vida largo aprendan de experiencias y actualicen iterativamente el contexto de su entorno. El marco utiliza aprendizaje por refuerzo con secuencias de rollout largas y tareas personalizadas para promover la generalización entre dominios, mostrando un rendimiento efectivo fuera de la distribución tanto en configuraciones de dominio como de transición.

arxiv arXiv cs.LG · hace 2 h

StreamKL: Divergencia KL rápida y eficiente en memoria para destilación de atención

StreamKL introduce un primitivo fusionado de GPU que elimina el uso de memoria cuadrático en la destilación de atención transmitiendo bloques query-key a través de SRAM on-chip. Logra una aceleración de hasta 43x en la pasada hacia adelante y 14x en las pasadas hacia atrás, reduciendo la huella adicional de HBM de O(N_QN_K) a O(1), permitiendo la destilación de contexto largo en una sola GPU.

arxiv arXiv cs.LG · hace 2 h

VIMPO: Optimización de política sin crítico para LLMs

VIMPO introduce un método de optimización de política sin crítico que deriva una función de valor implícita por la política a partir del aprendizaje por refuerzo con regularización KL. Permite la incorporación de recompensas verificables sin entrenar un crítico y supera a GRPO en benchmarks matemáticos, especialmente bajo recompensas ruidosas.

arxiv arXiv cs.LG · hace 2 h

Manejo de Escala Autoadaptativo para Pronóstico de Series Temporales

Un nuevo módulo llamado Manejo de Escala Autoadaptativo (AS) aborda la heterogeneidad de escala en el pronóstico de series temporales. Utiliza Calibración de Escala y Selección de Escalamiento para ajustar adaptativamente los factores de escalado, preservando la discriminabilidad semántica y reduciendo errores de inverso-escalado. Los experimentos en datos de ventas de fondos muestran un rendimiento mejorado cuando se integra en modelos de pronóstico existentes.

arxiv arXiv cs.LG · hace 2 h

Control jerárquico basado en LLM en juegos multiagente

Un sistema jerárquico que utiliza un LLM preentrenado para seleccionar políticas de habilidades de RL supera al RL plano en un entorno King of the Hill 2v2. Igualua el rendimiento de los árboles de comportamiento diseñados a mano en tasa de victoria y es percibido como más humano por el 60% de los usuarios, destacando una coordinación efectiva y adaptabilidad sin diseño manual de reglas.

arxiv arXiv cs.LG · hace 2 h

AD-DeepONet para la predicción rápida de respuestas en puentes

Un marco de trabajo DeepONet con tronco adaptativo predice respuestas estructurales localizadas en puentes de gran luz con alta precisión. Al utilizar características sensibles a la distancia y un complemento de Schur informado por rigidez, logra una precisión de nivel FEM con menos del 5% de error, reduciendo el tiempo total de evaluación de respuestas en 60x y la velocidad de inferencia hasta en cuatro órdenes de magnitud en comparación con los métodos de elementos finitos.

arxiv arXiv cs.LG · hace 2 h

SME-OFU: Enfoque de pertenencia a conjuntos para bandits contextuales lineales estocásticos

El artículo propone SME-OFU, un algoritmo novedoso para bandits contextuales lineales estocásticos con ruido acotado en la recompensa. Logra una cota de arrepentimiento de O(log T) aprovechando la estimación por pertenencia a conjuntos y el optimismo ante la incertidumbre. Las simulaciones muestran que SME-OFU supera un benchmark de ruido sub-Gaussiano cuando el ruido de la recompensa está acotado.

arxiv arXiv cs.LG · hace 2 h

TESSERA y los Embeddings de AlphaEarth permiten el mapeo de LCZ a escala fina en ciudades suizas

Un estudio en cinco ciudades suizas compara los embeddings de TESSERA y AlphaEarth con datos tradicionales de Sentinel para escalar los mapas de Zonas Climáticas Locales (LCZ) a una resolución de 10 metros utilizando un U-Net basado en atención. TESSERA supera consistentemente tanto a Sentinel-1/2 como a AlphaEarth, logrando puntuaciones IoU de 0.59–0.69 y 0.77–0.82. Los resultados muestran que los embeddings reducen el preprocesamiento manual y apoyan un mapeo de LCZ escalable y reproducible, aunque datos de referencia mejorados son clave para obtener mayores ganancias en precisión.

arxiv arXiv cs.LG · hace 2 h

PU-UNet: Interacciones multiplicativas estables para la segmentación de imágenes médicas

PU-UNet introduce bloques residuales de unidad de producto estables en U-Net para la segmentación de imágenes médicas, permitiendo interacciones explícitas de características multiplicativas sin inestabilidad numérica. Alcanza altas puntuaciones Dice en ISIC 2018, Kvasir-SEG y BUSI, supera una línea base de Residual U-Net en Dice e IoU, y elimina las tasas de falsos positivos en casos normales de BUSI.

arxiv arXiv cs.LG · hace 2 h

Diagnóstico de la enfermedad de Alzheimer mediante fusión multimodal de MRI 3D y PET

Un nuevo estudio combina datos de MRI 3D y PET utilizando estrategias avanzadas de fusión que incluyen GMU y autoatención con puerta, junto con un clasificador MoE con puerta dispersa. Los resultados muestran que GMU alcanza una precisión del 80.46% en NC vs. MCI y del 95.47% en NC vs. AD, mientras que la autoatención con puerta alcanza el 82.08% en MCI vs. AD. Las ablaciones confirman que MoE mejora significativamente el rendimiento, destacando la importancia de la modelización multimodal adaptativa a la entrada para un diagnóstico preciso de la enfermedad de Alzheimer.

arxiv arXiv cs.LG · hace 2 h

Agente Economista de IA: Marco de Análisis Económico Basado en Modelos

El Agente Economista de IA utiliza RAG, grafos de conocimiento y LLMs para generar narrativas económicas fundamentadas en teoría y datos. Permite análisis basado en modelos, recuperación de evidencia y generación de informes, asegurando coherencia económica y trazabilidad a través de cálculos explícitos del modelo.

arxiv arXiv cs.LG · hace 2 h

Estudio comparativo de sustitutos neuronales para la predicción del estado de la batería

Un estudio comparativo evalúa cuatro arquitecturas neuronales—MLP, ResNet, U-Net y FNO—como predictores autoregresivos de los estados internos de la batería utilizando el modelo de Doyle-Fuller-Newman. La U-Net logra un nRMSE final medio del 3% en todas las variables de estado y proporciona una aceleración de 5.38x sobre los solucionadores numéricos, demostrando la importancia del sesgo inductivo espacial en el rendimiento del sustituto.

arxiv arXiv cs.LG · hace 2 h

PaAno+: Detección de anomalías en series temporales con atención multiscale y cross-variable

PaAno+ presenta un modelo ligero que utiliza convolución multiscale y atención cross-variable para mejorar la detección de anomalías en series temporales. Alcanza precisión state-of-the-art tanto en tareas univariadas como multivariadas, con rendimiento superior en VUS-PR y otras métricas, mientras mantiene un cálculo eficiente para despliegue en tiempo real en dispositivos con recursos limitados.

arxiv arXiv cs.LG · hace 2 h

Equilibrios correlados gruesos óptimos en juegos de campo medio

El artículo introduce equilibrios correlados gruesos óptimos para juegos de campo medio en tiempo continuo. Presenta una formulación de programación lineal, demuestra su existencia y desarrolla un algoritmo de aprendizaje sin arrepentimiento con tasas de convergencia explícitas, respaldado por ejemplos numéricos.

arxiv arXiv cs.LG · hace 2 h

Modelos de base EEG para la detección de supresión por ráfagas en UCI

Un estudio evalúa Modelos de base EEG para la detección de supresión por ráfagas basada en eventos en EEG de UCI sin calibración específica del paciente. REVE-base logró la puntuación F1 basada en eventos más alta de 0.868 y redujo el error de ráfagas por minuto en un 52.1% en comparación con EEGNet. Los experimentos de ablatión muestran que el ajuste fino completo supera a otras estrategias, y REVE-base preentrenado supera la inicialización aleatoria por 0.723 puntos F1 con el 25% de datos etiquetados.

arxiv arXiv cs.LG · hace 2 h

Análisis teórico de la información de la supervisión efectiva en el pensamiento encadenado latente

Este artículo identifica un colapso dual en el razonamiento latente: atenuación del gradiente y deriva representacional. Propone Supervisión de Trayectoria y Espacio, demostrando que la reconstrucción generativa preserva mejor la capacidad de información que la compresión geométrica. La Sonda Latente Unificada mide la información mutua entre trayectorias latentes y pasos de razonamiento, revelando un vínculo entre información y precisión en el razonamiento.

arxiv arXiv cs.LG · hace 2 h

Desacoplar los costos en la aproximación de elipsoide de John

Un nuevo análisis separa la complejidad de los algoritmos del elipsoide de John en certificación, identificación y precisión. Muestra que el factor \varepsilon^{-1} surge únicamente en la certificación mediante iterados promedio, no en la precisión. Después de una configuración independiente de \varepsilon, la precisión depende solo de \log\log(1/\varepsilon), mientras que la identificación sigue siendo un problema abierto.

media r/LocalLLaMA · hace 2 h

¿Qué se necesitaría para crear el propio LLM de /r/localllama?

Un usuario de Reddit expresa preocupación por la posible pérdida de acceso a pesos abiertos para hardware de 96GB a 128GB y cuestiona si un Modelo de Lenguaje Grande impulsado por la comunidad es viable.