Todos los artículos — korshunov.ai — noticias de ML

Todos los artículos Página 1 / 86

arxiv arXiv cs.LG · hace 2 h

Destacado: Uso de GPUs Spot para acelerar el post-entrenamiento RL de DiT

Spotlight permite el post-entrenamiento RL de DiT aprovechando GPUs spot inactivas, reduciendo los costos entre 1.4 y 6.4 veces mientras se logra una calidad de imagen superior. Utiliza pesos de modelo obsoletos en la exploración y reconfigura el paralelismo de secuencias sobre la marcha, permitiendo un uso eficiente de las GPUs sin interrumpir los pipelines de entrenamiento.

arxiv arXiv cs.LG · hace 2 h

Sumi: Modelo de lenguaje de difusión uniforme abierto desde cero

Sumi es un modelo de lenguaje de difusión uniforme de 7B parámetros preentrenado desde cero con 1.5T tokens. Compite con modelos autoregresivos en tareas de conocimiento, razonamiento y codificación, pero tiene un rendimiento inferior en benchmarks de sentido común, probablemente debido a su mezcla de datos centrada en la educación. Los pesos del modelo, los puntos de control y la receta completa de entrenamiento se han liberado públicamente.

arxiv arXiv cs.LG · hace 2 h

Moat: Análisis dinámico consciente del ciclo de vida para la ejecución segura de modelos de ML

Moat es un enfoque de análisis dinámico que asegura la ejecución de modelos de ML monitoreando las interacciones del sistema anfitrión durante fases bien definidas del ciclo de vida del modelo. Re-Moat, su implementación de referencia, detecta todas las clases de ataque evaluadas con una tasa de falsos positivos cercana a cero en 77,974 modelos del mundo real y múltiples frameworks, superando a las soluciones existentes de escaneo estático de modelos.

arxiv arXiv cs.LG · hace 2 h

FoMoE rompe la barrera de réplicas completas con capas de expertos particionadas

FoMoE introduce un sistema que particiona las capas de expertos entre trabajadores para evitar réplicas completas del modelo, reduciendo los costos de comunicación hasta 1.42x en comparación con las líneas base y 45.44x en comparación con DDP. Logra aceleraciones de rendimiento de hasta 1.4x mediante un mecanismo de salto de token y demuestra un enrutamiento estable, con beneficios proyectados que se extienden a modelos de escala 100B a través del modelado del sistema.

arxiv arXiv cs.LG · hace 2 h

El Transformador de Visión LSTM mejora la predicción del error de pronóstico HRRR

Un marco híbrido de LSTM-Transformador de Visión mejora la predicción de errores de pronóstico HRRR al integrar perfiles atmosféricos de profilers de mesonet. Logra hasta una mejora de dos veces en la predicción del error de precipitación, especialmente durante períodos de capa límite planetaria activa, al capturar mejor la evolución del error convectivo y reducir la degradación relacionada con la PBL.

arxiv arXiv cs.LG · hace 2 h

Análisis geométrico y estocástico de las discontinuidades en Mezclas de Expertos dispersas

Este artículo analiza las discontinuidades en los modelos de Mezcla de Expertos dispersas, clasificándolas por orden y demostrando que las discontinuidades de menor orden dominan en volumen. Demuestra que las trayectorias de entrada aleatorias casi seguramente golpean primero una discontinuidad de orden 1 con cotas de probabilidad en tiempo finito y deriva cotas del tiempo de ocupación para cada orden. Se propone un mecanismo de suavizado simple que mejora la continuidad y el rendimiento del modelo con una sobrecarga computacional mínima.

arxiv arXiv cs.LG · hace 2 h

Codificador de voz a pico aprendible para Redes Neuronales Espigadas

Un codificador residual de voz a pico aprendible se entrena conjuntamente con una red Recurrent Leaky Integrate-and-Fire, alcanzando hasta un 94.97% de precisión en el benchmark Google Speech Commands v2. Una versión de 35k parámetros alcanza el 89.8%, superando a métodos anteriores con muchos menos parámetros, y muestra representaciones de pico alineadas con la tarea que mejoran la separabilidad de clases.

arxiv arXiv cs.LG · hace 2 h

Aprendizaje Positivo-Sin Etiquetar para la Auditoría de Evaluación de LLM

Un nuevo marco utiliza aprendizaje positivo-sin etiquetar y Transporte Óptimo Parcial para audiar sesgos en la evaluación de LLM. Alinea salidas positivas verificadas por humanos con respuestas del modelo sin etiquetar en el espacio de incrustaciones, identificando preferencias humanas consistentes y corrigiendo el sesgo de verbosidad sin reentrenamiento. Los experimentos muestran una mejor alineación humana, robustez frente a sesgos de presentación y estimaciones de confianza interpretables.

arxiv arXiv cs.LG · hace 2 h

Tipos de recompensa en RL mejoran la resiliencia en sistemas ciberfísicos

Un estudio evalúa controladores de aprendizaje por refuerzo sin modelo en sistemas no lineales bajo ataques cibernéticos. La recompensa de Lyapunov ofrece la mejor resiliencia con bajo error de seguimiento, mientras que Proximal Policy Optimization supera a Deep Deterministic Policy Gradient en la reducción de la varianza de KPI.

arxiv arXiv cs.LG · hace 2 h

Optimización de seguimiento con conciencia del contexto para la diabetes tipo 2

Un estudio utiliza un Proceso de Decisión de Markov Contextual para optimizar los intervalos de seguimiento para pacientes con diabetes tipo 2 basándose en datos de EHR de 22,154 pacientes. El modelo identifica dos contextos clínicos—riesgo bajo y alto—y recomienda intervalos adaptativos: 1 mes para valores de laboratorio no medidos, hasta 3 meses para valores elevados o hospitalizaciones, y 6–12 meses para control estable, con intervalos más cortos para pacientes de alto riesgo. Las políticas CMDP redujeron los costos acumulados esperados en un 34.8% en contextos de alta comorbilidad y un 6.4% en contextos de baja comorbilidad en comparación con una política de intervalo fijo.

arxiv arXiv cs.LG · hace 2 h

Arquitecturas de estructura primera para el aprendizaje dinámico

Un nuevo paradigma para el aprendizaje de sistemas dinámicos prioriza el diseño estructural sobre la expresividad no lineal. Las unidades dinámicas inspiradas en ondas utilizan interacciones explícitas y causales para formar arquitecturas en capas que emergen comportamiento jerárquico y representaciones internas informativas, incluso con una optimización mínima de parámetros.

arxiv arXiv cs.LG · hace 2 h

Derandomización de los límites PAC-Bayes basada en suavidad

Un nuevo marco derandomiza los límites PAC-Bayes para funciones de pérdida suaves analizando la brecha de generalización de la clase de la brecha de Jensen mediante complejidad de Rademacher. Los límites resultantes para predictores deterministas involucran medidas de planitud derivadas de Jacobianos y Hessianos del mapa de puntuación, y se aplican a modelos lineales y redes neuronales suaves. Se propone un regularizador práctico, calculado utilizando pesos de BatchNorm plegados, y se valida en CIFAR-10 con diferentes tamaños de lote.

arxiv arXiv cs.LG · hace 2 h

JourneyFormer: Modelado de secuencias para los viajes de los huéspedes de Airbnb

JourneyFormer es una solución de modelado de secuencias implementada en Airbnb para mejorar el ranking de búsqueda. Aborda desafíos de producción como secuencias de huéspedes largas y exploratorias, y etiquetas de reserva escasas, mediante decisiones de diseño adaptadas en la selección de datos, incrustaciones (embeddings) y atribución de etiquetas. El modelo ha mostrado mejoras en las métricas offline y ganancias comerciales significativas en pruebas A/B online en múltiples superficies de producción.

arxiv arXiv cs.LG · hace 2 h

Aprendizaje de Políticas de Wasserstein para Resultados Distribucionales

Este artículo introduce el aprendizaje offline de políticas para resultados con valores de distribución, donde las recompensas se derivan de funcionales de utilidad aplicados a baricentros de Wasserstein. Establece garantías estadísticas utilizando estimadores IPW y DR, demostrando un arrepentimiento en muestras finitas con la dependencia principal \widetilde{\mathcal{O}}(\sqrt{\mathrm{N\text{-}dim}(\Pi)/N}) y proporciona un límite inferior minimax que confirma la nitidez de esta tasa.

arxiv arXiv cs.LG · hace 2 h

XAI revela los impulsores clave en los mercados eléctricos europeos

Un estudio que utiliza técnicas SHAP y SSHAP analiza los impulsores de los precios de la electricidad en 39 zonas de oferta europeas. Descubre que la energía solar tiene un impacto desproporcionado en los precios, el gas sigue siendo un factor dominante y las interconexiones destacan la interdependencia regional. La investigación también construye un mercado sintético a nivel de la UE para examinar un escenario completamente integrado con un único precio.

arxiv arXiv cs.LG · hace 2 h

ViGOS: Desacoplar la percepción y el razonamiento en la auto-distilación multimodal de política activa

ViGOS introduce un marco de auto-distilación de política activa con fundamentos visuales para modelos de lenguaje grande multimodales. Desacopla la percepción y el razonamiento utilizando un maestro solo de imagen para descripciones visuales y un maestro de razonamiento para las salidas finales, reduciendo la dependencia de referencias solo de texto. Este enfoque mejora el rendimiento basado en imágenes en múltiples benchmarks de visión-lenguaje.

arxiv arXiv cs.LG · hace 2 h

Giskard: Protocolo de Agregación Confidencial y Robusto ante Fallos Bizantinos

Giskard permite la agregación descentralizada confiable y robusta ante fallos bizantinos en el aprendizaje automático, organizando a las partes en comités basados en árboles de tamaño O(log n). Utiliza MPC estilo BGW y una búsqueda binaria adaptada al comité para calcular una mediana aproximada, reduciendo la complejidad de comunicación por parte asintóticamente mientras mantiene la utilidad del modelo bajo hasta n/4 partes bizantinas.

arxiv arXiv cs.LG · hace 2 h

Q-Learning de Pareto con Máquinas de Recompensa

PQLRM es un algoritmo de aprendizaje por refuerzo multiobjetivo que combina Q-Learning de Pareto con Máquinas de Recompensa para manejar recompensas no markovianas. Converge más rápido que una línea base ingenua de PQL en MDPs de producto cruzado y genera políticas óptimas de Pareto más allá de la capacidad de QRM.

arxiv arXiv cs.LG · hace 2 h

INDEQS: Ecuaciones Diferenciales Controladas por Redes Neuronales Informadas por Grafos

INDEQS introduce un marco de ecuaciones diferenciales controladas por redes neuronales basado en grafos que incorpora conocimiento previo de grafos dirigidos a nivel arquitectónico. Separa la mezcla interna y externa, ofreciendo variantes con restricciones de grafo y adaptativas a los datos; la información externa reduce el error absoluto medio en grafos más grandes, mientras que la información interna proporciona eficiencia de parámetros para adherencia conocida a la adyacencia. Los decodificadores continuos superan a los discretos en tareas de pronóstico de tráfico y hidrología del mundo real.

arxiv arXiv cs.LG · hace 2 h

ChronoSurv: Un marco de grafos para el análisis de supervivencia multimodal

ChronoSurv introduce un marco de grafos dirigidos jerárquicos que modela la atención al paciente como una trayectoria clínica consciente del progreso. Logra un rendimiento de vanguardia en la predicción de supervivencia multimodal al capturar flujos de trabajo clínicos estructurados y manejar datos faltantes mediante paso de mensajes heterogéneo.