Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 84

Codificador de voz a pico aprendible para Redes Neuronales Espigadas

Un codificador residual de voz a pico aprendible se entrena conjuntamente con una red Recurrent Leaky Integrate-and-Fire, alcanzando hasta un 94.97% de precisión en el benchmark Google Speech Commands v2. Una versión de 35k parámetros alcanza el 89.8%, superando a métodos anteriores con muchos menos parámetros, y muestra representaciones de pico alineadas con la tarea que mejoran la separabilidad de clases.

arxiv arXiv cs.LG · hace 1 h En vivo

Aprendizaje Positivo-Sin Etiquetar para la Auditoría de Evaluación de LLM

Un nuevo marco utiliza aprendizaje positivo-sin etiquetar y Transporte Óptimo Parcial para audiar sesgos en la evaluación de LLM. Alinea salidas positivas verificadas por humanos con respuestas del modelo sin etiquetar en el espacio de incrustaciones, identificando preferencias humanas consistentes y corrigiendo el sesgo de verbosidad sin reentrenamiento. Los experimentos muestran una mejor alineación humana, robustez frente a sesgos de presentación y estimaciones de confianza interpretables.

arxiv arXiv cs.LG · hace 1 h En vivo

Tipos de recompensa en RL mejoran la resiliencia en sistemas ciberfísicos

Un estudio evalúa controladores de aprendizaje por refuerzo sin modelo en sistemas no lineales bajo ataques cibernéticos. La recompensa de Lyapunov ofrece la mejor resiliencia con bajo error de seguimiento, mientras que Proximal Policy Optimization supera a Deep Deterministic Policy Gradient en la reducción de la varianza de KPI.

arxiv arXiv cs.LG · hace 1 h En vivo

Optimización de seguimiento con conciencia del contexto para la diabetes tipo 2

Un estudio utiliza un Proceso de Decisión de Markov Contextual para optimizar los intervalos de seguimiento para pacientes con diabetes tipo 2 basándose en datos de EHR de 22,154 pacientes. El modelo identifica dos contextos clínicos—riesgo bajo y alto—y recomienda intervalos adaptativos: 1 mes para valores de laboratorio no medidos, hasta 3 meses para valores elevados o hospitalizaciones, y 6–12 meses para control estable, con intervalos más cortos para pacientes de alto riesgo. Las políticas CMDP redujeron los costos acumulados esperados en un 34.8% en contextos de alta comorbilidad y un 6.4% en contextos de baja comorbilidad en comparación con una política de intervalo fijo.

arxiv arXiv cs.LG · hace 1 h En vivo

Arquitecturas de estructura primera para el aprendizaje dinámico

Un nuevo paradigma para el aprendizaje de sistemas dinámicos prioriza el diseño estructural sobre la expresividad no lineal. Las unidades dinámicas inspiradas en ondas utilizan interacciones explícitas y causales para formar arquitecturas en capas que emergen comportamiento jerárquico y representaciones internas informativas, incluso con una optimización mínima de parámetros.

arxiv arXiv cs.LG · hace 1 h En vivo

Derandomización de los límites PAC-Bayes basada en suavidad

Un nuevo marco derandomiza los límites PAC-Bayes para funciones de pérdida suaves analizando la brecha de generalización de la clase de la brecha de Jensen mediante complejidad de Rademacher. Los límites resultantes para predictores deterministas involucran medidas de planitud derivadas de Jacobianos y Hessianos del mapa de puntuación, y se aplican a modelos lineales y redes neuronales suaves. Se propone un regularizador práctico, calculado utilizando pesos de BatchNorm plegados, y se valida en CIFAR-10 con diferentes tamaños de lote.

arxiv arXiv cs.LG · hace 1 h En vivo

JourneyFormer: Modelado de secuencias para los viajes de los huéspedes de Airbnb

JourneyFormer es una solución de modelado de secuencias implementada en Airbnb para mejorar el ranking de búsqueda. Aborda desafíos de producción como secuencias de huéspedes largas y exploratorias, y etiquetas de reserva escasas, mediante decisiones de diseño adaptadas en la selección de datos, incrustaciones (embeddings) y atribución de etiquetas. El modelo ha mostrado mejoras en las métricas offline y ganancias comerciales significativas en pruebas A/B online en múltiples superficies de producción.

arxiv arXiv cs.LG · hace 1 h En vivo

Aprendizaje de Políticas de Wasserstein para Resultados Distribucionales

Este artículo introduce el aprendizaje offline de políticas para resultados con valores de distribución, donde las recompensas se derivan de funcionales de utilidad aplicados a baricentros de Wasserstein. Establece garantías estadísticas utilizando estimadores IPW y DR, demostrando un arrepentimiento en muestras finitas con la dependencia principal \widetilde{\mathcal{O}}(\sqrt{\mathrm{N\text{-}dim}(\Pi)/N}) y proporciona un límite inferior minimax que confirma la nitidez de esta tasa.

arxiv arXiv cs.LG · hace 1 h En vivo

XAI revela los impulsores clave en los mercados eléctricos europeos

Un estudio que utiliza técnicas SHAP y SSHAP analiza los impulsores de los precios de la electricidad en 39 zonas de oferta europeas. Descubre que la energía solar tiene un impacto desproporcionado en los precios, el gas sigue siendo un factor dominante y las interconexiones destacan la interdependencia regional. La investigación también construye un mercado sintético a nivel de la UE para examinar un escenario completamente integrado con un único precio.

arxiv arXiv cs.LG · hace 1 h En vivo

ViGOS: Desacoplar la percepción y el razonamiento en la auto-distilación multimodal de política activa

ViGOS introduce un marco de auto-distilación de política activa con fundamentos visuales para modelos de lenguaje grande multimodales. Desacopla la percepción y el razonamiento utilizando un maestro solo de imagen para descripciones visuales y un maestro de razonamiento para las salidas finales, reduciendo la dependencia de referencias solo de texto. Este enfoque mejora el rendimiento basado en imágenes en múltiples benchmarks de visión-lenguaje.

arxiv arXiv cs.LG · hace 1 h En vivo

Giskard: Protocolo de Agregación Confidencial y Robusto ante Fallos Bizantinos

Giskard permite la agregación descentralizada confiable y robusta ante fallos bizantinos en el aprendizaje automático, organizando a las partes en comités basados en árboles de tamaño O(log n). Utiliza MPC estilo BGW y una búsqueda binaria adaptada al comité para calcular una mediana aproximada, reduciendo la complejidad de comunicación por parte asintóticamente mientras mantiene la utilidad del modelo bajo hasta n/4 partes bizantinas.

arxiv arXiv cs.LG · hace 1 h En vivo

Q-Learning de Pareto con Máquinas de Recompensa

PQLRM es un algoritmo de aprendizaje por refuerzo multiobjetivo que combina Q-Learning de Pareto con Máquinas de Recompensa para manejar recompensas no markovianas. Converge más rápido que una línea base ingenua de PQL en MDPs de producto cruzado y genera políticas óptimas de Pareto más allá de la capacidad de QRM.

arxiv arXiv cs.LG · hace 1 h En vivo

INDEQS: Ecuaciones Diferenciales Controladas por Redes Neuronales Informadas por Grafos

INDEQS introduce un marco de ecuaciones diferenciales controladas por redes neuronales basado en grafos que incorpora conocimiento previo de grafos dirigidos a nivel arquitectónico. Separa la mezcla interna y externa, ofreciendo variantes con restricciones de grafo y adaptativas a los datos; la información externa reduce el error absoluto medio en grafos más grandes, mientras que la información interna proporciona eficiencia de parámetros para adherencia conocida a la adyacencia. Los decodificadores continuos superan a los discretos en tareas de pronóstico de tráfico y hidrología del mundo real.

arxiv arXiv cs.LG · hace 1 h En vivo

ChronoSurv: Un marco de grafos para el análisis de supervivencia multimodal

ChronoSurv introduce un marco de grafos dirigidos jerárquicos que modela la atención al paciente como una trayectoria clínica consciente del progreso. Logra un rendimiento de vanguardia en la predicción de supervivencia multimodal al capturar flujos de trabajo clínicos estructurados y manejar datos faltantes mediante paso de mensajes heterogéneo.

arxiv arXiv cs.AI · hace 1 h En vivo

CADE: Incrustación directa de pasos de tiempo para respuesta a preguntas en series temporales

CADE introduce incrustación directa de pasos de tiempo y alineación contrastiva para preservar la estructura métrica en datos de series temporales. Al mapear cada paso de tiempo directamente al espacio de incrustación del LLM, evita los cuellos de botella de tokenización y supera a las líneas base existentes de LLM en seis tareas de TSQA.

arxiv arXiv cs.LG · hace 1 h En vivo

OrthoReg: Regularización ortogonal para sistemas dinámicos híbridos simbólico-neurales

OrthoReg introduce regularización ortogonal para evitar que los componentes neurales reaprendan estructuras simbólicas en sistemas dinámicos híbridos. Al penalizar directamente la superposición entre las partes simbólicas y neurales, permite una descomplementaria donde los modelos simbólicos capturan la física expresable y los modelos neurales manejan la dinámica restante. En benchmarks con desajuste parcial de bibliotecas, OrthoReg mejora la recuperación simbólica y el rendimiento fuera de distribución.

arxiv arXiv cs.LG · hace 1 h En vivo

OpenAnt: Sistema de descubrimiento de vulnerabilidades impulsado por LLM

OpenAnt utiliza descomposición de código, verificación adversarial y pruebas dinámicas para identificar vulnerabilidades en grandes bases de código. Reduce la superficie de análisis hasta un 97% y disminuye los falsos positivos mientras valida los hallazgos mediante ejecución automatizada y aislada. Evaluado en OpenSSL, WordPress y Flowise, descubre vulnerabilidades previamente desconocidas con costo y escalabilidad manejables.

arxiv arXiv cs.LG · hace 1 h En vivo

CAHP: Poda de cabezales de atención complementarios para Transformers eficientes

CAHP introduce un marco post-hoc que utiliza agrupamiento teórico de grafos y medidas info-teóricas para seleccionar cabezales de atención complementarios en Transformers. Determina automáticamente la retención de cabezales sin una esparsidad predefinida, identificando un umbral de degradación del rendimiento para garantizar una pérdida mínima del modelo, y supera a las líneas base en escenarios de alta compresión al preservar los cabezales funcionalmente críticos en capas intermedias.

arxiv arXiv cs.AI · hace 1 h En vivo

R2D-RL: Entorno de fútbol 2D de RoboCup para MARL

R2D-RL conecta clientes basados en RCSS2D y HELIOS con una interfaz MARL en Python utilizando memoria compartida y sincronización a nivel de ciclo. Permite entrenamiento en campo completo y basado en escenarios con oponentes configurables, máscaras de acción, conformación de recompensas basada en EPV y ejecución paralela, incluyendo escenarios de gol frontal y un benchmark 11 contra 11 con resultados base.

arxiv arXiv cs.AI · hace 1 h En vivo

Control de retroalimentación PID para la dirección interpretable de activaciones en generación musical

Este artículo propone un marco de Dirección Dual que utiliza Ortogonalización de Gram-Schmidt para desacoplar el control del Tono y la Duración en la generación musical simbólica. Al aislar direcciones latentes mediante DiffMean y aplicar retroalimentación PID, permite una modulación determinista e independiente de los atributos de la señal sin reentrenamiento, reduciendo la interferencia conceptual y la degradación de la señal.