Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 84

Aprendizaje de Políticas de Wasserstein para Resultados Distribucionales

Este artículo introduce el aprendizaje offline de políticas para resultados con valores de distribución, donde las recompensas se derivan de funcionales de utilidad aplicados a baricentros de Wasserstein. Establece garantías estadísticas utilizando estimadores IPW y DR, demostrando un arrepentimiento en muestras finitas con la dependencia principal \widetilde{\mathcal{O}}(\sqrt{\mathrm{N\text{-}dim}(\Pi)/N}) y proporciona un límite inferior minimax que confirma la nitidez de esta tasa.

arxiv arXiv cs.LG · hace 1 h En vivo

XAI revela los impulsores clave en los mercados eléctricos europeos

Un estudio que utiliza técnicas SHAP y SSHAP analiza los impulsores de los precios de la electricidad en 39 zonas de oferta europeas. Descubre que la energía solar tiene un impacto desproporcionado en los precios, el gas sigue siendo un factor dominante y las interconexiones destacan la interdependencia regional. La investigación también construye un mercado sintético a nivel de la UE para examinar un escenario completamente integrado con un único precio.

arxiv arXiv cs.LG · hace 1 h En vivo

ViGOS: Desacoplar la percepción y el razonamiento en la auto-distilación multimodal de política activa

ViGOS introduce un marco de auto-distilación de política activa con fundamentos visuales para modelos de lenguaje grande multimodales. Desacopla la percepción y el razonamiento utilizando un maestro solo de imagen para descripciones visuales y un maestro de razonamiento para las salidas finales, reduciendo la dependencia de referencias solo de texto. Este enfoque mejora el rendimiento basado en imágenes en múltiples benchmarks de visión-lenguaje.

arxiv arXiv cs.LG · hace 1 h En vivo

Giskard: Protocolo de Agregación Confidencial y Robusto ante Fallos Bizantinos

Giskard permite la agregación descentralizada confiable y robusta ante fallos bizantinos en el aprendizaje automático, organizando a las partes en comités basados en árboles de tamaño O(log n). Utiliza MPC estilo BGW y una búsqueda binaria adaptada al comité para calcular una mediana aproximada, reduciendo la complejidad de comunicación por parte asintóticamente mientras mantiene la utilidad del modelo bajo hasta n/4 partes bizantinas.

arxiv arXiv cs.LG · hace 1 h En vivo

Q-Learning de Pareto con Máquinas de Recompensa

PQLRM es un algoritmo de aprendizaje por refuerzo multiobjetivo que combina Q-Learning de Pareto con Máquinas de Recompensa para manejar recompensas no markovianas. Converge más rápido que una línea base ingenua de PQL en MDPs de producto cruzado y genera políticas óptimas de Pareto más allá de la capacidad de QRM.

arxiv arXiv cs.LG · hace 1 h En vivo

INDEQS: Ecuaciones Diferenciales Controladas por Redes Neuronales Informadas por Grafos

INDEQS introduce un marco de ecuaciones diferenciales controladas por redes neuronales basado en grafos que incorpora conocimiento previo de grafos dirigidos a nivel arquitectónico. Separa la mezcla interna y externa, ofreciendo variantes con restricciones de grafo y adaptativas a los datos; la información externa reduce el error absoluto medio en grafos más grandes, mientras que la información interna proporciona eficiencia de parámetros para adherencia conocida a la adyacencia. Los decodificadores continuos superan a los discretos en tareas de pronóstico de tráfico y hidrología del mundo real.

arxiv arXiv cs.LG · hace 1 h En vivo

ChronoSurv: Un marco de grafos para el análisis de supervivencia multimodal

ChronoSurv introduce un marco de grafos dirigidos jerárquicos que modela la atención al paciente como una trayectoria clínica consciente del progreso. Logra un rendimiento de vanguardia en la predicción de supervivencia multimodal al capturar flujos de trabajo clínicos estructurados y manejar datos faltantes mediante paso de mensajes heterogéneo.

arxiv arXiv cs.AI · hace 1 h En vivo

CADE: Incrustación directa de pasos de tiempo para respuesta a preguntas en series temporales

CADE introduce incrustación directa de pasos de tiempo y alineación contrastiva para preservar la estructura métrica en datos de series temporales. Al mapear cada paso de tiempo directamente al espacio de incrustación del LLM, evita los cuellos de botella de tokenización y supera a las líneas base existentes de LLM en seis tareas de TSQA.

arxiv arXiv cs.LG · hace 1 h En vivo

OrthoReg: Regularización ortogonal para sistemas dinámicos híbridos simbólico-neurales

OrthoReg introduce regularización ortogonal para evitar que los componentes neurales reaprendan estructuras simbólicas en sistemas dinámicos híbridos. Al penalizar directamente la superposición entre las partes simbólicas y neurales, permite una descomplementaria donde los modelos simbólicos capturan la física expresable y los modelos neurales manejan la dinámica restante. En benchmarks con desajuste parcial de bibliotecas, OrthoReg mejora la recuperación simbólica y el rendimiento fuera de distribución.

arxiv arXiv cs.LG · hace 1 h En vivo

OpenAnt: Sistema de descubrimiento de vulnerabilidades impulsado por LLM

OpenAnt utiliza descomposición de código, verificación adversarial y pruebas dinámicas para identificar vulnerabilidades en grandes bases de código. Reduce la superficie de análisis hasta un 97% y disminuye los falsos positivos mientras valida los hallazgos mediante ejecución automatizada y aislada. Evaluado en OpenSSL, WordPress y Flowise, descubre vulnerabilidades previamente desconocidas con costo y escalabilidad manejables.

arxiv arXiv cs.LG · hace 1 h En vivo

CAHP: Poda de cabezales de atención complementarios para Transformers eficientes

CAHP introduce un marco post-hoc que utiliza agrupamiento teórico de grafos y medidas info-teóricas para seleccionar cabezales de atención complementarios en Transformers. Determina automáticamente la retención de cabezales sin una esparsidad predefinida, identificando un umbral de degradación del rendimiento para garantizar una pérdida mínima del modelo, y supera a las líneas base en escenarios de alta compresión al preservar los cabezales funcionalmente críticos en capas intermedias.

arxiv arXiv cs.AI · hace 1 h En vivo

R2D-RL: Entorno de fútbol 2D de RoboCup para MARL

R2D-RL conecta clientes basados en RCSS2D y HELIOS con una interfaz MARL en Python utilizando memoria compartida y sincronización a nivel de ciclo. Permite entrenamiento en campo completo y basado en escenarios con oponentes configurables, máscaras de acción, conformación de recompensas basada en EPV y ejecución paralela, incluyendo escenarios de gol frontal y un benchmark 11 contra 11 con resultados base.

arxiv arXiv cs.AI · hace 1 h En vivo

Control de retroalimentación PID para la dirección interpretable de activaciones en generación musical

Este artículo propone un marco de Dirección Dual que utiliza Ortogonalización de Gram-Schmidt para desacoplar el control del Tono y la Duración en la generación musical simbólica. Al aislar direcciones latentes mediante DiffMean y aplicar retroalimentación PID, permite una modulación determinista e independiente de los atributos de la señal sin reentrenamiento, reduciendo la interferencia conceptual y la degradación de la señal.

arxiv arXiv cs.AI · hace 1 h En vivo

SHIFT: Reducir el sesgo lingüístico en la recuperación de información multilingüe

SHIFT es un método libre de entrenamiento que mitiga el sesgo lingüístico en la recuperación de información multilingüe utilizando pares de traducción paralela para estimar vectores de lenguaje relativos. Corrige los desplazamientos específicos del idioma en las incrustaciones de documentos durante la indexación, mejorando el rendimiento de la recuperación a través de diversos modelos y conjuntos de pruebas.

arxiv arXiv cs.AI · hace 1 h En vivo

ProfiLLM: Perfilado de usuarios agente alineado con la utilidad para el despacho industrial de viajes compartidos

ProfiLLM introduce una canalización LLM agente que extrae señales conductuales de los registros de viajes compartidos para generar perfiles de usuario. Logra hasta un +6.14% de mejora relativa en AUC y hasta un +4.35% de ganancia en GMV en simulaciones de despacho, con resultados consistentes en pruebas A/B en línea que muestran mejoras del +0.47% en GMV, +0.33% en Tasa de Finalización y -0.82% en tasa de Cancelación antes de la aceptación.

arxiv arXiv cs.AI · hace 1 h En vivo

Asignación de crédito autocondicionada para RL con recompensas verificables

SC-GRPO utiliza la divergencia KL por token desde trayectorias autocondicionadas para ponderar gradientes en el aprendizaje por refuerzo. Supera a GRPO en un 8.1% y a DAPO en un 5.9% en tareas de matemáticas, código y agentes, con un rendimiento superior fuera de la distribución y mejores resultados que OPD.

arxiv arXiv cs.AI · hace 1 h En vivo

Reescalado de la cabeza MLM para recuperación dispersa neuronal

Un estudio encuentra que las normas grandes de la cabeza MLM en codificadores preentrenados degradan el rendimiento de la recuperación dispersa en SPLADE. Introducir un reescalado simple en el momento de la inicialización de la cabeza MLM estabiliza el entrenamiento y mejora el rendimiento, igualando o superando a BERT-SPLADE en múltiples benchmarks.

arxiv arXiv cs.AI · hace 1 h En vivo

Los modelos base de aprendizaje por refuerzo ya deberían existir

El aprendizaje por refuerzo carece de modelos base a pesar de que los MDPs sintéticos son viables. Una prueba de concepto muestra que un único modelo entrenado en MDPs sintéticos resuelve benchmarks tabulares sin ajuste, superando a los métodos existentes en entornos online y igualándolos en entornos offline.

arxiv arXiv cs.AI · hace 1 h En vivo

SwitchBraidNet: Modelo EEG ligero para BCIs híbridas

SwitchBraidNet es una arquitectura de clasificación EEG consciente de la cuantización que logra alta precisión en tareas de imaginación motora y SSVEP. Supera a cuatro líneas base en FP16 y FP32, con una precisión de MI del 69.49%, una precisión de SSVEP del 93.48% y una tasa híbrida de transferencia de información de 64.82 bits/min en FP16. El modelo se ejecuta eficientemente con solo 3.03 KB de almacenamiento INT8, permitiendo un despliegue integrado de bajo consumo.

arxiv arXiv cs.AI · hace 1 h En vivo

Los Procesos de Decisión de Markov Maduros Introducen un Nuevo Marco de Decisión

Los Procesos de Decisión de Markov Maduros (MMDPs) modelan la evolución asimétrica de la información y la disponibilidad de acciones en decisiones secuenciales. Introduce un principio de prioridad de acción expirante y un marco de aprendizaje por refuerzo consciente de la estructura que mejora la eficiencia del aprendizaje, especialmente en problemas de decisión complejos y escalables.