Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 103

Los modelos de Transformer son altamente sensibles a datos ruidosos en la predicción de trayectorias

Un estudio descubre que los modelos de predicción de trayectorias basados en Transformer se degradan significativamente con datos de estado de objetos ruidosos. La precisión disminuye 1.3x bajo ruido leve y hasta 3.9x bajo condiciones de alto ruido realistas, destacando la sensibilidad de los modelos y la necesidad de datos de entrenamiento más ruidosos del mundo real y estrategias de mitigación.

arxiv arXiv cs.LG · hace 1 h En vivo

Interpretación de Árboles de Comportamiento Temporales mediante Redes de Petri con Recompensas

Este artículo presenta una interpretación de Árboles de Comportamiento Temporales (TBT) mediante Redes de Petri con recompensas para el aprendizaje por refuerzo. Traduce los TBTs a Redes de Petri, asignando recompensas basadas en restricciones estructurales definidas en Lógica Temporal Lineal, lo que permite un aprendizaje efectivo en tareas robóticas complejas y de largo plazo donde el RL estándar falla.

arxiv arXiv cs.LG · hace 1 h En vivo

Marco de Datos Abiertos Identifica la Topología de la Red Eléctrica Urbana

Un nuevo marco utiliza datos de infraestructura pública y OpenStreetMap para reconstruir la topología de la red eléctrica urbana, desde las conexiones de transmisión hasta el nivel de los edificios. Mapea con éxito la red para 7,330 edificios en el distrito Alna de Oslo, permitiendo un análisis detallado del sistema eléctrico, como la optimización del flujo y estudios de resiliencia.

arxiv arXiv cs.LG · hace 1 h En vivo

SOHET: Transformer para Secuencias de Eventos Heterogéneas

SOHET introduce una arquitectura de transformador jerárquica con codificadores tabulares específicos por tipo de evento y preentrenamiento auto-supervisado. Supera a los métodos existentes en un 5.8% en la tarea de detección de fraude de Booking.com y alcanza resultados de vanguardia en 6 de las 8 tareas del benchmark EBES.

arxiv arXiv cs.LG · hace 1 h En vivo

Gestión predictiva de reparaciones utilizando atención multi-cabeza y aprendizaje en línea

Un marco de aprendizaje profundo que utiliza atención multi-cabeza y aprendizaje en línea predice con precisión las duraciones de reparación integrando datos históricos categóricos y numéricos. El modelo alcanza una precisión del 78% en datos reales de reparaciones desde 2013 hasta 2020, superando a las redes neuronales feed-forward y a los bosques aleatorios, con pesos de atención que revelan interacciones clave entre características.

arxiv arXiv cs.LG · hace 1 h En vivo

Fast-TurboQuant: Cuantización vectorial sin multiplicadores

Fast-TurboQuant introduce un método de proyección sin multiplicadores que utiliza una transformación estructurada rápida de Johnson-Lindenstrauss. Reemplaza las matrices de rotación aleatoria densas con inversión de fase de Rademacher y la transformada rápida de Walsh-Hadamard, reduciendo la aritmética únicamente a sumas y mejorando Recall@10 con un error cuadrático medio menor.

arxiv arXiv cs.LG · hace 2 h

Graph-of-Differences para MedReID estructurado por anatomía

Graph-of-Differences (GoD) introduce alineación de diferencias estructuradas por anatomía para la reidentificación de imágenes médicas. Representa las imágenes como grafos anatómicos, calcula diferencias sobre regiones anatómicas emparejadas y ancla señales de recuperación a estructuras homólogas. GoD mejora la precisión Rank-1 en 7.1 pp en fondos de ojo y 3.1 pp en CXR, con mejor generalización en configuraciones de zero-shot.

arxiv arXiv cs.LG · hace 2 h

Codec de Acción Neural para Modelos Visión-Lenguaje-Acción

NAC, una arquitectura inspirada en códecs de audio neural, comprime trayectorias de acción de robots como señales 1D multicanal utilizando cuantización vectorial residual multiescala. Al reemplazar las pérdidas de mel-espectrograma con reconstrucción en el dominio del tiempo y no-mel espectral, NAC logra una codificación de acción de alta fidelidad con cambios arquitecturales mínimos, superando a los tokenizers existentes en error de reconstrucción y tasas de éxito en tareas de manipulación del mundo real.

arxiv arXiv cs.LG · hace 2 h

Marco de trabajo de texto a CAD inspirado en TRIZ mejora el diseño creativo

Un marco de trabajo de texto a CAD inspirado en TRIZ utiliza modelos de lenguaje grandes para generar modelos CAD 3D creativos y editables integrando principios inventivos de datos de patentes. En un estudio de caso sobre diseño de sillas, logró una reducción de masa del 4.0-14.7% mientras preservaba la integridad estructural mediante principios como la segmentación y los materiales compuestos.

arxiv arXiv cs.LG · hace 2 h

La ortogonalidad funcional garantiza la identificabilidad en el desentrelazamiento no supervisado

El artículo demuestra que las direcciones localmente ortogonales en modelos generativos garantizan la identificabilidad de los factores latentes sin necesidad de independencia estadística ni supuestos causales. Los experimentos con flujos normalizados regularizados por ortogonalidad confirman la recuperación fiable de los factores latentes verdaderos, desafiando afirmaciones previas sobre la imposibilidad del desentrelazamiento no supervisado.

arxiv arXiv cs.LG · hace 2 h

VLA-FAIL: Detección de fallos ligera para modelos de visión-lenguaje-acción

VLA-FAIL introduce un marco de detección de fallos ligero para modelos de visión-lenguaje-acción que utiliza la distancia de Mahalanobis de la última capa y la consistencia de los fragmentos de acción sin requerir datos de fallo ni muestreo costoso de acciones. El marco combina estos detectores para lograr una detección temprana y fiable de fallos en diversas tareas, superando a los métodos base tanto en precisión como en eficiencia.

arxiv arXiv cs.LG · hace 2 h

Los Modelos de Lenguaje Atomístico Entienden y Generan Materiales

Los Modelos de Lenguaje Atomístico (ALMs) unifican el lenguaje y las estructuras atomísticas, permitiendo la generación y optimización de cristales impulsadas por lenguaje natural. Los ALMs utilizan un puente continuo para mapear incrustaciones de lenguaje en el espacio de dirección de difusión atomística y emplean Text-to-Crystal Feynman-Kac para precisión estequiométrica. La benchmark ALM Bench evalúa la generación y optimización de materiales condicionados por texto, con código y pesos que se liberarán pronto.

arxiv arXiv cs.LG · hace 2 h

CAT-Translate: Modelos de traducción compactos japonés-inglés

CAT-Translate presenta una familia de modelos pequeños y de código abierto (de 0.8B a 7B parámetros) especializados en la traducción bidireccional japonés-inglés. Utilizando corpus paralelos sintéticos y un enfoque de ajuste fino en dos etapas con Multi-Objective GRPO, los modelos superan a los modelos multilingües en benchmarks del mundo real en dominios empresariales, legales, médicos, financieros y de patentes.

arxiv arXiv cs.LG · hace 2 h

ADualVUOT: Alineación de espacio latente heterogéneo para adaptación de dominio no supervisada

ADualVUOT introduce un VAE de codificador dual con Flujos Normalizadores Continuos para mejorar la flexibilidad de la representación latente en la segmentación de imágenes médicas. Utiliza la distancia Gaussian-Gromov-Wasserstein para la alineación de dominio y la augmentación adversarial para aumentar la robustez, superando a métodos previos basados en transporte óptimo en benchmarks de imagen médica.

arxiv arXiv cs.AI · hace 2 h

NASDAQ: Dinámica del Espacio de Observación Normalizada con Q-Learning Aumentado

NASDAQ aborda los desafíos de observación de baja dimensión en el aprendizaje por refuerzo normalizando los espacios de observación para equilibrar las pérdidas de reconstrucción entre dimensiones. El marco combina el aprendizaje de valores con el valor a corto plazo y la predicción de la siguiente observación, logrando un rendimiento competitivo o superior con menos tiempo de entrenamiento en comparación con los métodos existentes.

github llama.cpp · hace 2 h

Lanzamiento de llama.cpp b9833: Analizador para MiniCPM5 y binarios multiplataforma

El proyecto llama.cpp ha lanzado la versión b9833, introduciendo un analizador dedicado para el modelo MiniCPM5 junto con varias correcciones de errores y refactorización. Esta actualización incluye soporte para análisis de llamadas a herramientas, simplificación de gramática y corrección del comportamiento de la API Jinja para garantizar la compatibilidad con los estándares de Jinja2.

arxiv arXiv cs.LG · hace 2 h

Marco LDT-FRL para IoMT ciberresiliente

El marco LDT-FRL introduce un sistema de defensa que preserva la privacidad para dispositivos IoMT, combinando atención temporal, gemelos digitales ligeros y aprendizaje por refuerzo federado. Alcanza una precisión del 99.66% y 99.95% en los benchmarks CICDDoS 2019 y TON-IoT, con F1 perfecto en la clase MITM, converge un 81% más rápido que métodos anteriores y ofrece decisiones de defensa interpretables mediante SHAP y Grad-CAM.

arxiv arXiv cs.LG · hace 2 h

Expertos de convolución con atención dual para la completación de tensores dispersos

DCGC introduce una red de convolución con atención dual y aprendizaje contrastivo a nivel de grupo para mejorar la completación de tensores dispersos. El método captura interacciones complejas entre modos y reduce la vulnerabilidad a la escasez de datos mediante señales autovigiladas, superando a los enfoques más avanzados en conjuntos de datos de tráfico y recomendación.

arxiv arXiv cs.LG · hace 2 h

Teorema del límite central para el optimizador Adam promediado

El artículo establece un teorema del límite central para el optimizador Adam promediado, mostrando convergencia en orden n^{-1/2}. Esta tasa coincide con los algoritmos clásicos de aproximación estocástica, con la covarianza expresada en términos de las propiedades del algoritmo en el estado atractor.

arxiv arXiv cs.LG · hace 2 h

Codificadores universales para aprendizaje profundo relacional modular

El artículo propone un enfoque de aprendizaje profundo relacional modular que desacopla la codificación de filas del paso de mensajes en grafos. Introduce un Codificador Universal de Filas basado en transformador que utiliza metadatos de esquema para generar incrustaciones invariantes de filas, lo que permite una mejor generalización entre bases de datos y mejora la convergencia en los benchmarks de RelBench.