Todos los artículos
arxiv arXiv cs.LG · hace 2 h

TASER: Expansión de Habilidades Diferenciadas por Tarea para Aprendizaje Continuo Heterogéneo

TASER introduce un marco que expande y enruta dinámicamente habilidades atómicas para el aprendizaje continuo a través de tareas altamente heterogéneas. Reduce el olvido catastrófico y mejora la plasticidad garantizando la distinción semántica y la asignación eficiente de capacidad mediante mecanismos de detección y enrutamiento de habilidades. Evaluado en HeteroCLBench, un benchmark con 19 tareas diversas a lo largo de 9 dimensiones cognitivas, TASER supera a las líneas base existentes.

arxiv arXiv cs.LG · hace 2 h

Diagnósticos para la selección de políticas en MORL

Proponemos un flujo de trabajo diagnóstico para revelar variación conductual en políticas de aprendizaje por refuerzo multiobjetivo. El método destaca diferencias en las trayectorias de las políticas más allá de los retornos esperados, ofreciendo herramientas cuantitativas y visuales para la inspección de políticas. Validado en mundos de cuadrícula y escalado a tareas de control continuo, captura eficazmente la diversidad conductual bajo complejidad creciente.

arxiv arXiv cs.LG · hace 3 h

MedTS-TTT: Entrenamiento en tiempo de prueba para series temporales médicas

MedTS-TTT introduce un marco de entrenamiento en tiempo de prueba para la clasificación de series temporales médicas. Basado en CLSA-TTT y una columna vertebral de convolución con compuertas, permite una adaptación rápida en un solo paso sin optimización iterativa. En cuatro conjuntos de datos públicos, alcanza 11 primeros puestos entre 12 evaluaciones a través de nueve líneas base y tres métricas.

arxiv arXiv cs.LG · hace 3 h

Computación de reservorio para procesamiento de señales de audio sin características

Este artículo explora la Computación de Reservorio como un método libre de características para la clasificación de señales de audio en bruto. Muestra que las arquitecturas paralelas de reservorio profundo superan a las superficiales y secuenciales en precisión mientras mantienen baja complejidad, permitiendo un procesamiento de audio eficiente y de bajo consumo con mínima preprocesamiento.

arxiv arXiv cs.LG · hace 3 h

DataClaw0: Adaptación agéntica de datos multimodales a partir de flujos en bruto

DataClaw0 introduce un paradigma agéntico para refinar activamente los datos multimodales en bruto con el fin de alinearse con las intenciones del usuario y de las tareas posteriores. Utiliza una canalización en dos etapas basada en anclajes factuales para generar un conjunto de datos a gran escala en cinco dominios, y combina el ajuste fino supervisado con GRPO para lograr una fuerte alineación con tareas de refinamiento complejas. Evaluado en generación de video, VQA y navegación por GUI, DataClaw0 produce datos adaptados de alta densidad de información, lo que permite una adaptación eficiente del modelo con mínimos datos de entrenamiento.

arxiv arXiv cs.LG · hace 3 h

Los modelos de Transformer son altamente sensibles a datos ruidosos en la predicción de trayectorias

Un estudio descubre que los modelos de predicción de trayectorias basados en Transformer se degradan significativamente con datos de estado de objetos ruidosos. La precisión disminuye 1.3x bajo ruido leve y hasta 3.9x bajo condiciones de alto ruido realistas, destacando la sensibilidad de los modelos y la necesidad de datos de entrenamiento más ruidosos del mundo real y estrategias de mitigación.

arxiv arXiv cs.LG · hace 3 h

Interpretación de Árboles de Comportamiento Temporales mediante Redes de Petri con Recompensas

Este artículo presenta una interpretación de Árboles de Comportamiento Temporales (TBT) mediante Redes de Petri con recompensas para el aprendizaje por refuerzo. Traduce los TBTs a Redes de Petri, asignando recompensas basadas en restricciones estructurales definidas en Lógica Temporal Lineal, lo que permite un aprendizaje efectivo en tareas robóticas complejas y de largo plazo donde el RL estándar falla.

arxiv arXiv cs.LG · hace 3 h

Marco de Datos Abiertos Identifica la Topología de la Red Eléctrica Urbana

Un nuevo marco utiliza datos de infraestructura pública y OpenStreetMap para reconstruir la topología de la red eléctrica urbana, desde las conexiones de transmisión hasta el nivel de los edificios. Mapea con éxito la red para 7,330 edificios en el distrito Alna de Oslo, permitiendo un análisis detallado del sistema eléctrico, como la optimización del flujo y estudios de resiliencia.

arxiv arXiv cs.LG · hace 3 h

Gestión predictiva de reparaciones utilizando atención multi-cabeza y aprendizaje en línea

Un marco de aprendizaje profundo que utiliza atención multi-cabeza y aprendizaje en línea predice con precisión las duraciones de reparación integrando datos históricos categóricos y numéricos. El modelo alcanza una precisión del 78% en datos reales de reparaciones desde 2013 hasta 2020, superando a las redes neuronales feed-forward y a los bosques aleatorios, con pesos de atención que revelan interacciones clave entre características.

arxiv arXiv cs.LG · hace 3 h

Graph-of-Differences para MedReID estructurado por anatomía

Graph-of-Differences (GoD) introduce alineación de diferencias estructuradas por anatomía para la reidentificación de imágenes médicas. Representa las imágenes como grafos anatómicos, calcula diferencias sobre regiones anatómicas emparejadas y ancla señales de recuperación a estructuras homólogas. GoD mejora la precisión Rank-1 en 7.1 pp en fondos de ojo y 3.1 pp en CXR, con mejor generalización en configuraciones de zero-shot.

arxiv arXiv cs.LG · hace 3 h

Codec de Acción Neural para Modelos Visión-Lenguaje-Acción

NAC, una arquitectura inspirada en códecs de audio neural, comprime trayectorias de acción de robots como señales 1D multicanal utilizando cuantización vectorial residual multiescala. Al reemplazar las pérdidas de mel-espectrograma con reconstrucción en el dominio del tiempo y no-mel espectral, NAC logra una codificación de acción de alta fidelidad con cambios arquitecturales mínimos, superando a los tokenizers existentes en error de reconstrucción y tasas de éxito en tareas de manipulación del mundo real.

arxiv arXiv cs.LG · hace 3 h

Marco de trabajo de texto a CAD inspirado en TRIZ mejora el diseño creativo

Un marco de trabajo de texto a CAD inspirado en TRIZ utiliza modelos de lenguaje grandes para generar modelos CAD 3D creativos y editables integrando principios inventivos de datos de patentes. En un estudio de caso sobre diseño de sillas, logró una reducción de masa del 4.0-14.7% mientras preservaba la integridad estructural mediante principios como la segmentación y los materiales compuestos.

arxiv arXiv cs.LG · hace 3 h

La ortogonalidad funcional garantiza la identificabilidad en el desentrelazamiento no supervisado

El artículo demuestra que las direcciones localmente ortogonales en modelos generativos garantizan la identificabilidad de los factores latentes sin necesidad de independencia estadística ni supuestos causales. Los experimentos con flujos normalizados regularizados por ortogonalidad confirman la recuperación fiable de los factores latentes verdaderos, desafiando afirmaciones previas sobre la imposibilidad del desentrelazamiento no supervisado.

arxiv arXiv cs.LG · hace 3 h

VLA-FAIL: Detección de fallos ligera para modelos de visión-lenguaje-acción

VLA-FAIL introduce un marco de detección de fallos ligero para modelos de visión-lenguaje-acción que utiliza la distancia de Mahalanobis de la última capa y la consistencia de los fragmentos de acción sin requerir datos de fallo ni muestreo costoso de acciones. El marco combina estos detectores para lograr una detección temprana y fiable de fallos en diversas tareas, superando a los métodos base tanto en precisión como en eficiencia.

arxiv arXiv cs.LG · hace 3 h

Los Modelos de Lenguaje Atomístico Entienden y Generan Materiales

Los Modelos de Lenguaje Atomístico (ALMs) unifican el lenguaje y las estructuras atomísticas, permitiendo la generación y optimización de cristales impulsadas por lenguaje natural. Los ALMs utilizan un puente continuo para mapear incrustaciones de lenguaje en el espacio de dirección de difusión atomística y emplean Text-to-Crystal Feynman-Kac para precisión estequiométrica. La benchmark ALM Bench evalúa la generación y optimización de materiales condicionados por texto, con código y pesos que se liberarán pronto.