Todos los artículos
arxiv arXiv cs.AI · hace 3 h

AIR: Razonamiento entrelazado adaptativo con código en MLLMs

Este artículo presenta AIR, un método que potencia a los modelos de lenguaje multimodales grandes con capacidades de razonamiento entrelazado adaptativo mediante entrenamiento extendido de aprendizaje por refuerzo en tareas de cómputo numérico complejo aumentadas con código. Los autores abordan la limitación de la literatura existente, que se centra principalmente en el uso de herramientas dentro de tareas de percepción visual y depende de heurísticas predefinidas incapaces de manejar cálculos numéricos. Para resolver esto, proponen una solución integral de tres componentes que incluye un pipeline de construcción de datos de inicio en frío en dos etapas, estrategias de filtrado de datos para la curación del conjunto de datos de aprendizaje por refuerzo y una estrategia de invocación de herramientas adaptativa que aprovecha una función de recompensa con restricciones de grupo. Experimentos extensos demuestran que después del entrenamiento de aprendizaje por refuerzo con esta función de recompensa, el rendimiento mejora en un promedio de 6.1 puntos porcentuales en los benchmarks de evaluación. Específicamente, la precisión para muestras de razonamiento entrelazado aumenta en 9.9 puntos porcentuales, mientras que la tasa de éxito general del uso de herramientas supera el 95 por ciento. Los investigadores proporcionan sus datos y código para acceso público en un repositorio de GitHub especificado.

arxiv arXiv cs.AI · hace 3 h

Navegación semántica: Diversidad controlable para la generación de imágenes

Los modelos modernos de texto a imagen a menudo sufren de colapso de diversidad a pesar de su alta fidelidad. Los autores introducen Navegación Semántica para habilitar una diversidad controlada a través de galerías de imágenes estructuradas. Este método permite a los usuarios navegar por ejes significativos de variación en lugar de ruido incidental. El enfoque explota el desacoplamiento entre la toma de decisiones semánticas y la generación de píxeles en modelos recientes. La diversidad se induce directamente a nivel textual utilizando representaciones textuales ricas. Un Modelo de Lenguaje Visual opera sobre el contexto completo de la escena dentro de un flujo de trabajo agente. Este flujo de trabajo aplica explícitamente una variación estructurada ajustada al prompt original. El resultado es un espacio de diseño navegable con decisiones semánticas interpretables.

arxiv arXiv cs.AI · hace 3 h

CoorDex: Coordinación de priors corporales y manuales para la locomoción-manipulación continua y diestra en humanoides

Los autores presentan CoorDex, una tubería de aprendizaje que permite la manipulación diestra de alto grado de libertad en humanoides en movimiento. Este enfoque convierte el control de cuerpo y mano de alta dimensión en un control residual latente coordinado, superando las limitaciones de los métodos tradicionales de parada y arranque. El sistema entrena maestros de seguimiento de movimiento privilegiado a partir de demostraciones simuladas y los destila en priors latentes condicionados por propiocepción. Estos priors congelados sirven como el espacio de acción para el aprendizaje por refuerzo residual posterior mediante una política que compone el contexto de la tarea con cabezales residuales separados para cuerpo y mano. CoorDex permite a un humanoide Unitree G1 equipado con una mano WUJI de 20-DoF realizar tareas complejas mientras se mueve, como la captura continua de botellas y la apertura de puertas de refrigerador. Los estudios de ablation demuestran que el PPO en el espacio joint-space y la predicción latente monolítica fallan bajo presupuestos de recompensa similares, mientras que la interfaz de prior latente propuesta garantiza la entrenabilidad para la manipulación rica en contactos.

arxiv arXiv cs.LG · hace 3 h

Alineación de variedades codificador-decodificador para generación idempotente

Los paradigmas de aprendizaje recientes buscan imponer la idempotencia en modelos generativos asegurando que la aplicación repetida deje las muestras sin cambios en la variedad de datos objetivo. Sin embargo, muchos enfoques existentes no logran alcanzar puntos fijos exactos, lo que resulta en inestabilidad y deriva durante las aplicaciones repetidas. Los autores identifican un desajuste geométrico entre las variedades del codificador y el decodificador como la causa principal de este fallo. Para resolverlo, proponen un marco de entrenamiento que alinea explícitamente la geometría de ambos componentes para aprender representaciones consistentes de la misma variedad de datos subyacente. Esta alineación fomenta proyecciones estables y reduce significativamente el error de idempotencia en comparación con métodos anteriores. Los resultados empíricos demuestran que el enfoque regenera consistentemente salidas idénticas bajo aplicación repetida tanto para tareas de generación como de edición de imágenes. Además, imponer este tipo de idempotencia mejora la preservación de la identidad y la estabilidad de la información en modelos generativos.

arxiv arXiv cs.LG · hace 4 h

La mezcla de restauración en variedades mejora el aprendizaje de representaciones de proteínas

La augmentación de datos mejora el aprendizaje de representaciones de proteínas, pero a menudo interrumpe la integridad estructural o reduce la diversidad. Los autores identifican estos defectos estructurales y problemas de degradación del rendimiento en los métodos existentes. Proponen Manifold Restore Mixing (MRM) para restaurar la información estructural perdida mientras introducen variaciones diversas. MRM mezcla las representaciones ocultas de los datos originales y aumentados, inspirado en las técnicas de manifold mixup. Un programador de dificultad de muestra ajusta la distribución beta para proporcionar muestras progresivamente más desafiantes durante el entrenamiento. Los experimentos en varias arquitecturas base y tareas posteriores demuestran la efectividad y generalización del método. La implementación está disponible en https://github.com/KingGugu/MRM.

arxiv arXiv cs.LG · hace 4 h

Gradientes Integrados de Difusión: Generación Controlada de Trayectorias para Atribución Flexible de Características

Los autores proponen Gradientes Integrados de Difusión (DiffIG), un método novedoso que reformula la generación de trayectorias como un problema de modelado generativo condicional para abordar limitaciones en las técnicas de atribución existentes. Si bien los gradientes integrados se utilizan ampliamente, su dependencia de trayectorias fijas o elaboradas a mano a menudo da lugar a atribuciones ruidosas o distorsionadas. Para resolver esto, DiffIG entrena un modelo de difusión para aprender una distribución sobre trayectorias derivadas de un Proceso de Ruptura de Palitos (Stick-Breaking Process). El método emplea luego muestreo guiado para permitir la incorporación de orientación del usuario durante el procedimiento de muestreo en tiempo de inferencia. Este enfoque permite una atribución de características flexible y controlable al tratar la selección de trayectorias como una tarea generativa en lugar de una elección estática. Los resultados experimentales demuestran que DiffIG coincide cuantitativamente o supera a los métodos basados en trayectorias existentes en términos de calidad de atribución. Además, se muestra que las explicaciones generadas están alineadas perceptualmente con las expectativas humanas. El trabajo introduce una nueva perspectiva generativa para la Inteligencia Artificial Explicable que admite el control dinámico sobre las trayectorias de explicación.

arxiv arXiv cs.LG · hace 4 h

El RL Curricular Consciente de Límites Expande la Capacidad de Razonamiento de los LLM Más Allá de los Límites del Modelo Base

Los autores argumentan que el Aprendizaje por Refuerzo convencional con Recompensas Verificables (RLVR) a menudo falla en expandir la capacidad de razonamiento de los modelos de lenguaje grandes, simplemente reasignando probabilidades entre trayectorias existentes. Para abordar esta limitación, introducen un enfoque de RL Curricular Consciente de Límites diseñado para superar el límite empírico de capacidad de razonamiento del modelo base. El método primero utiliza muestreo pass@k para identificar los límites de razonamiento actuales y luego aplica guía docente dirigida a ejemplos cerca o más allá de ese límite. Posteriormente, se utiliza aprendizaje por refuerzo para consolidar estos nuevos patrones de razonamiento introducidos en los modelos base Qwen, Llama y DeepSeek. Los resultados experimentales demuestran mejoras significativas tanto en las puntuaciones pass@1 como en las puntuaciones pass@256, que sirven como un proxy del límite de capacidad de razonamiento. Específicamente, el promedio de pass@256 mejoró en 9.8 puntos porcentuales sobre los modelos base y en 10.3 puntos porcentuales sobre RLVR Vanilla. Estos hallazgos sugieren que esta estrategia basada en currículo ofrece una ruta escalable para mejorar continuamente las capacidades de razonamiento de los LLM.

arxiv arXiv cs.LG · hace 4 h

Los sumideros de atención y el colapso son consecuencias universales del enrutamiento basado en contenido

El estudio demuestra que los sumideros de atención, el colapso de representación y la estratificación de normas no son exclusivos de las arquitecturas transformer, sino consecuencias inherentes del enrutamiento basado en contenido bajo una métrica de similitud fija. Establece una identidad que muestra las funciones de atención softmax como agregación ponderada por Boltzmann sobre distancias euclidianas con normas de clave constantes, volviéndolo ciego a la magnitud de la clave debido a la omisión de un término de norma específico. Este marco predice que cualquier enrutador que utilice una métrica mal ajustada a sus representaciones compensará concentrando el enrutamiento y colapsando las representaciones enrutadas. Los autores validan esta hipótesis en diversos modelos, incluidos nueve transformers preentrenados, redes de atención gráfica, modelos de espacio de estado selectivo, mezcladores recurrentes y capas residuales aprendidas. Los resultados experimentales confirman que todas las arquitecturas probadas exhiben esta misma firma de colapso independientemente de su dominio o estructura específicos. Además, las ablaciones dentro del modelo aíslan el mecanismo de enrutamiento como la causa principal en lugar de dinámicas de entrenamiento incidentales. Se muestra que la aparición de este fenómeno depende de la fuerza del freno posicional que acompaña a la puntuación de contenido, lo cual puede desplazar el efecto a lo largo de su rango. Sin embargo, el mecanismo subyacente permanece invariante y no requiere estratificación de normas, ya que los enrutadores con claves normalizadas por norma exhiben el mismo comportamiento de concentración.

arxiv arXiv cs.LG · hace 4 h

Primer análisis de tiempo finito de Adam clásico para optimización no convexa no suave

Este estudio presenta el primer análisis de convergencia en tiempo finito para el optimizador Adam clásico, abordando específicamente su comportamiento en configuraciones de optimización no convexa no suave. Investigaciones anteriores ignoraron en gran medida el término de corrección de sesgo de Adam o requirieron modificaciones algorítmicas adicionales como el recorte, dejando las garantías del método original poco claras. Los autores utilizan el marco de Conversión de Online a Noconvexo para demostrar que una tasa de aprendizaje escalada aleatoriamente garantiza una tasa de convergencia de $1/T^{ rac{2}{13}}$. Este resultado teórico es significativo porque se aplica al régimen moderno de ruido de cola pesada, que refleja más de cerca las condiciones prácticas de entrenamiento. Además, el análisis establece la convergencia bajo la elección de parámetros donde $β_1=β_2$, alineándose con observaciones empíricas recientes. Estos hallazgos proporcionan una explicación rigurosa de la efectividad de Adam en escenarios del mundo real que anteriormente no fueron adecuadamente capturados por las teorías de optimización suave.

arxiv arXiv cs.LG · hace 4 h

Generalización sin referencia en el aprendizaje automático cuántico

Este estudio aborda el problema de identificabilidad en el aprendizaje automático cuántico donde los datos de entrenamiento carecen de una base preferida o un marco de referencia. Los autores formulan el aprendizaje supervisado sin un marco de referencia cuántico externo, requiriendo que los clasificadores preserven las simetrías unitarias no rotas por los datos de entrenamiento. Demuestran que si los estados de entrenamiento no abarcan todo el espacio de Hilbert, todos los estados puros ortogonales a este abarcamiento reciben predicciones idénticas. Esta limitación surge de la falta de información de referencia en lugar de restricciones de discriminación de estados o computacionales. La investigación establece una versión robusta bajo ruptura débil de simetría y muestra que aprender conceptos genéricos requiere exponencialmente muchas direcciones de entrenamiento orientadas. Las ilustraciones numéricas visualizan el colapso de predicción resultante y su relajación controlada. Los resultados identifican los mapas de características, las bases de medición y diversos estados de entrenamiento como recursos operativos esenciales para la generalización.

arxiv arXiv cs.LG · hace 4 h

El ultrasonido A-mode portátil permite el seguimiento cinemático completo de la mano en un microcontrolador

Los investigadores proponen un marco para el seguimiento cinemático robusto de toda la mano y la muñeca utilizando la plataforma portátil WULPUS con una sonda de ultrasonido A-mode. El sistema aborda la regresión de 23 grados de libertad directamente en el dispositivo, superando las limitaciones de los sistemas no portátiles anteriores. Se emplea una red neuronal convolucional compacta de múltiples salidas que contiene 11.285 parámetros junto con una estrategia de entrenamiento incremental para mejorar la generalización. Este enfoque reduce el error absoluto medio en más del 17% en comparación con los métodos no incrementales. El modelo se implementa en el microcontrolador WULPUS nRF52832, logrando un seguimiento de extremo a extremo completamente en el dispositivo. La inferencia consume solo 0,73 mJ con una latencia de 29,1 ms. El sistema admite operación completa dentro de 33 mW, permitiendo hasta 36 horas de uso continuo. Este método también reduce los requisitos de ancho de banda inalámbrico en un 88% en comparación con la transmisión de datos sin procesar.

arxiv arXiv cs.LG · hace 4 h

Selección conformal calibrada con nulo mediante puntuaciones de pertenencia al objetivo

El artículo presenta la Selección Conformal Calibrada con Nulo (NCCS), un método que utiliza puntuaciones de probabilidad de pertenencia al objetivo para identificar candidatos de prueba dentro de una región objetivo mientras controla la tasa de descubrimiento falso. Los autores argumentan que estas puntuaciones de pertenencia proporcionan un ranking más natural para tareas de selección que las puntuaciones de no conformidad convencionales orientadas a la predicción, particularmente para objetivos complejos. Esta distinción es crítica para objetivos con valores de intervalo, impulsados por varianza, multimodales o multi-condición, donde las puntuaciones tradicionales pueden estar desalineadas con el poder de selección. NCCS clasifica las puntuaciones de prueba contra ejemplos de calibración no objetivo confirmados para producir p-valores nulos válidos en muestras finitas bajo intercambiabilidad nula. Estos p-valores pueden combinarse con el procedimiento de Benjamini-Yekutieli bajo dependencia arbitraria o con el procedimiento de Benjamini-Hochberg bajo condiciones estándar de dependencia positiva. Los experimentos demuestran que las puntuaciones de pertenencia igualan a las puntuaciones convencionales en objetivos monótonos en la media, pero mejoran sustancialmente el rendimiento en objetivos impulsados por varianza. En regímenes de objetivo raro, NCCS intercambia poder por validez nula en muestras finitas, abordando problemas donde el umbralizado empírico directo de FDP puede ser anti-conservador.

arxiv arXiv cs.LG · hace 4 h

El Estimador de Varianza Invariante al Desplazamiento Elimina el Sesgo de Minimización en la Estimación del Coeficiente Local de Aprendizaje

La Teoría del Aprendizaje Singular utiliza el Coeficiente Local de Aprendizaje para cuantificar la geometría del paisaje de pérdida de las redes neuronales, pero los estimadores de energía media dependen de una línea base aditiva de pérdida. Durante las fases de entrenamiento fuera del equilibrio, este mínimo es desconocido, y sustituirlo con pérdidas de mini-lotes ruidosas introduce un sesgo sistemático de minimización. Los autores proponen el Estimador de Varianza Invariante al Desplazamiento (SIVE) para eliminar estructuralmente esta línea base desconocida a través del operador de varianza. Al combinar SIVE con una corrección derivada de la Ley de la Varianza Total, el método separa las fluctuaciones geométricas de la pérdida del ruido de evaluación. Experimentos controlados en modelos toy analíticamente tratables demuestran que SIVE recupera señales geométricas de temperatura finita esperadas donde los estimadores de media anclados fallan. Aplicado a redes neuronales profundas, SIVE sirve como un diagnóstico robusto para rastrear transiciones de fase estructurales durante todo el entrenamiento.

arxiv arXiv cs.LG · hace 4 h

RoboMME-Interference evalúa la memoria del robot bajo distracción

La introducción de RoboMME-Interference aborda la necesidad de evaluar la memoria del robot en escenarios realistas de contexto largo, donde los sistemas deben recordar información de sesiones anteriores. Este nuevo benchmark entre sesiones se basa en el marco existente de RoboMME para medir el rendimiento cuando los robots enfrentan distracciones por experiencias previas no relacionadas. Para cada episodio de consulta, el benchmark construye un historial de sesión que consiste en demostraciones relevantes seguidas por un número controlado de sesiones no relacionadas proporcionadas como memoria a los modelos Vision-Language-Action. Los investigadores probaron las variantes liberadas del modelo π_0.5 aumentadas con memoria sin modificación para evaluar su robustez bajo estas condiciones. Los resultados indican que, aunque las variantes de memoria perceptual mejoran las tasas de éxito cuando no hay distractores, su precisión disminuye de manera constante y fuerte a medida que se acumulan sesiones no relacionadas. Estos hallazgos destacan una falla crítica en los sistemas actuales con respecto a la memoria de contexto largo y la resistencia a la interferencia. La página del proyecto, videos, código y datos para este benchmark están disponibles en https://robotmemorybench.com.

arxiv arXiv cs.LG · hace 4 h

Muestreo de posterior mediante enfriamiento de flujos para regresión en el espacio de funciones y problemas inversos

Los autores presentan el Muestreo de Posterior mediante Enfriamiento de Flujos (FAPS, por sus siglas en inglés), un marco novedoso que unifica la regresión de procesos estocásticos con los problemas inversos de EDP en el espacio de funciones. Basado en priores de emparejamiento de flujos en el espacio de funciones previamente entrenados, FAPS facilita la inferencia posterior guiada por verosimilitud utilizando observaciones dispersas y ruidosas. El método soporta discretizaciones de consulta variables y evita la necesidad de evaluar explícitamente la densidad del prior durante el muestreo. Emplea un mecanismo de corrección de Langevin que utiliza un precondicionador de covarianza de rango bajo para explotar las correlaciones dominantes en el espacio de funciones entre diferentes discretizaciones. Las pruebas en procesos estocásticos tanto gaussianos como no gaussianos demuestran que FAPS produce muestras posteriores coherentes con una cuantificación precisa de la incertidumbre. El enfoque supera significativamente a las líneas base existentes de regresión funcional en estas tareas estándar. Además, logra un rendimiento competitivo o superior en problemas inversos de EDP ruidosos en comparación con los muestreadores basados en difusión, mientras reduce los costos de muestreo en tiempo de prueba.

arxiv arXiv cs.LG · hace 4 h

Select-to-Act: Aprendizaje por refuerzo jerárquico mediante guía de lenguaje adaptativa

El artículo presenta HRLLI, un marco de aprendizaje por refuerzo jerárquico diseñado para mejorar la eficiencia de muestreo aprovechando instrucciones en lenguaje natural. Aborda la limitación de los enfoques existentes que tratan las instrucciones como entradas estáticas, sin tener en cuenta su relevancia dependiente del etapa en entornos complejos. El método propuesto descompone las instrucciones en elementos de guía por tramos que se vuelven relevantes en diferentes etapas de interacción. Se formula un nuevo paradigma Select-to-Act donde una política semántica de alto nivel actúa como selector para la pieza de instrucción más relevante basada en el estado actual. Esta guía seleccionada condiciona una política de bajo nivel que ejecuta las acciones del entorno, con ambas políticas aprendidas simultáneamente para maximizar los retornos esperados aumentados. Los experimentos en la benchmark RTFM demuestran que HRLLI supera consistentemente a las bases fuertes de RL condicionado por instrucciones. Los resultados confirman que modelar explícitamente la selección adaptativa de instrucciones mejora significativamente la efectividad del aprendizaje por refuerzo.

arxiv arXiv cs.LG · hace 4 h

SAFER: Agrupación adaptativa guiada por fiabilidad para la adaptación en tiempo de prueba robusta

Los autores abordan la fragilidad de la adaptación en tiempo de prueba (TTA) bajo flujos contaminados adversarialmente proponiendo SAFER, un marco sin entrenamiento para TTA robusta. SAFER actúa como un envoltorio de augmentación que reemplaza las predicciones de vista única con un predictor agrupado guiado por fiabilidad para estabilizar las actualizaciones en línea. Para cada muestra de prueba, el método genera augmentaciones estocásticas y agrega sus salidas utilizando agrupamiento ponderado por correlación combinado con detección de valores atípicos. También se introduce una extensión de mezcla adaptativa, que ajusta la ponderación entre entradas originales y aumentadas basándose en señales de desacuerdo de características para preservar el rendimiento limpio. Los investigadores evaluaron SAFER en los benchmarks PACS, VLCS y OfficeHome bajo ataques PGD a varias tasas. Los resultados indican que SAFER mejora la resiliencia de los métodos TTA contra ataques adversariales mientras mantiene una precisión competitiva en datos limpios.

arxiv arXiv cs.LG · hace 4 h

El aprendizaje de diccionarios activados parcimoniosamente vincula la dispersión y el almacenamiento con los modelos generativos

El artículo introduce el aprendizaje de diccionarios activados parcimoniosamente (PADL), un método que impone una regularización global sobre el número de átomos del diccionario activados. Demuestra que PADL es equivalente a la estimación de máxima a posteriori bajo un modelo generativo estructurado con variables latentes auxiliares. Esta equivalencia permite derivar garantías de generalización difíciles de obtener a partir de la formulación original. Los autores proporcionan una caracterización analítica del compromiso entre dispersión, costo de almacenamiento y precisión de reconstrucción. Este marco permite la estimación basada en datos de hiperparámetros óptimos sin ajuste manual. Se desarrolla un algoritmo PADL eficiente e interpretable basado en esta conexión teórica. Los resultados experimentales muestran un rendimiento mejorado de reconstrucción bajo niveles comparables de dispersión en benchmarks visuales. El método también demuestra utilidad práctica al acelerar la inferencia para modelos de visión y lenguaje.

arxiv arXiv cs.LG · hace 4 h

ORBIT: Dirección de comportamiento multiatributo sin entrenamiento mediante rotación de subespacio ortogonal

Los autores presentan ORBIT, un método sin entrenamiento para controlar simultáneamente múltiples atributos de comportamiento en modelos de lenguaje grandes. Las técnicas existentes de dirección de activación luchan con el control multiatributo debido al desequilibrio de norma y la cancelación direccional al usar suma vectorial ingenua. ORBIT aborda esto construyendo un subespacio conjunto a partir de planos de dirección por atributo mediante descomposición en valores singulares. Luego aplica una única rotación que preserva la norma dentro de ese subespacio hacia una dirección combinada objetivo. El método incorpora enmascaramiento adaptivo por token para identificar correcciones necesarias en cada posición y un impulso aditivo opcional para proyecciones débiles. Para evaluar el enfoque, los autores presentan TraitFactory, un punto de referencia centrado en tendencias de comportamiento en lugar de estilo superficial. Los experimentos en modelos Llama-3.2-3B, Qwen-2.5-7B y Llama-3.1-8B demuestran que ORBIT logra una dirección más fuerte y equilibrada que las líneas base mientras preserva la coherencia de salida.

arxiv arXiv cs.LG · hace 4 h

Evaluación sin referencia de la consistencia física en la generación de video basada en modelos del mundo

Los autores introducen medidas sin referencia para evaluar la consistencia física de los videos generados combinando evaluaciones de fidelidad relativa y absoluta. Este enfoque aborda la brecha en la fidelidad física que a menudo impide que herramientas de generación de video como WorldGym o WorldEval reproduzcan con precisión las tasas de éxito de tareas del mundo real para modelos VLA. A diferencia de los métodos existentes que requieren votación humana costosa o referencias ground-truth no disponibles, el nuevo marco utiliza DROID-SLAM y SEA-RAFT para cuantificar inconsistencias. Motivado por WorldScore, la evaluación de consistencia relativa filtra videos para mejorar las tasas de éxito de tareas en más del 8%. Además, la evaluación absoluta permite la localización espaciotemporal para visualizar cuándo y dónde ocurren los artefactos físicos en el contenido generado.