Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 109

AIR: Razonamiento entrelazado adaptativo con código en MLLMs

Este artículo presenta AIR, un método que potencia a los modelos de lenguaje multimodales grandes con capacidades de razonamiento entrelazado adaptativo mediante entrenamiento extendido de aprendizaje por refuerzo en tareas de cómputo numérico complejo aumentadas con código. Los autores abordan la limitación de la literatura existente, que se centra principalmente en el uso de herramientas dentro de tareas de percepción visual y depende de heurísticas predefinidas incapaces de manejar cálculos numéricos. Para resolver esto, proponen una solución integral de tres componentes que incluye un pipeline de construcción de datos de inicio en frío en dos etapas, estrategias de filtrado de datos para la curación del conjunto de datos de aprendizaje por refuerzo y una estrategia de invocación de herramientas adaptativa que aprovecha una función de recompensa con restricciones de grupo. Experimentos extensos demuestran que después del entrenamiento de aprendizaje por refuerzo con esta función de recompensa, el rendimiento mejora en un promedio de 6.1 puntos porcentuales en los benchmarks de evaluación. Específicamente, la precisión para muestras de razonamiento entrelazado aumenta en 9.9 puntos porcentuales, mientras que la tasa de éxito general del uso de herramientas supera el 95 por ciento. Los investigadores proporcionan sus datos y código para acceso público en un repositorio de GitHub especificado.

arxiv arXiv cs.AI · hace 3 h

Navegación semántica: Diversidad controlable para la generación de imágenes

Los modelos modernos de texto a imagen a menudo sufren de colapso de diversidad a pesar de su alta fidelidad. Los autores introducen Navegación Semántica para habilitar una diversidad controlada a través de galerías de imágenes estructuradas. Este método permite a los usuarios navegar por ejes significativos de variación en lugar de ruido incidental. El enfoque explota el desacoplamiento entre la toma de decisiones semánticas y la generación de píxeles en modelos recientes. La diversidad se induce directamente a nivel textual utilizando representaciones textuales ricas. Un Modelo de Lenguaje Visual opera sobre el contexto completo de la escena dentro de un flujo de trabajo agente. Este flujo de trabajo aplica explícitamente una variación estructurada ajustada al prompt original. El resultado es un espacio de diseño navegable con decisiones semánticas interpretables.

arxiv arXiv cs.AI · hace 3 h

CoorDex: Coordinación de priors corporales y manuales para la locomoción-manipulación continua y diestra en humanoides

Los autores presentan CoorDex, una tubería de aprendizaje que permite la manipulación diestra de alto grado de libertad en humanoides en movimiento. Este enfoque convierte el control de cuerpo y mano de alta dimensión en un control residual latente coordinado, superando las limitaciones de los métodos tradicionales de parada y arranque. El sistema entrena maestros de seguimiento de movimiento privilegiado a partir de demostraciones simuladas y los destila en priors latentes condicionados por propiocepción. Estos priors congelados sirven como el espacio de acción para el aprendizaje por refuerzo residual posterior mediante una política que compone el contexto de la tarea con cabezales residuales separados para cuerpo y mano. CoorDex permite a un humanoide Unitree G1 equipado con una mano WUJI de 20-DoF realizar tareas complejas mientras se mueve, como la captura continua de botellas y la apertura de puertas de refrigerador. Los estudios de ablation demuestran que el PPO en el espacio joint-space y la predicción latente monolítica fallan bajo presupuestos de recompensa similares, mientras que la interfaz de prior latente propuesta garantiza la entrenabilidad para la manipulación rica en contactos.

arxiv arXiv cs.LG · hace 3 h

Alineación de variedades codificador-decodificador para generación idempotente

Los paradigmas de aprendizaje recientes buscan imponer la idempotencia en modelos generativos asegurando que la aplicación repetida deje las muestras sin cambios en la variedad de datos objetivo. Sin embargo, muchos enfoques existentes no logran alcanzar puntos fijos exactos, lo que resulta en inestabilidad y deriva durante las aplicaciones repetidas. Los autores identifican un desajuste geométrico entre las variedades del codificador y el decodificador como la causa principal de este fallo. Para resolverlo, proponen un marco de entrenamiento que alinea explícitamente la geometría de ambos componentes para aprender representaciones consistentes de la misma variedad de datos subyacente. Esta alineación fomenta proyecciones estables y reduce significativamente el error de idempotencia en comparación con métodos anteriores. Los resultados empíricos demuestran que el enfoque regenera consistentemente salidas idénticas bajo aplicación repetida tanto para tareas de generación como de edición de imágenes. Además, imponer este tipo de idempotencia mejora la preservación de la identidad y la estabilidad de la información en modelos generativos.

AIR: Razonamiento entrelazado adaptativo con código en MLLMs

Navegación semántica: Diversidad controlable para la generación de imágenes

CoorDex: Coordinación de priors corporales y manuales para la locomoción-manipulación continua y diestra en humanoides

Alineación de variedades codificador-decodificador para generación idempotente

La mezcla de restauración en variedades mejora el aprendizaje de representaciones de proteínas

Gradientes Integrados de Difusión: Generación Controlada de Trayectorias para Atribución Flexible de Características

El RL Curricular Consciente de Límites Expande la Capacidad de Razonamiento de los LLM Más Allá de los Límites del Modelo Base

Los sumideros de atención y el colapso son consecuencias universales del enrutamiento basado en contenido

Primer análisis de tiempo finito de Adam clásico para optimización no convexa no suave

Generalización sin referencia en el aprendizaje automático cuántico

El ultrasonido A-mode portátil permite el seguimiento cinemático completo de la mano en un microcontrolador

Selección conformal calibrada con nulo mediante puntuaciones de pertenencia al objetivo

El Estimador de Varianza Invariante al Desplazamiento Elimina el Sesgo de Minimización en la Estimación del Coeficiente Local de Aprendizaje

RoboMME-Interference evalúa la memoria del robot bajo distracción

Muestreo de posterior mediante enfriamiento de flujos para regresión en el espacio de funciones y problemas inversos

Select-to-Act: Aprendizaje por refuerzo jerárquico mediante guía de lenguaje adaptativa

SAFER: Agrupación adaptativa guiada por fiabilidad para la adaptación en tiempo de prueba robusta

El aprendizaje de diccionarios activados parcimoniosamente vincula la dispersión y el almacenamiento con los modelos generativos

ORBIT: Dirección de comportamiento multiatributo sin entrenamiento mediante rotación de subespacio ortogonal

Evaluación sin referencia de la consistencia física en la generación de video basada en modelos del mundo