Todos los artículos
arxiv arXiv cs.AI · hace 6 h

Autofiltrado: Selección iterativa de datos para modelos de visión y lenguaje

Los autores proponen un nuevo método de arranque en cascada llamado Autofiltrado para abordar el ruido en conjuntos de datos a gran escala de visión y lenguaje sin depender de supervisión manual ni referencias curadas. Este enfoque entrena un modelo CLIP en un conjunto de datos en evolución que equilibra muestras limpias filtradas de alta probabilidad con ejemplos diversos de toda la distribución. El proceso alterna entre entrenar el modelo y seleccionar una mezcla de datos mejorada para los pasos siguientes. Al refinar continuamente el conjunto de datos mediante este ciclo, el método reduce la necesidad de fuentes adicionales de datos externos. El estudio demuestra que entrenar con estos conjuntos de datos auto-seleccionados mejora eficazmente el rendimiento en tareas posteriores. Esta técnica opera independientemente de modelos preentrenados o estrategias de filtrado basadas en heurísticas.

arxiv arXiv cs.AI · hace 6 h

RECALL: Aprendizaje Activo Continuo para Modelos Visión-Lenguaje-Acción

El artículo presenta RECALL, un paradigma de aprendizaje activo y continuo para modelos Visión-Lenguaje-Acción que aborda las ineficiencias del aprendizaje por imitación pasiva. A diferencia de los métodos tradicionales que requieren fallos del robot para desencadenar la recolección de datos, este enfoque utiliza demostraciones de recuperación guiadas por incertidumbre para identificar proactivamente los estados que necesitan supervisión. Los autores demuestran que esta recolección de datos dirigida conduce a un ajuste fino más eficiente en comparación con las demostraciones recopiladas pasivamente. Sin embargo, el estudio revela que el ajuste fino exclusivamente con estos datos activos de recuperación provoca un olvido catastrófico de los comportamientos aprendidos previamente. Para mitigar este problema, el trabajo evalúa técnicas de aprendizaje continuo como la mezcla de datos basada en replay y la consolidación elástica de pesos. Estos experimentos destacan las compensaciones críticas entre la plasticidad para nuevas tareas y la retención de capacidades existentes en VLAs autoregresivos. En última instancia, la investigación establece que, aunque la recuperación guiada por incertidumbre mejora la eficiencia de adaptación, incorporar datos nuevos dirigidos a grandes políticas robóticas presenta desafíos abiertos significativos.

arxiv arXiv cs.AI · hace 6 h

DiT-Reward: Usar representaciones de Diffusion Transformer para modelado de recompensa en texto a imagen

Los autores presentan DiT-Reward, un método que convierte un Diffusion Transformer preentrenado de texto a imagen en un modelo de recompensa agregando representaciones de imágenes condicionadas por texto a través de las capas del transformer. Evaluado con la misma mezcla de datos de entrenamiento que HPSv3, DiT-Reward supera a HPSv3 en los cuatro benchmarks de preferencia, alcanzando 85.6% en HPDv2 y 77.6% en HPDv3. El estudio revela que el rendimiento de recompensa en tareas posteriores es más fuerte en las capas intermedias a tardías y se beneficia al combinar representaciones de diferentes etapas. Incluso con un backbone generativo congelado, una cabeza aprendida ligera puede extraer predicciones de preferencia significativas de estas representaciones. Cuando se usa para optimizar Stable Diffusion 3.5 Large con Flow-GRPO, DiT-Reward supera a HPSv3 a lo largo de la trayectoria de entrenamiento coincidente, mostrando ganancias claras en realismo. Además, la puntuación directa de latentes proporciona una aceleración de inferencia de 1.65x sobre HPSv3 mientras mantiene un uso de memoria pico comparable. Estos resultados demuestran que los Diffusion Transformers generativos preentrenados proporcionan representaciones transferibles para el modelado de recompensa y la optimización de políticas.

arxiv arXiv cs.AI · hace 6 h

QoR-compact: Una encuesta diaria de cinco ítems para el monitoreo remoto de pacientes

Los investigadores desarrollaron QoR-compact, una encuesta diaria de cinco ítems diseñada para mejorar la adherencia en el monitoreo remoto de pacientes al reducir la carga del instrumento estándar de 15 preguntas Quality of Recovery (QoR-15). El estudio fue motivado por las bajas tasas de adherencia, donde solo el 55% de los pacientes posquirúrgicos completaron la encuesta completa durante más de la mitad de un período de 30 días. Para abordar esto, el equipo evaluó exhaustivamente todos los 3.003 subconjuntos posibles de cinco preguntas para identificar el subconjunto que mejor predice la gravedad de la recuperación posoperatoria a corto plazo. Los ítems seleccionados de QoR-compact cubren ejes físicos y psicológicos, abordando específicamente el descanso, la comodidad, el bienestar, el dolor y la ansiedad. Las pruebas retrospectivas demostraron que QoR-compact logra un AUC-ROC medio de 0.968, que es estadísticamente comparable al rendimiento base de un tercio de los ítems del instrumento completo. El modelo rastrea eventos de readmisión con una fidelidad similar a la forma completa, estableciendo su validez como herramienta predictiva. Si bien los autores señalan que se requiere validación externa en cohortes más grandes antes del uso clínico, los resultados respaldan estudios prospectivos sobre si esta entrada más ligera mejora la consistencia de la finalización diaria.

arxiv arXiv cs.AI · hace 6 h

Puntuaciones de exposición a la IA: Limitaciones de las métricas estáticas y la necesidad de coordinación entre investigación y políticas

Las puntuaciones de exposición de Eloundou et al. (2023) definen la exposición a la IA como la proporción de tareas ocupacionales que los modelos de lenguaje grandes pueden asistir, convirtiéndose en un insumo central en los debates sobre el futuro del trabajo. Estas medidas estáticas adolecen de limitaciones temporales, geográficas y ontológicas que a menudo no se trasladan con ellas a los análisis de políticas. Los autores identifican dos brechas principales: desajustes estructurales entre las puntuaciones estáticas y las necesidades dinámicas de las políticas, y una coordinación insuficiente entre investigadores y formuladores de políticas. Para abordar las limitaciones de medición, el artículo revisa cinco familias de investigación que incluyen benchmarks dinámicos, métodos de conjunto, extensiones de marcos de tareas, métricas centradas en el trabajador y datos de adopción. La segunda brecha requiere un trabajo político deliberado para reimaginar los resultados futuros en lugar de depender únicamente de una mejor medición. Los formuladores de políticas deben ampliar su base de evidencia, involucrar a los trabajadores como socios y pasar de la predicción a la preparación. Se insta a los investigadores a construir infraestructura de datos, adoptar métodos participativos y escribir teniendo en cuenta a los formuladores de políticas.

arxiv arXiv cs.AI · hace 7 h

Aprendizaje de recompensas del proceso mediante coincidencia de visitas al éxito para RL eficiente

Los autores abordan el desafío de entrenar políticas de aprendizaje por refuerzo con recompensas de resultado inherentemente dispersas, lo que conduce a problemas difíciles de asignación de crédito. Proponen un método para transformar estas recompensas dispersas en recompensas densas del proceso mediante el entrenamiento de un discriminador para distinguir entre episodios exitosos y no exitosos. Este discriminador incentiva a la política a coincidir con las visitas al estado-acción de los episodios exitosos mientras evita las de los no exitosos. Al proporcionar retroalimentación densa sobre el progreso hacia la finalización de la tarea, el enfoque logra esto de manera demostrable sin alterar la política óptima. El método se aplica específicamente al ajuste fino de políticas de control robótico para tareas de manipulación. Los resultados experimentales demuestran un rendimiento significativamente más rápido en el ajuste fino de RL tanto en entornos simulados como del mundo real en comparación con maximizar únicamente las recompensas de resultado dispersas.

arxiv arXiv cs.AI · hace 7 h

TailorMind: Hacia la Generación de Contenido Multimodal Alineada con Preferencias

Los autores presentan TailorMind, un sistema para la generación personalizada de contenido multimodal que produce salidas adaptadas al usuario sin depender de conjuntos de elementos existentes ni esperar a que se genere contenido por parte del usuario. El enfoque vincula el modelado colaborativo de preferencias con la generación multimodal controlable, enriqueciendo los historiales escasos de los usuarios mediante filtrado colaborativo basado en hipergrafos. Además, optimiza los perfiles textuales utilizando retroalimentación de error de clasificación y descenso de gradiente textual para capturar mejor las preferencias del usuario. Para garantizar la calidad, el sistema emplea un control de estilo aumentado por recuperación basado en patrones auténticos y una reflexión de cohesión multimodal para reducir la deriva semántica. Los investigadores también presentan TailorBench, un conjunto de evaluación evaluado en cinco dimensiones que incluyen coherencia, novedad, calidad estética, alucinación y perfilado. Los experimentos demuestran que TailorMind logra una coherencia competitiva o superior en comparación con los modelos base, mientras mejora la novedad y la calidad estética sobre modelos de generación representativos y datos de referencia. Además, el sistema muestra ventajas sobre la recuperación de contenido disponible y alcanza ganancias de hasta un 29% en Recall en tareas de reordenamiento.

arxiv arXiv cs.AI · hace 7 h

Modelos de Lenguaje Conicos: Mejora del Rendimiento mediante Asignación de Capacidad Consciente de la Profundidad

Los modelos de lenguaje modernos típicamente asignan parámetros uniformemente a través de capas idénticas, a pesar de la evidencia de que las capas posteriores principalmente refinan el flujo residual en lugar de transformarlo. Para abordar esta asimetría, los investigadores investigaron si la capacidad de parámetros debería variar según la profundidad bajo un presupuesto fijo. Experimentos controlados demostraron que asignar más capacidad a las capas iniciales y menos a las capas posteriores mejora la perplejidad en comparación con las líneas base uniformes, mientras que la asignación inversa degrada el rendimiento. Basándose en estos resultados, los autores introducen Modelos de Lenguaje Conicos (TLMs), un principio arquitectónico donde los componentes portadores de parámetros se reducen monótonamente a través de la profundidad. Los MLP sirven como el sitio principal para esta instanciación debido a su dominio en el conteo de parámetros y su claro eje de anchura. El estudio probó la reducción mediante un programa coseno suave a través de tres escalas de modelo y cuatro arquitecturas, incluyendo Transformer, Gated Attention, Hope-attention y Titans. Los resultados muestran que los TLMs mejoran consistentemente la perplejidad y el rendimiento en benchmarks posteriores sobre las líneas base uniformes sin costos adicionales de cómputo. Estos hallazgos establecen la asignación de capacidad consciente de la profundidad como una palanca de diseño simple y agnóstica a la arquitectura para modelos de lenguaje.

arxiv arXiv cs.AI · hace 7 h

Desafío Nemotron de NVIDIA: Coincidencia de cadenas y retroceso para acertijos de manipulación de bits

Este artículo detalla las innovaciones algorítmicas desarrolladas para el Desafío de Razonamiento del Modelo NVIDIA Nemotron, orientado específicamente a acertijos de manipulación de bits donde los modelos deben deducir reglas lógicas ocultas. Para abordar la explosión combinatoria de las operaciones bitwise y las alucinaciones de los LLM, los autores abandonan la lógica aritmética en favor de la similitud de cadenas y la búsqueda estructurada. La contribución principal reformula la deducción de puertas lógicas como una tarea de selección de base utilizando el mínimo número de cambios de bits para aislar transformaciones primitivas. Se formaliza un proceso de búsqueda en profundidad con retroceso para probar candidatos, detectar colisiones lógicas y realizar recuperación robusta de errores. Además, el método emplea tokenización de bits y ajuste fino supervisado de razonamiento interactivo con enmascaramiento dinámico para simular retroalimentación de oráculo. Evaluado en estos acertijos, el enfoque logró más del 96% de precisión en validación. Este rendimiento aseguró el resultado más alto en la categoría y un séptimo lugar en el concurso general.

arxiv arXiv cs.AI · hace 7 h

PsyBridge: Un marco híbrido para la evaluación multidimensional de la salud mental

El estudio presenta PsyBridge, un marco inteligente híbrido diseñado para abordar las limitaciones de los instrumentos de cribado aislados en la evaluación de la salud mental. Este sistema integra herramientas clínicamente validadas como PHQ-9 y GAD-7 con evaluación cognitiva y perfilado de personalidad dentro de una arquitectura unificada. Un diseño modular que emplea un mecanismo de agregación ponderada genera clasificaciones de riesgo interpretables y recomendaciones para los usuarios. Para evaluar el rendimiento, los investigadores construyeron un conjunto de datos semi-sintético compuesto por 500 perfiles de pacientes basados en distribuciones de puntuaciones fundamentadas clínicamente. Los resultados experimentales muestran que PsyBridge alcanza una precisión general de 0.84, superando las evaluaciones independientes de PHQ-9 y GAD-7. El marco también demuestra mejoras en precisión, recall y F1-score en comparación con los métodos existentes. El análisis de sensibilidad confirma que integrar componentes cognitivos y de personalidad estabiliza el rendimiento de la clasificación y reduce las inconsistencias en la predicción. Estos hallazgos sugieren que PsyBridge ofrece un enfoque escalable para el apoyo a la decisión asistido por IA en entornos de atención digital.

arxiv arXiv cs.AI · hace 7 h

Problema abierto: ¿Es AdamW efectivo bajo ruido de cola pesada?

AdamW sirve como el optimizador estándar para entrenar modelos de lenguaje grandes, sin embargo, su fundamento teórico permanece en gran medida confinado a regímenes de varianza finita. Esta brecha es significativa porque la evidencia empírica sugiere que el ruido del gradiente estocástico durante el preentrenamiento de LLM típicamente exhibe características de cola pesada. Estudios recientes han demostrado que optimizadores basados en signo como Lion y Muon logran tasas de convergencia agudas bajo condiciones de cola pesada, mientras que AdaGrad también converge en este entorno. Sin embargo, la teoría rigurosa de convergencia para AdamW aún no se ha establecido dentro de estas suposiciones de cola pesada. Los autores plantean un problema abierto sobre si AdamW puede converger bajo las mismas suposiciones de cola pesada o si su acumulador de segundo momento crea una obstrucción genuina. Para abordar esto, formulan un punto de referencia positivo con métrica ponderada y proporcionan un mecanismo de cota inferior de corredor. Este mecanismo ilustra cómo la memoria del denominador en AdamW puede ocultar efectivamente grandes gradientes, impactando potencialmente su rendimiento.

arxiv arXiv cs.AI · hace 7 h

AIR: Razonamiento entrelazado adaptativo con código en MLLMs

Este artículo presenta AIR, un método que potencia a los modelos de lenguaje multimodales grandes con capacidades de razonamiento entrelazado adaptativo mediante entrenamiento extendido de aprendizaje por refuerzo en tareas de cómputo numérico complejo aumentadas con código. Los autores abordan la limitación de la literatura existente, que se centra principalmente en el uso de herramientas dentro de tareas de percepción visual y depende de heurísticas predefinidas incapaces de manejar cálculos numéricos. Para resolver esto, proponen una solución integral de tres componentes que incluye un pipeline de construcción de datos de inicio en frío en dos etapas, estrategias de filtrado de datos para la curación del conjunto de datos de aprendizaje por refuerzo y una estrategia de invocación de herramientas adaptativa que aprovecha una función de recompensa con restricciones de grupo. Experimentos extensos demuestran que después del entrenamiento de aprendizaje por refuerzo con esta función de recompensa, el rendimiento mejora en un promedio de 6.1 puntos porcentuales en los benchmarks de evaluación. Específicamente, la precisión para muestras de razonamiento entrelazado aumenta en 9.9 puntos porcentuales, mientras que la tasa de éxito general del uso de herramientas supera el 95 por ciento. Los investigadores proporcionan sus datos y código para acceso público en un repositorio de GitHub especificado.

arxiv arXiv cs.AI · hace 7 h

Navegación semántica: Diversidad controlable para la generación de imágenes

Los modelos modernos de texto a imagen a menudo sufren de colapso de diversidad a pesar de su alta fidelidad. Los autores introducen Navegación Semántica para habilitar una diversidad controlada a través de galerías de imágenes estructuradas. Este método permite a los usuarios navegar por ejes significativos de variación en lugar de ruido incidental. El enfoque explota el desacoplamiento entre la toma de decisiones semánticas y la generación de píxeles en modelos recientes. La diversidad se induce directamente a nivel textual utilizando representaciones textuales ricas. Un Modelo de Lenguaje Visual opera sobre el contexto completo de la escena dentro de un flujo de trabajo agente. Este flujo de trabajo aplica explícitamente una variación estructurada ajustada al prompt original. El resultado es un espacio de diseño navegable con decisiones semánticas interpretables.

arxiv arXiv cs.AI · hace 7 h

CoorDex: Coordinación de priors corporales y manuales para la locomoción-manipulación continua y diestra en humanoides

Los autores presentan CoorDex, una tubería de aprendizaje que permite la manipulación diestra de alto grado de libertad en humanoides en movimiento. Este enfoque convierte el control de cuerpo y mano de alta dimensión en un control residual latente coordinado, superando las limitaciones de los métodos tradicionales de parada y arranque. El sistema entrena maestros de seguimiento de movimiento privilegiado a partir de demostraciones simuladas y los destila en priors latentes condicionados por propiocepción. Estos priors congelados sirven como el espacio de acción para el aprendizaje por refuerzo residual posterior mediante una política que compone el contexto de la tarea con cabezales residuales separados para cuerpo y mano. CoorDex permite a un humanoide Unitree G1 equipado con una mano WUJI de 20-DoF realizar tareas complejas mientras se mueve, como la captura continua de botellas y la apertura de puertas de refrigerador. Los estudios de ablation demuestran que el PPO en el espacio joint-space y la predicción latente monolítica fallan bajo presupuestos de recompensa similares, mientras que la interfaz de prior latente propuesta garantiza la entrenabilidad para la manipulación rica en contactos.

arxiv arXiv cs.LG · hace 7 h

Alineación de variedades codificador-decodificador para generación idempotente

Los paradigmas de aprendizaje recientes buscan imponer la idempotencia en modelos generativos asegurando que la aplicación repetida deje las muestras sin cambios en la variedad de datos objetivo. Sin embargo, muchos enfoques existentes no logran alcanzar puntos fijos exactos, lo que resulta en inestabilidad y deriva durante las aplicaciones repetidas. Los autores identifican un desajuste geométrico entre las variedades del codificador y el decodificador como la causa principal de este fallo. Para resolverlo, proponen un marco de entrenamiento que alinea explícitamente la geometría de ambos componentes para aprender representaciones consistentes de la misma variedad de datos subyacente. Esta alineación fomenta proyecciones estables y reduce significativamente el error de idempotencia en comparación con métodos anteriores. Los resultados empíricos demuestran que el enfoque regenera consistentemente salidas idénticas bajo aplicación repetida tanto para tareas de generación como de edición de imágenes. Además, imponer este tipo de idempotencia mejora la preservación de la identidad y la estabilidad de la información en modelos generativos.

arxiv arXiv cs.LG · hace 7 h

La mezcla de restauración en variedades mejora el aprendizaje de representaciones de proteínas

La augmentación de datos mejora el aprendizaje de representaciones de proteínas, pero a menudo interrumpe la integridad estructural o reduce la diversidad. Los autores identifican estos defectos estructurales y problemas de degradación del rendimiento en los métodos existentes. Proponen Manifold Restore Mixing (MRM) para restaurar la información estructural perdida mientras introducen variaciones diversas. MRM mezcla las representaciones ocultas de los datos originales y aumentados, inspirado en las técnicas de manifold mixup. Un programador de dificultad de muestra ajusta la distribución beta para proporcionar muestras progresivamente más desafiantes durante el entrenamiento. Los experimentos en varias arquitecturas base y tareas posteriores demuestran la efectividad y generalización del método. La implementación está disponible en https://github.com/KingGugu/MRM.

arxiv arXiv cs.LG · hace 7 h

Gradientes Integrados de Difusión: Generación Controlada de Trayectorias para Atribución Flexible de Características

Los autores proponen Gradientes Integrados de Difusión (DiffIG), un método novedoso que reformula la generación de trayectorias como un problema de modelado generativo condicional para abordar limitaciones en las técnicas de atribución existentes. Si bien los gradientes integrados se utilizan ampliamente, su dependencia de trayectorias fijas o elaboradas a mano a menudo da lugar a atribuciones ruidosas o distorsionadas. Para resolver esto, DiffIG entrena un modelo de difusión para aprender una distribución sobre trayectorias derivadas de un Proceso de Ruptura de Palitos (Stick-Breaking Process). El método emplea luego muestreo guiado para permitir la incorporación de orientación del usuario durante el procedimiento de muestreo en tiempo de inferencia. Este enfoque permite una atribución de características flexible y controlable al tratar la selección de trayectorias como una tarea generativa en lugar de una elección estática. Los resultados experimentales demuestran que DiffIG coincide cuantitativamente o supera a los métodos basados en trayectorias existentes en términos de calidad de atribución. Además, se muestra que las explicaciones generadas están alineadas perceptualmente con las expectativas humanas. El trabajo introduce una nueva perspectiva generativa para la Inteligencia Artificial Explicable que admite el control dinámico sobre las trayectorias de explicación.

arxiv arXiv cs.LG · hace 7 h

El RL Curricular Consciente de Límites Expande la Capacidad de Razonamiento de los LLM Más Allá de los Límites del Modelo Base

Los autores argumentan que el Aprendizaje por Refuerzo convencional con Recompensas Verificables (RLVR) a menudo falla en expandir la capacidad de razonamiento de los modelos de lenguaje grandes, simplemente reasignando probabilidades entre trayectorias existentes. Para abordar esta limitación, introducen un enfoque de RL Curricular Consciente de Límites diseñado para superar el límite empírico de capacidad de razonamiento del modelo base. El método primero utiliza muestreo pass@k para identificar los límites de razonamiento actuales y luego aplica guía docente dirigida a ejemplos cerca o más allá de ese límite. Posteriormente, se utiliza aprendizaje por refuerzo para consolidar estos nuevos patrones de razonamiento introducidos en los modelos base Qwen, Llama y DeepSeek. Los resultados experimentales demuestran mejoras significativas tanto en las puntuaciones pass@1 como en las puntuaciones pass@256, que sirven como un proxy del límite de capacidad de razonamiento. Específicamente, el promedio de pass@256 mejoró en 9.8 puntos porcentuales sobre los modelos base y en 10.3 puntos porcentuales sobre RLVR Vanilla. Estos hallazgos sugieren que esta estrategia basada en currículo ofrece una ruta escalable para mejorar continuamente las capacidades de razonamiento de los LLM.

arxiv arXiv cs.LG · hace 7 h

Los sumideros de atención y el colapso son consecuencias universales del enrutamiento basado en contenido

El estudio demuestra que los sumideros de atención, el colapso de representación y la estratificación de normas no son exclusivos de las arquitecturas transformer, sino consecuencias inherentes del enrutamiento basado en contenido bajo una métrica de similitud fija. Establece una identidad que muestra las funciones de atención softmax como agregación ponderada por Boltzmann sobre distancias euclidianas con normas de clave constantes, volviéndolo ciego a la magnitud de la clave debido a la omisión de un término de norma específico. Este marco predice que cualquier enrutador que utilice una métrica mal ajustada a sus representaciones compensará concentrando el enrutamiento y colapsando las representaciones enrutadas. Los autores validan esta hipótesis en diversos modelos, incluidos nueve transformers preentrenados, redes de atención gráfica, modelos de espacio de estado selectivo, mezcladores recurrentes y capas residuales aprendidas. Los resultados experimentales confirman que todas las arquitecturas probadas exhiben esta misma firma de colapso independientemente de su dominio o estructura específicos. Además, las ablaciones dentro del modelo aíslan el mecanismo de enrutamiento como la causa principal en lugar de dinámicas de entrenamiento incidentales. Se muestra que la aparición de este fenómeno depende de la fuerza del freno posicional que acompaña a la puntuación de contenido, lo cual puede desplazar el efecto a lo largo de su rango. Sin embargo, el mecanismo subyacente permanece invariante y no requiere estratificación de normas, ya que los enrutadores con claves normalizadas por norma exhiben el mismo comportamiento de concentración.