Todos los artículos
arxiv arXiv cs.AI · hace 1 h En vivo

UBP2: Planificación de preferencias equilibrada en incertidumbre para RL basado en preferencias eficiente

UBP2 introduce un método basado en modelos que explora activamente entornos razonando conjuntamente sobre las incertidumbres en las funciones de recompensa, dinámica y valor. Logra una eficiencia de muestras superior en el aprendizaje por refuerzo basado en preferencias, superando a los puntos de referencia libres de modelo y basados en modelos no optimistas en la benchmark Meta-World.

arxiv arXiv cs.LG · hace 1 h En vivo

Agrupamiento semisupervisado guiado por semillas mediante detección de anomalías a-contrario

Un nuevo marco de agrupamiento utiliza la detección de anomalías a-contrario para definir los grupos como subconjuntos máximos sin anomalías bajo una hipótesis nula de aleatoriedad. El algoritmo Perception identifica valores atípicos utilizando un umbral basado en la esperanza (\mathbb{E} < 1), lo que permite un agrupamiento robusto y libre de parámetros que se expande a partir de entradas mínimas de semillas y maneja eficazmente el ruido y los grupos emergentes.

arxiv arXiv cs.LG · hace 1 h En vivo

Skill-MAS: Evolución de Meta-Habilidades para Sistemas Multi-Agente Automáticos

Skill-MAS introduce un nuevo enfoque que desacopla la retención de experiencia de las actualizaciones paramétricas modelando la orquestación como una Meta-Habilidad evolutiva. Utiliza un proceso de bucle cerrado que implica ejecuciones múltiples de trayectorias y reflexión selectiva para destilar principios de estrategia reutilizables, logrando fuertes mejoras de rendimiento y transferencia robusta entre tareas y LLMs.

arxiv arXiv cs.LG · hace 1 h En vivo

Certificación de robustez semántica para modelos de visión y lenguaje

Este trabajo presenta un marco que certifica la robustez de los modelos de visión y lenguaje bajo transformaciones a nivel semántico, utilizando prompts de texto como proxies. Cuantifica intervalos de extensión para los cuales las predicciones permanecen sin cambios, sin requerir datos adicionales para cada variación. Los experimentos en datos sintéticos y del mundo real demuestran su efectividad a través de diversas variaciones semánticas.

arxiv arXiv cs.LG · hace 1 h En vivo

TAPO: Auto-distilación con trayectorias micro-reflectivas

TAPO avanza la auto-distilación mediante la construcción de trayectorias micro-reflectivas explícitas que retienen el razonamiento erróneo e insertan diagnósticos en lenguaje natural. Estas trayectorias, derivadas de rollouts del modelo correctos e incorrectos, proporcionan correcciones de error finas ancladas en el propio razonamiento del modelo, mejorando tanto el razonamiento del primer intento como la corrección de errores en comparación con GRPO.

arxiv arXiv cs.LG · hace 1 h En vivo

Núcleo de Caminos de Partición: Representación Unificada para Conjuntos de Árboles

El artículo introduce el Núcleo de Caminos de Partición (KPP), una representación geométrica unificada para conjuntos de árboles que indexa mapas de características por nodos en lugar de divisiones. KPP utiliza una métrica de camino para definir una matriz de Gram no diagonal con una estructura métrica, permitiendo cotas unificadas sobre predicción, atribución, robustez y generalización para regresión y clasificación bajo tres regímenes de condicionamiento. La garantía del radio de robustez es determinista en la métrica KPP, no en las normas de entrada cruda, y los refinamientos de tasa rápida se plantean como problemas abiertos.

arxiv arXiv cs.LG · hace 1 h En vivo

Certificados de riesgo poblacional local para actualizaciones de modelos

El artículo introduce certificados locales que proporcionan bandas de confianza bilaterales para los incrementos del riesgo poblacional alrededor de un modelo actual. El extremo superior de esta banda define una regla de actualización controlada por riesgo: las actualizaciones se aceptan solo si el extremo superior certificado es no positivo; de lo contrario, se conserva el modelo actual.

arxiv arXiv cs.LG · hace 2 h

Sesgos inductivos en la emulación de ML de calentamientos estratosféricos súbitos

Un estudio evalúa cómo los sesgos inductivos arquitectónicos afectan la capacidad de los emuladores de aprendizaje automático para capturar la dinámica de calentamientos estratosféricos súbitos en simulaciones idealizadas. Los resultados muestran que el acoplamiento vertical tridimensional es un sesgo clave, con el rendimiento del modelo divergiendo significativamente durante la variabilidad activa similar a SSW. Sin embargo, un bajo error de pronóstico no garantiza interacciones precisas entre ondas y flujo medio, ya que persisten errores coherentes en la estructura de conducción de ondas estratosféricas.

arxiv arXiv cs.LG · hace 2 h

Escalado de AEB con datos no etiquetados mediante SSL de meta-retroalimentación

Un marco de aprendizaje semi-supervisado de meta-retroalimentación permite escalar el frenado automático de emergencia utilizando grandes volúmenes de datos de flota no etiquetados. El enfoque estabilizado reduce los errores de pseudoetiquetas y suprime las alucinaciones de riesgo, logrando una relación de 100:1 entre activaciones positivas y falsas, y un 35% más de kilómetros conducidos sin accidentes en comparación con una línea base solo basada en reglas en despliegues del mundo real.

arxiv arXiv cs.LG · hace 2 h

Adaptación en tiempo de prueba con Flow-Matching para la eliminación de ruido en imágenes OCT

Un método basado en flow-matching alinea las imágenes OCT en tiempo de prueba con trayectorias de referencia sintéticas, igualando distribuciones de histograma para reducir las discrepancias de píxeles inducidas por el ruido. Al eliminar la condición temporal, el modelo se adapta a las variaciones del ruido del mundo real, logrando una segmentación de biomarcadores de última generación en etapas de degeneración macular asociada a la edad.

arxiv arXiv cs.LG · hace 2 h

Redes neuronales conscientes del cambio de dominio para la estimación de masas desbalanceadas

Se propone una red neuronal consciente del cambio de dominio para estimar masas desbalanceadas en ejes rotativos bajo condiciones operativas variables. El modelo utiliza la discrepancia media máxima para alinear las representaciones de características entre diferentes dominios operacionales, mejorando la precisión de la predicción cuando los comportamientos del sistema difieren de las condiciones de entrenamiento. Los resultados muestran su efectividad en aplicaciones de monitoreo de salud estructural donde las discrepancias de dominio son desconocidas o no consideradas.

arxiv arXiv cs.LG · hace 2 h

SDE latentes para la detección de anomalías en series temporales multivariadas dispersas

Proponemos un método generativo que utiliza SDE latentes para detectar anomalías en series temporales multivariadas dispersas e irregulares. El enfoque proyecta los datos observados sobre sistemas estocásticos en tiempo continuo, manejando valores faltantes y muestreo irregular mientras captura patrones cíclicos. Los experimentos en seis conjuntos de datos de referencia muestran que nuestro método logra un rendimiento destacado, superando a las líneas base más avanzadas, especialmente bajo una alta dispersión de los datos.

arxiv arXiv cs.LG · hace 2 h

REVES: Entrenamiento aumentado para escalado en tiempo de prueba

REVES introduce un marco iterativo de dos etapas que mejora el razonamiento de los LLM mediante revisión y verificación secuenciales. Logra +6.5 puntos sobre las líneas base de RL y +4.0 puntos sobre el entrenamiento estándar multi-turno en LiveCodeBench, utilizando un modelo base de 4B con menos rollouts que los sistemas evolutivos grandes. El método mejora la corrección de errores y se generaliza a acertijos fuera de distribución como n_queens y mini_sudoku.

arxiv arXiv cs.LG · hace 2 h

TransitNet alcanza una precisión del 95.2% en búsquedas de tránsitos con baja relación señal-ruido

TransitNet, un marco compacto de aprendizaje profundo aumentado con atención, alcanza una precisión del 95.2% en búsquedas ciegas de tránsitos con baja SNR, superando a TLS y BLS en valores ROC-AUC y PR-AP. Recupera el 93.0% de los tránsitos inyectados de tamaño terrestre y subterrestre, con el 97.4% de los tránsitos inyectados completamente cubiertos por las ventanas de tránsito estimadas, y recupera exitosamente los 34 planetas confirmados de Kepler con un error medio en el punto medio de 1.24 horas.