Todos los artículos
arxiv arXiv cs.LG · hace 3 h

Skill-MAS: Evolución de Meta-Habilidades para Sistemas Multi-Agente Automáticos

Skill-MAS introduce un nuevo enfoque que desacopla la retención de experiencia de las actualizaciones paramétricas modelando la orquestación como una Meta-Habilidad evolutiva. Utiliza un proceso de bucle cerrado que implica ejecuciones múltiples de trayectorias y reflexión selectiva para destilar principios de estrategia reutilizables, logrando fuertes mejoras de rendimiento y transferencia robusta entre tareas y LLMs.

arxiv arXiv cs.LG · hace 3 h

Certificación de robustez semántica para modelos de visión y lenguaje

Este trabajo presenta un marco que certifica la robustez de los modelos de visión y lenguaje bajo transformaciones a nivel semántico, utilizando prompts de texto como proxies. Cuantifica intervalos de extensión para los cuales las predicciones permanecen sin cambios, sin requerir datos adicionales para cada variación. Los experimentos en datos sintéticos y del mundo real demuestran su efectividad a través de diversas variaciones semánticas.

arxiv arXiv cs.LG · hace 3 h

TAPO: Auto-distilación con trayectorias micro-reflectivas

TAPO avanza la auto-distilación mediante la construcción de trayectorias micro-reflectivas explícitas que retienen el razonamiento erróneo e insertan diagnósticos en lenguaje natural. Estas trayectorias, derivadas de rollouts del modelo correctos e incorrectos, proporcionan correcciones de error finas ancladas en el propio razonamiento del modelo, mejorando tanto el razonamiento del primer intento como la corrección de errores en comparación con GRPO.

arxiv arXiv cs.LG · hace 3 h

Núcleo de Caminos de Partición: Representación Unificada para Conjuntos de Árboles

El artículo introduce el Núcleo de Caminos de Partición (KPP), una representación geométrica unificada para conjuntos de árboles que indexa mapas de características por nodos en lugar de divisiones. KPP utiliza una métrica de camino para definir una matriz de Gram no diagonal con una estructura métrica, permitiendo cotas unificadas sobre predicción, atribución, robustez y generalización para regresión y clasificación bajo tres regímenes de condicionamiento. La garantía del radio de robustez es determinista en la métrica KPP, no en las normas de entrada cruda, y los refinamientos de tasa rápida se plantean como problemas abiertos.

arxiv arXiv cs.LG · hace 3 h

Sesgos inductivos en la emulación de ML de calentamientos estratosféricos súbitos

Un estudio evalúa cómo los sesgos inductivos arquitectónicos afectan la capacidad de los emuladores de aprendizaje automático para capturar la dinámica de calentamientos estratosféricos súbitos en simulaciones idealizadas. Los resultados muestran que el acoplamiento vertical tridimensional es un sesgo clave, con el rendimiento del modelo divergiendo significativamente durante la variabilidad activa similar a SSW. Sin embargo, un bajo error de pronóstico no garantiza interacciones precisas entre ondas y flujo medio, ya que persisten errores coherentes en la estructura de conducción de ondas estratosféricas.

arxiv arXiv cs.LG · hace 3 h

Escalado de AEB con datos no etiquetados mediante SSL de meta-retroalimentación

Un marco de aprendizaje semi-supervisado de meta-retroalimentación permite escalar el frenado automático de emergencia utilizando grandes volúmenes de datos de flota no etiquetados. El enfoque estabilizado reduce los errores de pseudoetiquetas y suprime las alucinaciones de riesgo, logrando una relación de 100:1 entre activaciones positivas y falsas, y un 35% más de kilómetros conducidos sin accidentes en comparación con una línea base solo basada en reglas en despliegues del mundo real.

arxiv arXiv cs.LG · hace 3 h

Adaptación en tiempo de prueba con Flow-Matching para la eliminación de ruido en imágenes OCT

Un método basado en flow-matching alinea las imágenes OCT en tiempo de prueba con trayectorias de referencia sintéticas, igualando distribuciones de histograma para reducir las discrepancias de píxeles inducidas por el ruido. Al eliminar la condición temporal, el modelo se adapta a las variaciones del ruido del mundo real, logrando una segmentación de biomarcadores de última generación en etapas de degeneración macular asociada a la edad.

arxiv arXiv cs.LG · hace 3 h

Redes neuronales conscientes del cambio de dominio para la estimación de masas desbalanceadas

Se propone una red neuronal consciente del cambio de dominio para estimar masas desbalanceadas en ejes rotativos bajo condiciones operativas variables. El modelo utiliza la discrepancia media máxima para alinear las representaciones de características entre diferentes dominios operacionales, mejorando la precisión de la predicción cuando los comportamientos del sistema difieren de las condiciones de entrenamiento. Los resultados muestran su efectividad en aplicaciones de monitoreo de salud estructural donde las discrepancias de dominio son desconocidas o no consideradas.

arxiv arXiv cs.LG · hace 3 h

SDE latentes para la detección de anomalías en series temporales multivariadas dispersas

Proponemos un método generativo que utiliza SDE latentes para detectar anomalías en series temporales multivariadas dispersas e irregulares. El enfoque proyecta los datos observados sobre sistemas estocásticos en tiempo continuo, manejando valores faltantes y muestreo irregular mientras captura patrones cíclicos. Los experimentos en seis conjuntos de datos de referencia muestran que nuestro método logra un rendimiento destacado, superando a las líneas base más avanzadas, especialmente bajo una alta dispersión de los datos.

arxiv arXiv cs.LG · hace 3 h

REVES: Entrenamiento aumentado para escalado en tiempo de prueba

REVES introduce un marco iterativo de dos etapas que mejora el razonamiento de los LLM mediante revisión y verificación secuenciales. Logra +6.5 puntos sobre las líneas base de RL y +4.0 puntos sobre el entrenamiento estándar multi-turno en LiveCodeBench, utilizando un modelo base de 4B con menos rollouts que los sistemas evolutivos grandes. El método mejora la corrección de errores y se generaliza a acertijos fuera de distribución como n_queens y mini_sudoku.

arxiv arXiv cs.LG · hace 3 h

TransitNet alcanza una precisión del 95.2% en búsquedas de tránsitos con baja relación señal-ruido

TransitNet, un marco compacto de aprendizaje profundo aumentado con atención, alcanza una precisión del 95.2% en búsquedas ciegas de tránsitos con baja SNR, superando a TLS y BLS en valores ROC-AUC y PR-AP. Recupera el 93.0% de los tránsitos inyectados de tamaño terrestre y subterrestre, con el 97.4% de los tránsitos inyectados completamente cubiertos por las ventanas de tránsito estimadas, y recupera exitosamente los 34 planetas confirmados de Kepler con un error medio en el punto medio de 1.24 horas.

arxiv arXiv cs.LG · hace 3 h

Adquisición activa de características zero-shot mediante elicitation con LLM

Un nuevo marco permite la adquisición activa de características zero-shot aprovechando LLMs para elicitar solo estadísticas discriminatorias como desviaciones unarias y covariaciones por pares. Mediante cierre de máxima entropía, resuelve la ambigüedad en la selección de características y supera a los propios LLMs, especialmente en casos desafiantes de pacientes con EII donde la incertidumbre diagnóstica es alta.

arxiv arXiv cs.LG · hace 3 h

Optimización de recompensas no supervisada para modelos de lenguaje de proteínas

Un nuevo marco permite a los modelos de lenguaje de proteínas generar secuencias de proteínas controlables sin datos etiquetados ni validación de laboratorio húmedo. Utiliza recompensas independientes de la tarea basadas en la incertidumbre del modelo y la consistencia semántica para guiar la generación, con Optimización de Recompensa Suave y Binarizada superando a las líneas base en cobertura y controlabilidad bajo diversas condiciones.

arxiv arXiv cs.LG · hace 3 h

Aprendizaje sin recompensa a partir de flujos perceptuales

Un nuevo marco permite el aprendizaje en línea con recompensas y castigos sin recompensas del entorno, utilizando únicamente paquetes perceptuales de canal fijo. Alcanza alta precisión en la inferencia de valores y la optimización de políticas, con B_xi logrando una precisión equilibrada de 0.952 en la señal de recompensa y el rendimiento general de la política alcanzando una precisión de acción óptima de 0.979 en las tareas evaluadas, superando a los controles como recompensa cero y objetivos aleatorizados.