Todos los artículos
arxiv arXiv cs.AI · hace 5 h

La autocorrección aumenta la confianza en los chatbots sociales

Un estudio descubre que los chatbots sociales que corrigen sus propios errores obtienen mayor confianza del usuario y percepción de expertise que aquellos que dependen de correcciones externas. La fuerza de la conexión social entre el usuario y el chatbot mejora el cambio de creencia únicamente cuando el chatbot se autocorrige, lo que muestra que la conexión social amplifica la efectividad de la corrección de errores.

arxiv arXiv cs.AI · hace 5 h

Ingeniería inversa de la atención del Transformer con programas ejecutables

Un nuevo método utiliza síntesis de programas para generar programas en Python que reproducen los patrones de atención en modelos Transformer. Menos de 1,000 de estos programas logran una similitud de intersección sobre unión superior al 75% en TinyStories, y reemplazar el 25% de las cabezas de atención con estos programas aumenta la perplexidad solo un 16% mientras preserva el rendimiento en tareas de respuesta a preguntas.

arxiv arXiv cs.AI · hace 5 h

ScenA: Generación de Escenas de Audio Multi-Parlante Basada en Referencias

ScenA condiciona un modelo base de texto a audio en múltiples voces de referencia y una descripción de escena en lenguaje natural para generar conversaciones realistas multi-parlante. Aborda el problema del 'Atajo de Referencia' mediante un programa de entrenamiento con sesgo hacia alto ruido, asegurando que la asignación del hablante dependa de las indicaciones de texto en lugar de la similitud acústica. Evaluado en CoVoMix2-Dialogue, ScenA supera a los sistemas existentes en la vinculación de hablantes y produce audio rico y naturalista con habla superpuesta y ruido ambiental.

arxiv arXiv cs.AI · hace 5 h

Marco de Auto-Distilación Condicionada por Rúbrica

La Auto-Distilación Condicionada por Rúbrica introduce un marco que utiliza rúbricas estructuradas para proporcionar retroalimentación a nivel de token y de alta granularidad durante la auto-distilación de modelos de lenguaje de razonamiento. Al condicionar los modelos maestro en criterios a nivel de rúbrica, permite una asignación de crédito más precisa que las recompensas escalares, superando a GRPO y OPSD por 1.0 y 0.9 puntos en promedio en benchmarks de razonamiento científico.

arxiv arXiv cs.AI · hace 5 h

UBP2: Planificación de preferencias equilibrada en incertidumbre para RL basado en preferencias eficiente

UBP2 introduce un método basado en modelos que explora activamente entornos razonando conjuntamente sobre las incertidumbres en las funciones de recompensa, dinámica y valor. Logra una eficiencia de muestras superior en el aprendizaje por refuerzo basado en preferencias, superando a los puntos de referencia libres de modelo y basados en modelos no optimistas en la benchmark Meta-World.

arxiv arXiv cs.LG · hace 5 h

Agrupamiento semisupervisado guiado por semillas mediante detección de anomalías a-contrario

Un nuevo marco de agrupamiento utiliza la detección de anomalías a-contrario para definir los grupos como subconjuntos máximos sin anomalías bajo una hipótesis nula de aleatoriedad. El algoritmo Perception identifica valores atípicos utilizando un umbral basado en la esperanza (\mathbb{E} < 1), lo que permite un agrupamiento robusto y libre de parámetros que se expande a partir de entradas mínimas de semillas y maneja eficazmente el ruido y los grupos emergentes.

arxiv arXiv cs.LG · hace 5 h

Skill-MAS: Evolución de Meta-Habilidades para Sistemas Multi-Agente Automáticos

Skill-MAS introduce un nuevo enfoque que desacopla la retención de experiencia de las actualizaciones paramétricas modelando la orquestación como una Meta-Habilidad evolutiva. Utiliza un proceso de bucle cerrado que implica ejecuciones múltiples de trayectorias y reflexión selectiva para destilar principios de estrategia reutilizables, logrando fuertes mejoras de rendimiento y transferencia robusta entre tareas y LLMs.

arxiv arXiv cs.LG · hace 5 h

Certificación de robustez semántica para modelos de visión y lenguaje

Este trabajo presenta un marco que certifica la robustez de los modelos de visión y lenguaje bajo transformaciones a nivel semántico, utilizando prompts de texto como proxies. Cuantifica intervalos de extensión para los cuales las predicciones permanecen sin cambios, sin requerir datos adicionales para cada variación. Los experimentos en datos sintéticos y del mundo real demuestran su efectividad a través de diversas variaciones semánticas.

arxiv arXiv cs.LG · hace 5 h

TAPO: Auto-distilación con trayectorias micro-reflectivas

TAPO avanza la auto-distilación mediante la construcción de trayectorias micro-reflectivas explícitas que retienen el razonamiento erróneo e insertan diagnósticos en lenguaje natural. Estas trayectorias, derivadas de rollouts del modelo correctos e incorrectos, proporcionan correcciones de error finas ancladas en el propio razonamiento del modelo, mejorando tanto el razonamiento del primer intento como la corrección de errores en comparación con GRPO.

arxiv arXiv cs.LG · hace 5 h

Núcleo de Caminos de Partición: Representación Unificada para Conjuntos de Árboles

El artículo introduce el Núcleo de Caminos de Partición (KPP), una representación geométrica unificada para conjuntos de árboles que indexa mapas de características por nodos en lugar de divisiones. KPP utiliza una métrica de camino para definir una matriz de Gram no diagonal con una estructura métrica, permitiendo cotas unificadas sobre predicción, atribución, robustez y generalización para regresión y clasificación bajo tres regímenes de condicionamiento. La garantía del radio de robustez es determinista en la métrica KPP, no en las normas de entrada cruda, y los refinamientos de tasa rápida se plantean como problemas abiertos.

arxiv arXiv cs.LG · hace 5 h

Sesgos inductivos en la emulación de ML de calentamientos estratosféricos súbitos

Un estudio evalúa cómo los sesgos inductivos arquitectónicos afectan la capacidad de los emuladores de aprendizaje automático para capturar la dinámica de calentamientos estratosféricos súbitos en simulaciones idealizadas. Los resultados muestran que el acoplamiento vertical tridimensional es un sesgo clave, con el rendimiento del modelo divergiendo significativamente durante la variabilidad activa similar a SSW. Sin embargo, un bajo error de pronóstico no garantiza interacciones precisas entre ondas y flujo medio, ya que persisten errores coherentes en la estructura de conducción de ondas estratosféricas.

arxiv arXiv cs.LG · hace 5 h

Escalado de AEB con datos no etiquetados mediante SSL de meta-retroalimentación

Un marco de aprendizaje semi-supervisado de meta-retroalimentación permite escalar el frenado automático de emergencia utilizando grandes volúmenes de datos de flota no etiquetados. El enfoque estabilizado reduce los errores de pseudoetiquetas y suprime las alucinaciones de riesgo, logrando una relación de 100:1 entre activaciones positivas y falsas, y un 35% más de kilómetros conducidos sin accidentes en comparación con una línea base solo basada en reglas en despliegues del mundo real.

arxiv arXiv cs.LG · hace 5 h

Adaptación en tiempo de prueba con Flow-Matching para la eliminación de ruido en imágenes OCT

Un método basado en flow-matching alinea las imágenes OCT en tiempo de prueba con trayectorias de referencia sintéticas, igualando distribuciones de histograma para reducir las discrepancias de píxeles inducidas por el ruido. Al eliminar la condición temporal, el modelo se adapta a las variaciones del ruido del mundo real, logrando una segmentación de biomarcadores de última generación en etapas de degeneración macular asociada a la edad.