Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 86

Marco de Auto-Distilación Condicionada por Rúbrica

La Auto-Distilación Condicionada por Rúbrica introduce un marco que utiliza rúbricas estructuradas para proporcionar retroalimentación a nivel de token y de alta granularidad durante la auto-distilación de modelos de lenguaje de razonamiento. Al condicionar los modelos maestro en criterios a nivel de rúbrica, permite una asignación de crédito más precisa que las recompensas escalares, superando a GRPO y OPSD por 1.0 y 0.9 puntos en promedio en benchmarks de razonamiento científico.

arxiv arXiv cs.AI · hace 1 h En vivo

UBP2: Planificación de preferencias equilibrada en incertidumbre para RL basado en preferencias eficiente

UBP2 introduce un método basado en modelos que explora activamente entornos razonando conjuntamente sobre las incertidumbres en las funciones de recompensa, dinámica y valor. Logra una eficiencia de muestras superior en el aprendizaje por refuerzo basado en preferencias, superando a los puntos de referencia libres de modelo y basados en modelos no optimistas en la benchmark Meta-World.

arxiv arXiv cs.LG · hace 1 h En vivo

Agrupamiento semisupervisado guiado por semillas mediante detección de anomalías a-contrario

Un nuevo marco de agrupamiento utiliza la detección de anomalías a-contrario para definir los grupos como subconjuntos máximos sin anomalías bajo una hipótesis nula de aleatoriedad. El algoritmo Perception identifica valores atípicos utilizando un umbral basado en la esperanza (\mathbb{E} < 1), lo que permite un agrupamiento robusto y libre de parámetros que se expande a partir de entradas mínimas de semillas y maneja eficazmente el ruido y los grupos emergentes.

arxiv arXiv cs.LG · hace 1 h En vivo

Detección de sesgos estructurales mediante cambios en los mecanismos causales

Este artículo presenta StruBI, un algoritmo que identifica sesgos de confusión y selección ocultos analizando los cambios en los mecanismos causales a través de entornos. Formaliza un criterio basado en información mutua para detectar sesgos estructurales y demuestra un rendimiento superior en la recuperación de variables sesgadas en datos sintéticos y del mundo real.

arxiv arXiv cs.LG · hace 1 h En vivo

Skill-MAS: Evolución de Meta-Habilidades para Sistemas Multi-Agente Automáticos

Skill-MAS introduce un nuevo enfoque que desacopla la retención de experiencia de las actualizaciones paramétricas modelando la orquestación como una Meta-Habilidad evolutiva. Utiliza un proceso de bucle cerrado que implica ejecuciones múltiples de trayectorias y reflexión selectiva para destilar principios de estrategia reutilizables, logrando fuertes mejoras de rendimiento y transferencia robusta entre tareas y LLMs.

arxiv arXiv cs.LG · hace 1 h En vivo

Certificación de robustez semántica para modelos de visión y lenguaje

Este trabajo presenta un marco que certifica la robustez de los modelos de visión y lenguaje bajo transformaciones a nivel semántico, utilizando prompts de texto como proxies. Cuantifica intervalos de extensión para los cuales las predicciones permanecen sin cambios, sin requerir datos adicionales para cada variación. Los experimentos en datos sintéticos y del mundo real demuestran su efectividad a través de diversas variaciones semánticas.

arxiv arXiv cs.LG · hace 1 h En vivo

TAPO: Auto-distilación con trayectorias micro-reflectivas

TAPO avanza la auto-distilación mediante la construcción de trayectorias micro-reflectivas explícitas que retienen el razonamiento erróneo e insertan diagnósticos en lenguaje natural. Estas trayectorias, derivadas de rollouts del modelo correctos e incorrectos, proporcionan correcciones de error finas ancladas en el propio razonamiento del modelo, mejorando tanto el razonamiento del primer intento como la corrección de errores en comparación con GRPO.

arxiv arXiv cs.LG · hace 1 h En vivo

Núcleo de Caminos de Partición: Representación Unificada para Conjuntos de Árboles

El artículo introduce el Núcleo de Caminos de Partición (KPP), una representación geométrica unificada para conjuntos de árboles que indexa mapas de características por nodos en lugar de divisiones. KPP utiliza una métrica de camino para definir una matriz de Gram no diagonal con una estructura métrica, permitiendo cotas unificadas sobre predicción, atribución, robustez y generalización para regresión y clasificación bajo tres regímenes de condicionamiento. La garantía del radio de robustez es determinista en la métrica KPP, no en las normas de entrada cruda, y los refinamientos de tasa rápida se plantean como problemas abiertos.

arxiv arXiv cs.LG · hace 1 h En vivo

Difusión estructurada aproximada para etiquetado de secuencias

Un nuevo método utiliza difusión para entrenar CRFs en secuencias completas de etiquetas, condicionando sobre etiquetas ruidosas. Cuando se combina con inferencia aproximada, reduce el error de etiquetado POS en un 16.5%.

arxiv arXiv cs.LG · hace 1 h En vivo

Certificados de riesgo poblacional local para actualizaciones de modelos

El artículo introduce certificados locales que proporcionan bandas de confianza bilaterales para los incrementos del riesgo poblacional alrededor de un modelo actual. El extremo superior de esta banda define una regla de actualización controlada por riesgo: las actualizaciones se aceptan solo si el extremo superior certificado es no positivo; de lo contrario, se conserva el modelo actual.

media r/LocalLLaMA · hace 1 h En vivo

Whisperian: La mejor aplicación de Android para modelos de ASR locales

Whisperian es una aplicación de Android que permite a los usuarios utilizar la entrada del micrófono con modelos locales de Reconocimiento Automático del Habla (ASR). La aplicación está disponible para descargar en Google Play Store.

arxiv arXiv cs.LG · hace 2 h

Sesgos inductivos en la emulación de ML de calentamientos estratosféricos súbitos

Un estudio evalúa cómo los sesgos inductivos arquitectónicos afectan la capacidad de los emuladores de aprendizaje automático para capturar la dinámica de calentamientos estratosféricos súbitos en simulaciones idealizadas. Los resultados muestran que el acoplamiento vertical tridimensional es un sesgo clave, con el rendimiento del modelo divergiendo significativamente durante la variabilidad activa similar a SSW. Sin embargo, un bajo error de pronóstico no garantiza interacciones precisas entre ondas y flujo medio, ya que persisten errores coherentes en la estructura de conducción de ondas estratosféricas.

arxiv arXiv cs.LG · hace 2 h

Marco QUAM-SM para la cuantificación de incertidumbre en la segmentación de imágenes médicas

QUAM-SM es un marco post-hoc que utiliza búsqueda adversarial para identificar píxeles 'adversarialmente frágiles' en la segmentación de imágenes médicas. Desacopla la incertidumbre epistémica y aleatoria y supera a los métodos existentes en fiabilidad y sensibilidad al límite en conjuntos de datos públicos con anotaciones de expertos.

arxiv arXiv cs.LG · hace 2 h

Escalado de AEB con datos no etiquetados mediante SSL de meta-retroalimentación

Un marco de aprendizaje semi-supervisado de meta-retroalimentación permite escalar el frenado automático de emergencia utilizando grandes volúmenes de datos de flota no etiquetados. El enfoque estabilizado reduce los errores de pseudoetiquetas y suprime las alucinaciones de riesgo, logrando una relación de 100:1 entre activaciones positivas y falsas, y un 35% más de kilómetros conducidos sin accidentes en comparación con una línea base solo basada en reglas en despliegues del mundo real.

arxiv arXiv cs.LG · hace 2 h

Selección de características y regularización Ridge en clasificación estratégica

Un estudio encuentra que excluir características basándose únicamente en la manipulabilidad es subóptimo en la clasificación estratégica. La investigación desarrolla un algoritmo conjunto para seleccionar características y ajustar la regularización ridge, ofreciendo un marco práctico para mitigar la manipulación estratégica en sistemas de decisión en salud.

arxiv arXiv cs.LG · hace 2 h

Adaptación en tiempo de prueba con Flow-Matching para la eliminación de ruido en imágenes OCT

Un método basado en flow-matching alinea las imágenes OCT en tiempo de prueba con trayectorias de referencia sintéticas, igualando distribuciones de histograma para reducir las discrepancias de píxeles inducidas por el ruido. Al eliminar la condición temporal, el modelo se adapta a las variaciones del ruido del mundo real, logrando una segmentación de biomarcadores de última generación en etapas de degeneración macular asociada a la edad.

arxiv arXiv cs.LG · hace 2 h

Redes neuronales conscientes del cambio de dominio para la estimación de masas desbalanceadas

Se propone una red neuronal consciente del cambio de dominio para estimar masas desbalanceadas en ejes rotativos bajo condiciones operativas variables. El modelo utiliza la discrepancia media máxima para alinear las representaciones de características entre diferentes dominios operacionales, mejorando la precisión de la predicción cuando los comportamientos del sistema difieren de las condiciones de entrenamiento. Los resultados muestran su efectividad en aplicaciones de monitoreo de salud estructural donde las discrepancias de dominio son desconocidas o no consideradas.

arxiv arXiv cs.LG · hace 2 h

SDE latentes para la detección de anomalías en series temporales multivariadas dispersas

Proponemos un método generativo que utiliza SDE latentes para detectar anomalías en series temporales multivariadas dispersas e irregulares. El enfoque proyecta los datos observados sobre sistemas estocásticos en tiempo continuo, manejando valores faltantes y muestreo irregular mientras captura patrones cíclicos. Los experimentos en seis conjuntos de datos de referencia muestran que nuestro método logra un rendimiento destacado, superando a las líneas base más avanzadas, especialmente bajo una alta dispersión de los datos.

arxiv arXiv cs.LG · hace 2 h

REVES: Entrenamiento aumentado para escalado en tiempo de prueba

REVES introduce un marco iterativo de dos etapas que mejora el razonamiento de los LLM mediante revisión y verificación secuenciales. Logra +6.5 puntos sobre las líneas base de RL y +4.0 puntos sobre el entrenamiento estándar multi-turno en LiveCodeBench, utilizando un modelo base de 4B con menos rollouts que los sistemas evolutivos grandes. El método mejora la corrección de errores y se generaliza a acertijos fuera de distribución como n_queens y mini_sudoku.

arxiv arXiv cs.LG · hace 2 h

Resultados de complejidad para la verificación de robustez de redes neuronales binarizadas

El artículo demuestra que la satisfacibilidad de las redes neuronales binarizadas es NP-completa mediante su reducción a SAT. También muestra que la oclusión uniforme de imágenes conduce a una estructura de salida por tramos constantes, lo que permite la verificación de robustez en tiempo polinomial.