Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 101

Mejora de habla post-entrenamiento con recompensas perceptuales

Un nuevo método post-entrenamiento utiliza recompensas perceptuales multi-métrica para optimizar modelos de mejora de habla. Aplica directamente métricas no diferenciables como DNSMOS, WER y UTMOS como recompensas mediante Group Sequence Policy Optimization, logrando resultados de última generación en DNS2020. La evaluación humana confirma que combinar múltiples métricas supera a los enfoques de métrica única, reduciendo el reward hacking.

arxiv arXiv cs.LG · hace 1 h En vivo

Los pipelines de espacio nativo superan al espacio de plantilla en la segmentación subcortical

Los pipelines UNet basados en espacio nativo superan a los del espacio de plantilla en la segmentación subcortical, mostrando puntuaciones Dice más altas y valores HD95 más bajos para el Núcleo Subtalámico, el Núcleo Rojo y la Sustancia Negra. El rendimiento disminuye significativamente cuando se aplican a imágenes 3T, con datos de entrenamiento sintéticos 3T que proporcionan solo ganancias modestas, destacando una brecha persistente entre MRI 7T y 3T.

arxiv arXiv cs.LG · hace 1 h En vivo

El arte ASCII permite a los LLM solo de texto controlar sistemas VLA

Un modelo de lenguaje grande solo de texto puede adaptarse en un controlador Visión--Lenguaje--Acción utilizando observaciones visuales renderizadas en ASCII. Este enfoque permite que los LLM interpreten estados visuales a través del texto, lo que les posibilita seguir instrucciones en lenguaje natural y generar acciones ejecutables tanto en simulación como en manipuladores físicos.

arxiv arXiv cs.LG · hace 1 h En vivo

El aprendizaje profundo fusiona datos de satélite con características meteorológicas para la estimación de la humedad del suelo

Un estudio valida un método de Función de Correlación Cruzada para identificar los retrasos temporales y de profundidad óptimos entre las variables meteorológicas y la humedad del suelo. Utilizando datos de satélite y meteorológicos en siete parcelas agrícolas del sureste de España, los modelos de aprendizaje profundo lograron mejoras significativas: un CNN por píxel alcanzó R² = 0.877, mientras que un híbrido CNN-LSTM logró el mejor rendimiento general con R² = 0.930. La información de profundidad subsuperficial y las características meteorológicas mejoraron sustancialmente la precisión de la estimación.

arxiv arXiv cs.LG · hace 1 h En vivo

La equivalencia del entrenamiento adversarial falla para modelos no lineales

Una prueba formal demuestra que no existe equivalencia entre el riesgo adversarial y el riesgo regularizado en redes de dos capas. Los resultados empíricos en Wide-ResNets confirman que esta imposibilidad persiste en arquitecturas más profundas y expresivas.

arxiv arXiv cs.LG · hace 1 h En vivo

Un modelo de aprendizaje automático predice pólipos colorrectales de alto riesgo en afroamericanos

Un modelo de aprendizaje automático desarrollado utilizando características clínicas previas a la colonoscopia predice pólipos colorrectales de alto riesgo en afroamericanos. El modelo, validado en una cohorte urbana diversa, utiliza datos demográficos, de estilo de vida y de comorbilidad para identificar pacientes con mayor riesgo, con validación externa realizada en 2023-2024.

arxiv arXiv cs.LG · hace 1 h En vivo

Desacoplar el conocimiento declarativo y procedimental en modelos de visión-lenguaje-acción

w$^{2}$VLA introduce un enfoque modular que desacopla el conocimiento declarativo y procedimental en los modelos de visión-lenguaje-acción. Al reestructurar el flujo de información, permite una clonación de comportamiento robusta y una transferencia de habilidades cero-shot sin precedentes a través de objetos no vistos y disímiles.

arxiv arXiv cs.LG · hace 1 h En vivo

Aprendizaje profundo con complejidad de tiempo paralelo O(log N)

El Aprendizaje Jerárquico Bloque-Local (HBLL) permite el entrenamiento de redes neuronales profundas con una complejidad de tiempo paralelo O(log N), eliminando la necesidad de retropropagación completa. HBLL descompone las redes en bloques vinculados jerárquicamente y logra un rendimiento competitivo en tareas de visión y lenguaje, con extensiones a arquitecturas recurrentes.

arxiv arXiv cs.LG · hace 1 h En vivo

La divergencia JS mejora la alineación de texto a imagen autoregresiva con GRPO

Un estudio introduce la divergencia JS en la alineación autoregresiva de texto a imagen al estilo GRPO, mostrando que equilibra eficazmente la optimización de la política y la diversidad de generación. Los experimentos en LlamaGen y Janus-7B demuestran que la divergencia JS logra un rendimiento superior o competitivo en todas las métricas mientras preserva salidas diversas.

arxiv arXiv cs.LG · hace 1 h En vivo

Aprendizaje de Grafos Temporales Federados con Preservación de Privacidad para IoMT Ciberresiliente

El artículo presenta Federated TGCN-A2C, un marco de trabajo con preservación de privacidad que alcanza una precisión de prueba del 99.48% y 99.61% en los benchmarks CICDDoS 2019 y TON-IoT, superando a Fed-Inforce-Fusion por 0.21 puntos porcentuales. Incluye detección de anomalías, puntuación basada en gemelos digitales, selección adaptativa de acciones y una capa de honeypot mejorada, con todas las clases principales de ataques logrando puntajes F1 superiores a 0.92 y 0.94, respectivamente, y proporciona explicabilidad post-hoc mediante SHAP, LIME, Grad-CAM y análisis de contrafácticos.

arxiv arXiv cs.LG · hace 1 h En vivo

Optimizador Muon: Potencia, Límites y una Teoría del Valle Fluvial

Una nueva teoría a nivel de trayectoria revela que Muon acelera al inicio de la optimización en la dirección del río portadora de información, pero converge lentamente cerca del fondo, a diferencia del descenso por gradiente. Con momento, las actualizaciones ortogonalizadas de Muon eliminan la información de escala residual, lo que lleva a sobrepasar y oscilar. El estudio aboga por un enfoque de dos etapas: usar Muon al principio y cambiar a optimizadores similares al descenso por gradiente más adelante, para mejorar el rendimiento del entrenamiento de LLM.

arxiv arXiv cs.LG · hace 1 h En vivo

Gradientes de Política Analíticos para el Control Continuo Eficiente

Los Gradientes de Política Analíticos (APG) permiten el cálculo exacto de gradientes mediante retropropagación a través de la simulación cuando las dinámicas del entorno son diferenciables. APG supera a la Optimización de Política Próxima (PPO) en cuatro tareas de control continuo, mostrando una eficiencia superior de muestras y aprendizaje con un esquema de retropropagación segmentada que reduce la degradación de gradientes en tareas de horizonte largo.

arxiv arXiv cs.LG · hace 1 h En vivo

GOMA logra la primera garantía de convergencia estocástica para desigualdades variacionales

El artículo presenta GOMA, una familia de métodos de primer orden para desigualdades variacionales monótonas. En el entorno estocástico con varianza no acotada, una variante simplificada de GOMA alcanza una tasa de convergencia del último iterado de O(1/\sqrt{k}) en la norma al cuadrado del gradiente, sin reducción de varianza ni lotes crecientes. Esta es la primera garantía de este tipo para desigualdades variacionales estocásticas monótonas de Lipschitz no acotadas.

arxiv arXiv cs.LG · hace 1 h En vivo

Filtrado de grafos eficiente en memoria para filtrado colaborativo escalable

Mem-GF introduce un método de filtrado de grafos eficiente en memoria que aproxima los filtros de grafos polinomiales utilizando subespacios de Krylov, eliminando la necesidad de almacenar el grafo completo de similitud entre elementos. Logra hasta 5.74× menos uso de memoria y 4.38× más velocidad de ejecución mientras mantiene una precisión de recomendación superior en comparación con los métodos de última generación, escalando eficazmente a conjuntos de datos con decenas de millones de interacciones.

arxiv arXiv cs.LG · hace 1 h En vivo

Destilando Transformers en Recurrent Transformers para Memoria Eficiente

Un nuevo método de destilación transfiere la estrategia de compresión de observaciones de los transformers de historial completo a modelos recurrentes. Al entrenar un modelo maestro para comprimir las historias de observaciones en cuellos de botella de tamaño fijo, el enfoque alinea la memoria del estudiante con la compresión del maestro. Esto permite que los recurrent transformers logren rendimiento cercano al de historial completo con complejidad de tiempo lineal, haciéndolos viables para aplicaciones de robótica a largo plazo.

arxiv arXiv cs.LG · hace 1 h En vivo

LIG: Gradientes Integrados por Capa para Análisis de Flujo en Transformers

LIG extiende los Gradientes Integrados a mapas conjunto-a-conjunto en Transformers, permitiendo la atribución a nivel de token dentro de las capas. Analiza la consistencia de la atribución módulo por módulo y a lo largo de toda la capa, y rastrea el flujo de información mediante contribuciones separadas de atención y MLP, utilizando como líneas base la incrustación del token objetivo y salidas con cero o atención nula. LIG opera en los límites de los módulos sin necesidad de reentrenamiento ni intérpretes personalizados, ofreciendo una herramienta XAI de diagnóstico para los componentes internos de Transformers.

arxiv arXiv cs.LG · hace 1 h En vivo

Geometría del costo de la creencia en inferencia ruidosa

Un modelo de inferencia de máquina finita utiliza geometría de costos para cuantificar transiciones de creencia, combinando transporte óptimo con información de Fisher. El marco revela un muro, honestidad y rigidez en los espacios de creencia, con la creencia gaussiana logrando la máxima curvatura hiperbólica. La termodinámica establece la unidad de costo, y el piso geométrico de precisión diverge en la certeza, con el valor -1/4 representando una escala clave.

arxiv arXiv cs.LG · hace 1 h En vivo

FAST: Un marco para muestreo alineado y entrenamiento en aprendizaje por refuerzo paralelo

FAST aborda la ineficiencia del muestreo en el aprendizaje por refuerzo para conducción autónoma introduciendo Alineación de Muestreo Paralelo Dinámico para desacoplar la terminación del episodio de los bucles de muestreo. Logra una aceleración de hasta 1.78 veces en tiempo real frente a las líneas base de un solo clip, mientras mantiene la ausencia de sesgo estadístico mediante Optimización de Relleno de Máscara Escalada.

arxiv arXiv cs.AI · hace 1 h En vivo

MedLayXPlain: Evaluando la brecha entre expertos y no expertos en modelos de visión y lenguaje médicos

MedLayXPlain presenta el primer benchmark a gran escala para la generación de lenguaje médico para no expertos, con 122.789 muestras ancladas a regiones en ocho modalidades de imagen. Evalúa modelos de visión y lenguaje médicos en la alineación entre expertos y no expertos mediante un sistema de ontología jerárquica y un evaluador ligero, revelando una brecha sistemática: el rendimiento a nivel experto en la generación de descripciones coexiste con una degradación significativa en el lenguaje para no expertos, mientras que los modelos de propósito general carecen de precisión clínica.

arxiv arXiv cs.AI · hace 1 h En vivo

Referencia basada en perfiles en el anclaje de LLM

El artículo argumenta que la referencia en los modelos de lenguaje grandes no es un enlace fijo, sino un fenómeno basado en perfiles, sensible al contexto y estructurado numéricamente. Propone que los LLM anclan la referencia a través de rastros lingüísticos parametrizados mediante optimización, con perfiles referenciales distribuidos y activados mediante computación sensible al contexto, respaldado por hallazgos de interpretabilidad mecanística.