Todos los artículos
arxiv arXiv cs.LG · hace 1 h En vivo

TESSERA y los Embeddings de AlphaEarth permiten el mapeo de LCZ a escala fina en ciudades suizas

Un estudio en cinco ciudades suizas compara los embeddings de TESSERA y AlphaEarth con datos tradicionales de Sentinel para escalar los mapas de Zonas Climáticas Locales (LCZ) a una resolución de 10 metros utilizando un U-Net basado en atención. TESSERA supera consistentemente tanto a Sentinel-1/2 como a AlphaEarth, logrando puntuaciones IoU de 0.59–0.69 y 0.77–0.82. Los resultados muestran que los embeddings reducen el preprocesamiento manual y apoyan un mapeo de LCZ escalable y reproducible, aunque datos de referencia mejorados son clave para obtener mayores ganancias en precisión.

arxiv arXiv cs.LG · hace 1 h En vivo

PU-UNet: Interacciones multiplicativas estables para la segmentación de imágenes médicas

PU-UNet introduce bloques residuales de unidad de producto estables en U-Net para la segmentación de imágenes médicas, permitiendo interacciones explícitas de características multiplicativas sin inestabilidad numérica. Alcanza altas puntuaciones Dice en ISIC 2018, Kvasir-SEG y BUSI, supera una línea base de Residual U-Net en Dice e IoU, y elimina las tasas de falsos positivos en casos normales de BUSI.

arxiv arXiv cs.LG · hace 1 h En vivo

Diagnóstico de la enfermedad de Alzheimer mediante fusión multimodal de MRI 3D y PET

Un nuevo estudio combina datos de MRI 3D y PET utilizando estrategias avanzadas de fusión que incluyen GMU y autoatención con puerta, junto con un clasificador MoE con puerta dispersa. Los resultados muestran que GMU alcanza una precisión del 80.46% en NC vs. MCI y del 95.47% en NC vs. AD, mientras que la autoatención con puerta alcanza el 82.08% en MCI vs. AD. Las ablaciones confirman que MoE mejora significativamente el rendimiento, destacando la importancia de la modelización multimodal adaptativa a la entrada para un diagnóstico preciso de la enfermedad de Alzheimer.

arxiv arXiv cs.LG · hace 1 h En vivo

Estudio comparativo de sustitutos neuronales para la predicción del estado de la batería

Un estudio comparativo evalúa cuatro arquitecturas neuronales—MLP, ResNet, U-Net y FNO—como predictores autoregresivos de los estados internos de la batería utilizando el modelo de Doyle-Fuller-Newman. La U-Net logra un nRMSE final medio del 3% en todas las variables de estado y proporciona una aceleración de 5.38x sobre los solucionadores numéricos, demostrando la importancia del sesgo inductivo espacial en el rendimiento del sustituto.

arxiv arXiv cs.LG · hace 1 h En vivo

PaAno+: Detección de anomalías en series temporales con atención multiscale y cross-variable

PaAno+ presenta un modelo ligero que utiliza convolución multiscale y atención cross-variable para mejorar la detección de anomalías en series temporales. Alcanza precisión state-of-the-art tanto en tareas univariadas como multivariadas, con rendimiento superior en VUS-PR y otras métricas, mientras mantiene un cálculo eficiente para despliegue en tiempo real en dispositivos con recursos limitados.

arxiv arXiv cs.LG · hace 1 h En vivo

Modelos de base EEG para la detección de supresión por ráfagas en UCI

Un estudio evalúa Modelos de base EEG para la detección de supresión por ráfagas basada en eventos en EEG de UCI sin calibración específica del paciente. REVE-base logró la puntuación F1 basada en eventos más alta de 0.868 y redujo el error de ráfagas por minuto en un 52.1% en comparación con EEGNet. Los experimentos de ablatión muestran que el ajuste fino completo supera a otras estrategias, y REVE-base preentrenado supera la inicialización aleatoria por 0.723 puntos F1 con el 25% de datos etiquetados.

arxiv arXiv cs.LG · hace 1 h En vivo

Análisis teórico de la información de la supervisión efectiva en el pensamiento encadenado latente

Este artículo identifica un colapso dual en el razonamiento latente: atenuación del gradiente y deriva representacional. Propone Supervisión de Trayectoria y Espacio, demostrando que la reconstrucción generativa preserva mejor la capacidad de información que la compresión geométrica. La Sonda Latente Unificada mide la información mutua entre trayectorias latentes y pasos de razonamiento, revelando un vínculo entre información y precisión en el razonamiento.

arxiv arXiv cs.LG · hace 1 h En vivo

Desacoplar los costos en la aproximación de elipsoide de John

Un nuevo análisis separa la complejidad de los algoritmos del elipsoide de John en certificación, identificación y precisión. Muestra que el factor \varepsilon^{-1} surge únicamente en la certificación mediante iterados promedio, no en la precisión. Después de una configuración independiente de \varepsilon, la precisión depende solo de \log\log(1/\varepsilon), mientras que la identificación sigue siendo un problema abierto.

arxiv arXiv cs.LG · hace 2 h

MakeupMirror mejora la preservación de atributos faciales en modelos de difusión

MakeupMirror, un modelo de transferencia de maquillaje basado en difusión, logra una mejora del +60% en la similitud de reconocimiento facial y una reducción del -50% en la diferencia de tono de piel en comparación con Stable-Makeup. Preserva las características faciales y el tono de piel con una aceptación experta del 94% en criterios de identidad, operando con una latencia de 0.7s a través de un muestreador de Langevin de Levenberg-Marquardt.

arxiv arXiv cs.LG · hace 2 h

Modelos del Mundo Sensorimotores para la Percepción Alineada a la Acción

Se presenta un modelo del mundo sensorimotor (SMWM) que aprende representaciones latentes compactas y alineadas con la acción a partir de trayectorias offline. Utiliza regularización de dinámica inversa para evitar el colapso de la representación y permitir modelos del mundo estables e interpretables sin requerir codificadores congelados ni regularizadores complejos. SMWM logra un rendimiento competitivo en planificación en tareas de control 2D y 3D.

arxiv arXiv cs.LG · hace 2 h

EFIQA: Evaluación de la calidad de imágenes del fondo de ojo sin etiquetas con explicabilidad

EFIQA propone un marco de trabajo sin etiquetas para la evaluación de la calidad de imágenes del fondo de ojo que utiliza priores anatómicos para generar mapas de calidad espaciales. Primero entrena un detector de anomalías no supervisado mediante inpainting anatómico enmascarado para identificar vasos sanguíneos faltantes, luego destila este conocimiento en un adaptador poco profundo para el mapeo de calidad. La evaluación en conjuntos de datos externos muestra que EFIQA supera a los métodos supervisados tanto en rendimiento como en explicabilidad a través de diversos criterios de calidad.

arxiv arXiv cs.LG · hace 2 h

Control de riesgo conforme federado mediante reducción de la curva de riesgo

Un nuevo método de control de riesgo conforme federado aborda las fallas de cobertura en predicciones a nivel hospitalario. En datos reales de tumores cerebrales de 20 instituciones, la calificación agrupada falla en el 40% de los sitios, con uno que excede los objetivos de falsos negativos por 7.8 puntos porcentuales. El protocolo propuesto basado en reducción utiliza curvas de riesgo empíricas y un hiperparámetro n0=19 para lograr 2.7/20 violaciones de cobertura con una expansión del conjunto de predicción de 2.0x, mientras preserva las garantías marginales y asegura que ningún dato a nivel de paciente salga de ningún sitio.

arxiv arXiv cs.LG · hace 2 h

Pose6DAug: Intercambio de objetos multi-vista físicamente plausible

Pose6DAug permite la augmentación de datos robóticos intercambiando objetos en episodios exitosos mientras se preservan trayectorias de poses 6D físicamente válidas. Opera en 3D utilizando una malla anclada por poses temporalmente coherentes, asegurando consistencia multi-vista y plausibilidad física. El ajuste fino de una política VLA con estos datos aumentados mejora las tasas de éxito para objetos nuevos en un 16.5% respecto a las líneas base más avanzadas.