Todos los artículos
arxiv arXiv cs.AI · hace 1 h En vivo

Calibración en modelos MoE bajo cambio de distribución

Este artículo examina cómo los modelos de mezcla de expertos mantienen la calibración bajo cambio de distribución. Encuentra que la calibración a nivel de experto asegura la calibración general del modelo en modelos con enrutamiento duro, pero es insuficiente para modelos con enrutamiento blando. Los autores proponen reponderación adversarial para penalizar los errores de calibración en los agregados enrutados, mejorando el equilibrio entre precisión y calibración a través de tareas y cambios.

arxiv arXiv cs.AI · hace 2 h

¿Qué tan transparente es DiffusionGemma?

DiffusionGemma tiene una transparencia de variables deficiente debido a su alta profundidad serial opaca, pero esto puede mitigarse mediante un cuello de botella de tokens interpretable, reduciendo la profundidad serial a 1.1X la de Gemma 4. La transparencia algorítmica es más desafiante en los modelos de difusión debido a las predicciones dinámicas de tokens, con evidencia temprana de razonamiento no cronológico, difuminación de tokens y razonamiento con contexto intermedio. Se encuentra que DiffusionGemma es igualmente monitoreable que Gemma 4.

arxiv arXiv cs.LG · hace 2 h

FedMGS: Síntesis de grafos federada y consciente de la modalidad para aprendizaje multimodal desbalanceado

FedMGS aborda el desequilibrio de modalidades a nivel de cliente y de nodo en el aprendizaje de grafos federados mediante la síntesis de representaciones semánticas latentes. Integra un codificador de grafos consciente de la disponibilidad, un sintetizador semántico guiado por prototipos y un mecanismo de fusión calibrado en confiabilidad para recuperar modalidades faltantes mientras se preserva la alineación semántica. Los experimentos muestran que FedMGS logra ganancias de rendimiento de hasta el 17.41% sobre las líneas base en cuatro tareas.

arxiv arXiv cs.LG · hace 2 h

La diversidad de estilos supera a la diversidad de temas en datos sintéticos sin anotación

Un nuevo marco genera diálogos sintéticos sin datos anotados por humanos, utilizando únicamente definiciones de intención. Incorpora atributos de tema y estilo, con modelos de estilización posteriores Univ y Exam, y un proceso de filtrado mediante LLM-as-a-judge. Los resultados muestran hasta el 93.3% del rendimiento de los datos anotados por humanos, confirmando que la diversidad de estilos es más crítica que la diversidad de temas para la utilidad de los datos.

arxiv arXiv cs.LG · hace 2 h

Defensa ligera contra la inyección de datos falsos en redes eléctricas

Un nuevo marco de defensa mejora la resiliencia de las redes neuronales profundas frente a ataques de inyección de datos falsos en redes eléctricas mediante la adición de una capa de relleno con pseudocaracterísticas derivadas de distribuciones estadísticas de entrada. Este enfoque ligero y agnóstico al modelo aumenta la dimensionalidad de entrada de manera aleatoria y consciente de los datos, haciendo que las perturbaciones adversarias no sean transferibles e impredecibles, contrarrestando así eficazmente los ataques sin degradación del rendimiento.

arxiv arXiv cs.LG · hace 2 h

Estudio mecanicista de la retención de representación en aprendizaje continuo

Un marco sintético revela que la superposición aumenta con el tiempo con caídas transitorias en los límites de las tareas, lo que indica interferencia específica del límite. Una mayor esparsidad de características promueve la superposición sin un olvido inevitable, siempre que se mantenga la fuerza de la representación. El rango efectivo a nivel de tarea crece con la esparsidad, mostrando un uso más amplio de la capacidad bajo condiciones dispersas.

arxiv arXiv cs.LG · hace 2 h

HEPTv2: Transformador de puntos eficiente de extremo a extremo para la reconstrucción de partículas cargadas

HEPTv2 logra una eficiencia de rastreo del 98,6% con una tasa de falsos del 0,8% en TrackML, utilizando solo 15 ms de tiempo de inferencia y 0,4 GB de memoria por evento. Supera a los métodos anteriores basados en transformadores y grafos en eficiencia y reduce la latencia por factores de 7 y 38–52, respectivamente, permitiendo la reconstrucción de partículas en tiempo real en el HL-LHC.

arxiv arXiv cs.LG · hace 2 h

Optimización evolutiva de hiperparámetros en dos etapas para PINNs

Una estrategia evolutiva en dos etapas mejora el rendimiento de las Redes Neuronales Informadas por Física (PINNs) mediante la selección preliminar de candidatos a hiperparámetros con entrenamiento de baja fidelidad, y luego refinando los mejores candidatos con optimización basada en gradientes. El enfoque reduce significativamente el error medio en problemas de ecuaciones de Advección, Klein-Gordon y Helmholtz bajo presupuestos computacionales fijos.

arxiv arXiv cs.LG · hace 2 h

Análisis de datos topológicos para la monitorización de procesos en tiempo real

Un nuevo método combina el análisis de datos topológicos y el aprendizaje automático para monitorizar procesos dinámicos de alta dimensión. Representa los datos de series temporales como variedades, utiliza descriptores topológicos para capturar la estructura y emplea ecuaciones diferenciales ordinarias neuronales para modelar la evolución dinámica. El enfoque detecta eficazmente diversos eventos en datos de procesos industriales y supera a las alternativas basadas en reconstrucción y trayectorias.

arxiv arXiv cs.LG · hace 2 h

Mitigación del sesgo bajo restricciones de cobertura y el precio de la equidad

Un nuevo marco aborda el sesgo de datos en el aprendizaje automático incorporando restricciones de cobertura para garantizar una representación suficiente de subgrupos interseccionales. Intercambia pequeños errores de sesgo por una mayor eficiencia de los datos y formula la mitigación del sesgo como un programa lineal entero, caracterizando el precio de la equidad en función de la tolerancia a la equidad para guiar la gobernanza de datos y el cumplimiento legal.

arxiv arXiv cs.LG · hace 2 h

La nitidez riemanniana explica el sesgo de SGD hacia mínimos planos

Este estudio introduce la nitidez riemanniana, una medida de planitud invariante a reparametrizaciones basada en la geometría de la Matriz de Información de Fisher. Demuestra que la distribución estacionaria de SGD se concentra en mínimos riemannianamente planos y vincula este sesgo geométrico con la generalización mediante un límite PAC-Bayes. Los experimentos en MNIST y CIFAR-10 muestran que la nitidez riemanniana rastrea mejor la generalización que la nitidez euclidiana, con un escalado consistente con la teoría.

arxiv arXiv cs.AI · hace 2 h

Modelos de base EEG para la detección de supresión por ráfagas en UCI

Un estudio evalúa Modelos de base EEG para la detección de supresión por ráfagas basada en eventos en entornos de UCI sin calibración específica del paciente. REVE-base logró la puntuación F1 basada en eventos más alta de 0.868 y redujo el error de ráfagas por minuto en un 52.1% en comparación con EEGNet y un 36.2% en comparación con la umbralización adaptativa, demostrando un rendimiento superior. Los resultados de ablation muestran que el ajuste fino completo supera a otras estrategias, y REVE-base preentrenado supera la inicialización aleatoria por 0.723 puntos F1 con el 25% de datos etiquetados, destacando el valor del preentrenamiento para conjuntos de datos limitados.