Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 98

Calibración en modelos MoE bajo cambio de distribución

Este artículo examina cómo los modelos de mezcla de expertos mantienen la calibración bajo cambio de distribución. Encuentra que la calibración a nivel de experto asegura la calibración general del modelo en modelos con enrutamiento duro, pero es insuficiente para modelos con enrutamiento blando. Los autores proponen reponderación adversarial para penalizar los errores de calibración en los agregados enrutados, mejorando el equilibrio entre precisión y calibración a través de tareas y cambios.

arxiv arXiv cs.AI · hace 2 h

G2Rec: Marco unificado para recomendación generativa

G2Rec introduce un marco escalable que combina el modelado holístico de la co-interacción basada en grafos con tokenización semántica. Permite a los modelos de recomendación generativa capturar prototipos de interés del usuario integrales y fundamentados semánticamente, sin necesidad de intereses reales del usuario, superando a los métodos existentes en recomendación secuencial a escala industrial.

arxiv arXiv cs.AI · hace 2 h

¿Qué tan transparente es DiffusionGemma?

DiffusionGemma tiene una transparencia de variables deficiente debido a su alta profundidad serial opaca, pero esto puede mitigarse mediante un cuello de botella de tokens interpretable, reduciendo la profundidad serial a 1.1X la de Gemma 4. La transparencia algorítmica es más desafiante en los modelos de difusión debido a las predicciones dinámicas de tokens, con evidencia temprana de razonamiento no cronológico, difuminación de tokens y razonamiento con contexto intermedio. Se encuentra que DiffusionGemma es igualmente monitoreable que Gemma 4.

Calibración en modelos MoE bajo cambio de distribución

G2Rec: Marco unificado para recomendación generativa

¿Qué tan transparente es DiffusionGemma?

FedMGS: Síntesis de grafos federada y consciente de la modalidad para aprendizaje multimodal desbalanceado

La diversidad de estilos supera a la diversidad de temas en datos sintéticos sin anotación

Estimación directa de la ventaja para dominios parcialmente observables

Defensa ligera contra la inyección de datos falsos en redes eléctricas

Incrustaciones de paso de tiempo innecesarias en modelos de difusión

DeepGaLA: Sustitutos neuronales con incertidumbre para problemas inversos de EDP

Estudio mecanicista de la retención de representación en aprendizaje continuo

DeepSpec: Una colección de modelos de borrador para descodificación especulativa de DeepSeek AI

HEPTv2: Transformador de puntos eficiente de extremo a extremo para la reconstrucción de partículas cargadas

Optimización evolutiva de hiperparámetros en dos etapas para PINNs

Análisis de datos topológicos para la monitorización de procesos en tiempo real

Reutilización de un clasificador de voz para generación basada en difusión

Mitigación del sesgo bajo restricciones de cobertura y el precio de la equidad

Búsqueda Simbólica Agéntica para la Caracterización de Soluciones de EDP

La nitidez riemanniana explica el sesgo de SGD hacia mínimos planos

UltraQuant: Caché KV de 4 bits para agentes con alta carga de contexto

Modelos de base EEG para la detección de supresión por ráfagas en UCI