Todos los artículos
arxiv arXiv cs.LG · hace 2 h

La nitidez riemanniana explica el sesgo de SGD hacia mínimos planos

Este estudio introduce la nitidez riemanniana, una medida de planitud invariante a reparametrizaciones basada en la geometría de la Matriz de Información de Fisher. Demuestra que la distribución estacionaria de SGD se concentra en mínimos riemannianamente planos y vincula este sesgo geométrico con la generalización mediante un límite PAC-Bayes. Los experimentos en MNIST y CIFAR-10 muestran que la nitidez riemanniana rastrea mejor la generalización que la nitidez euclidiana, con un escalado consistente con la teoría.

arxiv arXiv cs.AI · hace 2 h

Modelos de base EEG para la detección de supresión por ráfagas en UCI

Un estudio evalúa Modelos de base EEG para la detección de supresión por ráfagas basada en eventos en entornos de UCI sin calibración específica del paciente. REVE-base logró la puntuación F1 basada en eventos más alta de 0.868 y redujo el error de ráfagas por minuto en un 52.1% en comparación con EEGNet y un 36.2% en comparación con la umbralización adaptativa, demostrando un rendimiento superior. Los resultados de ablation muestran que el ajuste fino completo supera a otras estrategias, y REVE-base preentrenado supera la inicialización aleatoria por 0.723 puntos F1 con el 25% de datos etiquetados, destacando el valor del preentrenamiento para conjuntos de datos limitados.

arxiv arXiv cs.LG · hace 3 h

Acumulación de Ventaja Marginal para la Autoevolución de Agentes Impulsada por Memoria

Este artículo presenta la Acumulación de Ventaja Marginal (MAA), una arquitectura de postprocesamiento que aborda la inconsistencia entre lotes en la autoevolución de agentes impulsada por memoria. MAA formaliza la alineación y comparabilidad como condiciones estructurales, utiliza señales diferenciales y promedio móvil exponencial para acumular evidencia firmada por operación, y garantiza la trazabilidad mediante la fusión de identidad semántica. Supera a las líneas base a nivel de lote en 14 de cada 16 configuraciones y reduce el consumo de tokens en aproximadamente un 75%.

arxiv arXiv cs.LG · hace 3 h

Alineación de LLM mediante Retroalimentación Implícita del Usuario

Un nuevo conjunto de datos, IFLLM, recopila trayectorias del ratón y datos de fijación ocular de usuarios que interactúan con LLMs. Muestra que la retroalimentación implícita mejora significativamente la alineación de LLMs, aumentando la precisión del modelo de recompensa basado en texto del 55% al 64% y casi triplicando las mejoras en la calidad de respuesta después del entrenamiento DPO en ocho LLMs.

arxiv arXiv cs.LG · hace 3 h

Propagación del sesgo del evaluador en sistemas de LLM multi-agente

Contagion Networks introduce un marco para medir cómo se propagan los sesgos del evaluador entre agentes de LLM. En un experimento con 3 agentes, los sesgos se propagan con coeficientes entre 0.157 y 0.352, y los agentes con modelos homogéneos muestran una contagiosidad significativamente más débil que las configuraciones cruzadas entre modelos. Aumentar el tamaño del comité de evaluadores de k=1 a k=3 reduce la contagiosidad efectiva en un 72.4%.

arxiv arXiv cs.LG · hace 3 h

Estimación de entropía en sistemas multiqutrit con redes neuronales

Un estudio compara algoritmos cuánticos variacionales y CNN clásicas para la estimación de entropía de von Neumann en sistemas multiqutrit. Las CNN logran predicciones precisas y estables con solo el 12,5 % de las mediciones de tomografía completa del estado, alcanzando errores del percentil 90 de 0,13-0,16 nats para sistemas de cuatro y cinco qutrits, mostrando una mejora sistemática con el tamaño del sistema y robustez ante el ruido.

arxiv arXiv cs.LG · hace 3 h

Cómo los LLM alineados con la seguridad interpretan demostraciones mixtas de cumplimiento

Un estudio encuentra que las demostraciones benignas y dañinas de cumplimiento no son intercambiables en los modelos de lenguaje. Las demostraciones benignas pueden reducir o aumentar el cumplimiento dañino dependiendo del modelo, con la optimización de preferencias desempeñando un papel clave para prevenir el cumplimiento dañino. La investigación también revela sesgo de recencia en el orden de las demostraciones y comportamientos variados de los modelos al manejar rechazos durante el aprendizaje in-context.

arxiv arXiv cs.LG · hace 3 h

El ajuste de prueba y refinamiento mejora el rendimiento de los agentes de codificación

Un nuevo método llamado ajuste de prueba y refinamiento utiliza sondas sintéticas de corrección de errores para mejorar iterativamente los archivos de guía del repositorio con llamadas LLM de un solo disparo, sin bucles de agente ni uso de herramientas. En SWE-bench Verified, alcanza una tasa media de resolución del 33,0 % —14,5 puntos porcentuales más alta que la base de conocimientos estática inicial—, lo que muestra una cobertura mejorada en lugar de una precisión de parche. El método permite a los agentes utilizar presupuestos de pasos más grandes de manera efectiva, y el rendimiento se mantiene estable entre modelos cuando la salida diagnóstica es suficiente.

arxiv arXiv cs.LG · hace 3 h

Corredor de Ejecución Soberana para Control Agéntico Vinculado a Certificados

El Corredor de Ejecución Soberana (SEB) introduce un límite de aplicación en tiempo de ejecución que verifica y ejecuta la autoridad certificada en sistemas agénticos. Garantiza que la autoridad de mutación en producción esté aislada del razonamiento no determinista mediante la validación de contratos de ejecución, ventanas de validez y estados de revocación antes de invocar las APIs de infraestructura. El prototipo demuestra una ejecución segura y auditable en AWS y Kubernetes con latencia medible y resiliencia ante fallos.

arxiv arXiv cs.LG · hace 3 h

Cápsulas de estado de ejecución para inferencia de IA en dispositivo con baja latencia

Las cápsulas de estado de ejecución permiten la verificación y restauración de puntos de control vinculados al gráfico del estado completo de ejecución, incluidos los estados KV, recurrentes y de convolución, para la inferencia de IA en dispositivo con baja latencia y lotes pequeños. En RTX 5090 y Jetson AGX Thor, la restauración de cápsulas logra una corrección exacta a nivel de bytes e idéntica a nivel de tokens, con operaciones de GPU de submilisegundo y aceleraciones de TTFT hasta 27x en 16k tokens, demostrando una reducción significativa de latencia en flujos de trabajo de IA interactivos.

arxiv arXiv cs.LG · hace 3 h

Marco de Aprendizaje In-Contexto Bayesiano Multi-Tarea

Un nuevo marco de aprendizaje in-contexto multi-tarea permite inferencia bayesiana jerárquica amortizada representando la información previa como un prefijo en los conjuntos de datos. El modelo transformer adapta las predicciones entre familias previas, igualando el rendimiento óptimo en diversas tareas mientras es significativamente más rápido. Se valida en la predicción de temperatura espaciotemporal del mundo real.

arxiv arXiv cs.LG · hace 3 h

Calibración en modelos MoE bajo cambio de distribución

Este artículo examina cómo los modelos de mezcla de expertos mantienen la calibración bajo cambio de distribución. Encuentra que la calibración a nivel de experto garantiza la calibración general del modelo en modelos con enrutamiento duro, pero es insuficiente para modelos con enrutamiento blando. Los autores proponen reponderación adversarial para penalizar los errores de calibración en los agregados enrutados, mejorando el equilibrio entre precisión y calibración a través de tareas y cambios.

arxiv arXiv cs.LG · hace 3 h

La previsibilidad como medida de gran detalle para la privacidad

La privacidad mediante la previsibilidad introduce un marco que mide la filtración de privacidad como la capacidad incremental del atacante para predecir información sensible después de observar la salida del algoritmo. Generalmente es incomparable con la privacidad diferencial, pero implica DP de información mutua bajo condiciones específicas, ofreciendo una métrica de privacidad de gran detalle adaptada a los modelos de atacante y datos sensibles.

arxiv arXiv cs.LG · hace 3 h

Atención de Álgebra de Lie: Tokens de Elementos de Grupo en Redes Neuronales

La Atención de Álgebra de Lie introduce tokens de atención como elementos del grupo de Lie matricial, utilizando la norma algebraica en forma cerrada de las poses relativas como puntuaciones de atención. Este método logra atención invariante y equivariante sin componentes teóricos de representación, superando a las líneas base de tokens vectoriales en SE(2), SO(3) y Aff(2) con menos parámetros y sin núcleos aprendidos.

arxiv arXiv cs.LG · hace 3 h

UNIEGO: Representación egocéntrica unificada mediada por proxy

UNIEGO introduce un marco de destilación jerárquica multi-profesor que utiliza modelos proxy para mediar la transferencia de conocimiento desde nueve profesores diversos en puntos de vista y modalidades. La etapa de Destilación de Proxy Selectiva (SPD) selecciona adaptativamente proxies confiables durante el entrenamiento, mejorando la calidad y estabilidad de la representación. UNIEGO logra resultados de vanguardia en reconocimiento de acciones, recuperación de video y segmentación de acción en benchmarks ego-exo.

arxiv arXiv cs.LG · hace 3 h

¿Qué tan transparente es DiffusionGemma?

DiffusionGemma tiene una transparencia de variables deficiente debido a su alta profundidad serial opaca, pero esto puede mitigarse mediante un cuello de botella de tokens interpretable, reduciendo la profundidad serial a 1.1X la de Gemma 4. La transparencia algorítmica es más desafiante en los modelos de difusión debido a los cambios dinámicos de tokens, aunque los estudios de caso revelan fenómenos novedosos como el razonamiento no cronológico y el razonamiento con contexto intermedio. Se encuentra que DiffusionGemma es monitoreable de manera similar a Gemma 4.