Todos los artículos
arxiv arXiv cs.LG · hace 2 h

Equidad en Redes Neuronales Gráficas mediante Adaptación Laplaciana

Un nuevo marco modifica el operador Laplaciano en la difusión de grafos para mejorar la equidad incorporando proyecciones de subespacio, ajustes espectrales y filtrado basado en frecuencia. El método aprovecha las propiedades de suavizado de la difusión de grafos para mitigar el sesgo, con análisis teórico y validación empírica en conjuntos de datos sintéticos y del mundo real que muestran una equidad mejorada sin sobrecarga computacional significativa.

arxiv arXiv cs.LG · hace 2 h

La reformulación de objetivos basada en delta mejora la predicción de carga eléctrica

Una reformulación de objetivos basada en delta mejora la predicción de carga eléctrica a corto plazo al predecir cambios en la carga en lugar de valores absolutos. Los resultados muestran una reducción del MAPE superior al 50% para las predicciones con una hora de antelación en modelos LSTM y Transformer, con beneficios significativos para los modelos de secuencia profunda en las predicciones con un día de antelación.

arxiv arXiv cs.LG · hace 2 h

Marco de Aprendizaje Curricular de Profesor de Transferencia Consciente de Confusión

Se introduce una puntuación de dificultad consciente de confusión dentro del marco de Profesor de Transferencia para mejorar la interpretabilidad del modelo y la eficiencia de los datos. Las evaluaciones en CIFAR-10 muestran que el ordenamiento curricular consciente de confusión supera al ordenamiento aleatorio hasta un 8,7% con el 20% de los datos, demostrando ganancias consistentes en la eficiencia de los datos. Sin embargo, el ordenamiento curricular o anticurricular no mejora la precisión sobre el entrenamiento estándar con todos los datos, lo que indica que las mejoras en la función de puntuación por sí solas son insuficientes para superar los modos de fallo del aprendizaje curricular.

arxiv arXiv cs.LG · hace 2 h

Los modelos de visión y lenguaje no siempre necesitan imágenes para la precisión en radiografías de tórax

Una auditoría causal muestra que muchos modelos de visión y lenguaje logran alta precisión en radiografías de tórax sin usar imágenes. Los modelos solo de texto igualan a los modelos multimodales en rendimiento y los superan en fundamentación, con indicadores de precisión y confianza que solo aparecen cuando se usa la imagen. Estos hallazgos sugieren que la precisión por sí sola es insuficiente para validar el despliegue clínico, y debe evaluarse la fundamentación.

arxiv arXiv cs.LG · hace 2 h

Recuperación ciega de dominios latentes mediante descubrimiento no supervisado de simetrías

El artículo propone un marco no supervisado para recuperar dominios y señales latentes a partir de observaciones corruptas, descubriendo las simetrías de los datos. Modela las observaciones como mediciones lineales de señales procedentes de un campo aleatorio latente y utiliza una red convolucional de grupo superficial con restricciones de estacionariedad y localidad para aprender las acciones y filtros de simetría latente, lo que permite la recuperación a partir de datos no estructurados.

arxiv arXiv cs.LG · hace 2 h

Memorias latentes ligeras y experienciales para la mejora continua

Un nuevo método permite que los modelos de lenguaje grandes aprendan de sus propias trazas de razonamiento sin supervisión externa. Al destilar el cómputo del tiempo de inferencia en memorias latentes ligeras y modulares, el modelo logra un rendimiento competitivo con el entrenamiento completo y supera las líneas base de cero disparos y ICL crudo en tareas de razonamiento matemático, con una sobrecarga computacional mínima.

arxiv arXiv cs.LG · hace 2 h

QueryMarket: Aprendizaje Activo en Línea Sensible al Costo en Mercados de Datos

QueryMarket introduce OVBAL, un marco de aprendizaje activo en línea basado en varianza que estima la utilidad marginal de cada punto de datos utilizando un criterio de D-optimalidad con olvido exponencial. OVBAL selecciona muestras basándose en utilidad y precio, operando bajo restricciones presupuestarias móviles y adaptándose a la deriva conceptual, mostrando mejores compensaciones entre error y costo en tareas de pronóstico de energía solar.

arxiv arXiv cs.LG · hace 2 h

No-Free-Fairness: Límites fundamentales en sistemas de aprendizaje

El artículo introduce teoremas de 'No-Free-Fairness' que demuestran tres límites fundamentales en los sistemas de aprendizaje. Estos incluyen compensaciones inherentes entre equidad y costo, disparidad inevitable entre subgrupos en muestras finitas y restricciones de expresividad del modelo que impiden la equidad independientemente de los datos. Los resultados muestran que la equidad está limitada por la estructura del problema, los límites de los datos y la capacidad del modelo, no solo por datos sesgados.

arxiv arXiv cs.LG · hace 2 h

Leyes de conservación para arquitecturas neuronales modernas

Este artículo presenta un marco unificado para identificar leyes de conservación en el flujo del gradiente para arquitecturas neuronales modernas. Cubre redes feedforward con activaciones GELU, SiLU y SwiGLU, atención multi-cabeza con codificaciones posicionales sinusoidales y rotatorias, y modelos Mixture-of-Experts bajo varios esquemas de gating. Los experimentos validan los invariantes predichos, apoyando los hallazgos teóricos.

arxiv arXiv cs.LG · hace 2 h

Equivalencia funcional en la atención con codificaciones posicionales

Un estudio exhaustivo revela que las codificaciones posicionales sinusoidales preservan la equivalencia funcional en los Transformers, mientras que las codificaciones posicionales rotatorias reducen la simetría, mejorando la expresividad. La investigación muestra que las codificaciones posicionales influyen críticamente en la conectividad de modo lineal, con resultados empíricos que demuestran variabilidad en la conectividad dependiendo de la codificación utilizada.

arxiv arXiv cs.LG · hace 2 h

Estabilización de creencias en LLM mediante remuestreo predictivo con indicaciones

Los modelos de lenguaje grandes presentan una deriva temprana de las creencias en la respuesta a preguntas de opción múltiple, violando la propiedad de martingala. El remuestreo predictivo con indicaciones (PPR) revela esta deriva, que se autoestabiliza tras un remuestreo suficiente, conduciendo a distribuciones predictivas coherentes. Proponemos una estrategia de indicación con respuesta semilla y una pérdida de autoconsistencia para acelerar la estabilización y reducir la deriva, mejorando la coherencia predictiva sin afectar la precisión.

arxiv arXiv cs.LG · hace 2 h

Qwen-RobotManip logra generalización en manipulación robótica

Qwen-RobotManip, un modelo base de Visión-Lenguaje-Acción, permite el entrenamiento a gran escala mediante una alineación unificada entre representación, movimiento y comportamiento. Utiliza datos de código abierto para construir un corpus de preentrenamiento de 38.100 horas y demuestra generalización emergente, superando a los modelos anteriores más avanzados en configuraciones fuera de la distribución y ocupando el primer lugar en RoboChallenge con una mejora relativa del 20% en plataformas de robots reales.

arxiv arXiv cs.LG · hace 2 h

Meta-clasificación de modelos de una clase mediante ranking y vecino más cercano

Este artículo propone un método de meta-clasificación para modelos de clasificación de una clase representándolos como rangos de normalidad y utilizando correlación de rangos y métricas de vecino más cercano. El enfoque logra alta precisión al clasificar modelos basados en conjuntos de datos de entrenamiento, algoritmos e hiperparámetros, y funciona incluso cuando los conjuntos de datos comparten la misma clase. El método clasifica eficazmente los conjuntos de datos tratando múltiples muestras como una única entrada, ofreciendo una solución unificada para modelos OCC, conjuntos de datos y rangos.

arxiv arXiv cs.LG · hace 2 h

AnchorKV: Compresión de caché KV consciente de la seguridad con ancla de rechazo

AnchorKV introduce un mecanismo de penalización suave para sesionar la retención de tokens en la caché KV alejándola de direcciones de prompt dañinas. Utiliza una ancla de espacio de proyección de clave específica por capa derivada de la ingeniería de representaciones para mejorar la alineación de seguridad sin sacrificar mucha utilidad, ofreciendo una solución plug-in que mejora la defensa contra ataques de jailbreak.

arxiv arXiv cs.LG · hace 2 h

Representaciones de nivel de celda independientes del orden para el reconocimiento de tablas multitarea

Este artículo introduce un módulo de refinamiento estructural que utiliza atención no causal para generar características de celda independientes del orden en el reconocimiento de tablas multitarea autoregresivo. El enfoque permite la inferencia paralela del contenido de las celdas mientras mantiene el contexto global, mejorando la localización de las celdas y el reconocimiento de extremo a extremo con una reducción triple en el tiempo de inferencia.

arxiv arXiv cs.LG · hace 2 h

MKAN: Redes de Kolmogorov-Arnold monótonas con monotonía estricta

MKAN introduce una Red de Kolmogorov-Arnold con monotonía estricta garantizada para todos los valores de parámetros, lograda mediante reparametrización exponencial, pesos de arista positivos y una activación base monótona. Permite el entrenamiento con descenso de gradiente estándar y proporciona un teorema de costo de representación que muestra que cualquier extractor de características puede realizarse con estructura monótona a un tamaño no mayor que el doble del original, ofreciendo una regla de escalado fundamentada para codificadores monótonos.

arxiv arXiv cs.LG · hace 2 h

La dimensionalidad controla cuándo la modularidad ayuda en el aprendizaje continuo

La arquitectura modular mejora el aprendizaje continuo composicional solo en regímenes de baja dimensionalidad donde los subespacios representacionales se alinean parcialmente para tareas similares. En regímenes de alta dimensionalidad, tanto las redes modulares como las únicas tienen un rendimiento similar, lo que indica que el beneficio de la modularidad depende de la dimensionalidad representacional inducida por la escala de inicialización.

arxiv arXiv cs.LG · hace 2 h

KANLib: Un marco modular y eficiente para redes de Kolmogorov-Arnold

KANLib presenta un marco modular, extensible y computacionalmente eficiente para Redes de Kolmogorov-Arnold. Unifica conceptos clave de PyKAN, EfficientKAN y FastKAN, admitiendo reescalado adaptativo de cuadrículas y personalización arquitectónica fina mientras mantiene la compatibilidad con PyTorch. Los experimentos en el conjunto de datos California Housing muestran que KANLib logra una eficiencia competitiva y reproduce el rendimiento establecido de KAN.