Todos los artículos
arxiv arXiv cs.LG · hace 3 h

QCPIKAN: Kolmogorov-Arnold Network de Física Informada Cuántico-Clásica para EDPs

QCPIKAN es la primera red de Kolmogorov-Arnold de física informada cuántico-clásica diseñada para resolver ecuaciones diferenciales parciales. Utiliza capas KAN basadas en polinomios de Chebyshev y circuitos cuánticos parametrizados para incrustar restricciones físicas durante el entrenamiento, logrando convergencia exponencial del error y reducción de la dispersión numérica. Validado en escenarios de filtración en medios porosos, supera a las redes neuronales cuántico-clásicas existentes en precisión de predicción, control de errores y seguimiento dinámico.

arxiv arXiv cs.LG · hace 3 h

El modelado híbrido predice la dinámica microbiana en sistemas de suelo

Un nuevo marco de modelado híbrido utiliza datos genómicos y redes neuronales para predecir parámetros biocinéticos en modelos de rotación de materia orgánica del suelo. Incorpora restricciones ecológicas para garantizar una dinámica microbiana realista, incluso para variables no observadas, y supera a los métodos existentes tanto en conjuntos de datos sintéticos como reales con mínimos datos de entrenamiento.

arxiv arXiv cs.LG · hace 3 h

Anillo cuántico de reducción total: ventajas de comunicación y privacidad para el aprendizaje distribuido

Una versión cuántica del anillo de reducción total reduce la comunicación por enlace por un factor de dos utilizando entrelazamiento y codificación superdensa, sin alterar los cálculos del modelo o de los gradientes. Logra una agregación segura desde el punto de vista teórico de la información mediante entrelazamiento verificado, con una sobrecarga de 2x en copias GHZ, y proporciona ventajas de comunicación exponenciales en la detección de conflictos de gradientes para tareas específicas de auditoría.

arxiv arXiv cs.LG · hace 3 h

Q-learning robusto para control de campo medio bajo incertidumbre de Wasserstein

El artículo presenta un algoritmo de Q-learning robusto para problemas de control de campo medio en tiempo discreto con incertidumbre de Wasserstein en ruido común. Combina cuantificación y proyección con una reformulación dual de Wasserstein y establece convergencia con cotas de tiempo finito tanto para esquemas síncronos como asíncronos. Los experimentos numéricos en modelos de riesgo sistémico y epidemias demuestran la compensación entre robustez y rendimiento, así como la convergencia de la implementación asíncrona.

arxiv arXiv cs.LG · hace 3 h

Reducción de la varianza en el aprendizaje por diferencia temporal

El aprendizaje por diferencia temporal reduce la varianza agregando sobre múltiples trayectorias. El estudio muestra que la varianza de TD está acotada asintóticamente por encima de los estimadores de Monte Carlo, y las actualizaciones de horizonte más corto reducen la varianza para muestras fijas. La Estimación Directa de la Ventaja actúa como una variable de control ajustada por regresión, logrando límites de varianza más estrictos que TD en grandes muestras.

arxiv arXiv cs.LG · hace 3 h

¿Entrenar, recuperar o ambos? Comparación directa sobre la citación estatutaria para la RTA de Ontario

Una comparación de cuatro brazos muestra que la recuperación es esencial para una citación estatutaria precisa bajo la Ley de Arrendamientos Residenciales de Ontario. El modelo híbrido SFT+RAG logra un exact-match de 0.481 con cero alucinaciones, superando a los modelos base y solo SFT, e iguala a una pipeline que utiliza modelos más grandes y especializados sin necesidad de más datos o conjuntos de entrenamiento más grandes. Los resultados se basan en un conjunto de evaluación del mundo real pequeño y verificado por humanos y son preliminares.

arxiv arXiv cs.LG · hace 3 h

Protocolo VLM-as-3D-Judge de-biased para Generación de Muebles

Un protocolo de juez basado en VLM de-biased especializa TRELLIS en la generación de muebles mediante adaptación ligera. El protocolo aborda modos de fallo como sobrecarga de imagen y ocultamiento de geometría, con calibración que muestra tasas de victoria de 0.83–1.0 y simetría base-vs-base en 0.5. Entre seis métodos de adaptación, la reparación del condicionador bajo degradación severa alcanza paridad con el modelo base, mientras que ningún método supera el objetivo de tasa de victoria del 65%.

arxiv arXiv cs.LG · hace 3 h

CRAX: Benchmarking rápido y seguro de aprendizaje por refuerzo

CRAX introduce un benchmark de seguridad de alta fidelidad y rápido para el aprendizaje por refuerzo utilizando MuJoCo XLA. Logra aceleraciones de hasta 100x sobre benchmarks basados en CPU mediante vectorización y aceleración de hardware, presentando seis conjuntos de entornos y tres tareas específicas del agente en tres niveles de dificultad. La evaluación de seis métodos de RL seguro muestra que ningún enfoque domina, destacando los compromisos entre rendimiento y seguridad, con el aprendizaje por currículo y la transferencia de seguridad mejorando los resultados.

media Latent Space · hace 3 h

Por qué la escalabilidad de IA es un problema de sistemas, no solo una carrera de GPUs

El debate sobre la escalabilidad de IA pasa por alto que maximizar la utilización de FLOP del modelo es más crítico que comprar más GPUs. Fronteras como xAI operan con MFU inferior al 10%, mientras que modelos históricos lograron entre 21% y 70% de MFU, lo que indica ineficiencias sistémicas en la programación, la red y la gestión del clúster. Anjney Midha argumenta que la infraestructura de IA debe evolucionar hacia sistemas eficientes, alineados y responsables, con el 'output maxing' emergiendo como una nueva disciplina para la IA de frontera.

media Latent Space · hace 3 h

Midjourney lanza un escáner de ultrasonido y TC de cuerpo completo

Midjourney ha anunciado un escáner de ultrasonido y TC de cuerpo completo, calificándolo como la primera nueva modalidad de imagen médica de cuerpo entero en 50 años. El prototipo, conocido como Midjourney Scanner, utiliza 8.960 transductores distribuidos en 40 sistemas dentro de un anillo de 70 cm para capturar datos a 17 GB/s, con una resolución declarada de hasta 0,5 mm y un objetivo de 358.000 elementos ultrasónicos. El sistema se encuentra actualmente en la Gen 1, con escaneos que toman 20 minutos y sin uso de IA en la generación de imágenes aún, aunque las futuras versiones buscan integrar IA y alcanzar 50.000 escáneres al permitir 1.000 millones de escaneos mensuales.

arxiv arXiv cs.LG · hace 3 h

El RL guiado por discriminador corrige el emparejamiento de flujos con recompensas alineadas a los datos

El RL guiado por discriminador (DRL) utiliza un espacio de representaciones preentrenado para entrenar un discriminador que separa los datos reales de las muestras generadas por el modelo. Su logit se usa como recompensa en el RL con regularización KL, alineando las salidas del modelo con la realismo visual y semántico sin preferencias humanas. DRL mejora FID y FD semántico en modelos como SiT y JiT, y mejora la frontera de Pareto entre preferencia y fidelidad.

arxiv arXiv cs.LG · hace 3 h

Preentrenamiento de Reflexión de Seguridad para LLMs

El Preentrenamiento de Reflexión de Seguridad inserta breves reflexiones de seguridad en los datos de preentrenamiento para habilitar la auto-monitoreo en modelos de lenguaje. Los experimentos con modelos de 1.7B en FineWeb-Edu muestran una mayor precisión de seguridad y tasas reducidas de éxito de ataque, con MedSafetyWorld demostrando que el método previene mejor que la filtración o reescritura de datos que los comportamientos inseguros se generalicen a partir de datos seguros.

arxiv arXiv cs.LG · hace 3 h

Act2Answer evalúa la retención de conocimiento en modelos de visión-lenguaje-acción

Act2Answer introduce un protocolo ligero para evaluar la retención de conocimiento del sentido común y del mundo en modelos VLA, requiriendo que los agentes respondan preguntas mediante acciones de colocación de objetos. Un estudio a gran escala de 7 modelos VLA y 9 líneas base VLM revela que los VLA funcionan bien en conceptos simples pero muestran brechas mayores en categorías semánticas ricas en comparación con sus VLMs fuente, con el co-entrenamiento VQA mejorando la retención de conocimiento y señales pico relevantes para la respuesta observadas en las capas intermedias de VLA.

arxiv arXiv cs.LG · hace 3 h

Compensaciones del tamaño de lote en métodos de momento estocástico

Los métodos de momento estocástico como HB y ASGD muestran compensaciones distintas del tamaño de lote en eficiencia computacional y tiempo de ejecución secuencial. HB mantiene la eficiencia computacional a nivel de SGD en una ventana de tamaño de lote hasta un factor \sqrt{\kappa} mayor que el tamaño crítico de lote de SGD, mientras que ASGD mejora la eficiencia para lotes pequeños en espectras que decaen rápidamente pero la sacrifica para lotes más grandes a cambio de reducir el tiempo de ejecución secuencial.

arxiv arXiv cs.LG · hace 3 h

AUC entre conjuntos de datos para la evaluación realista de detectores de deepfake

Una nueva métrica, AUC entre conjuntos de datos (Cross-AUC), aborda las limitaciones de las evaluaciones tradicionales de AUC al promediar los AUC por dominio e incorporar la polarización de las predicciones mediante la Distancia de Wasserstein. Refleja mejor el rendimiento en el mundo real bajo cambios de dominio y proporciona interpretaciones claras sobre la degradación del detector.

arxiv arXiv cs.LG · hace 3 h

AGDN: Resolviendo el problema del viajante con difusión de grafos anisotrópica

AGDN introduce un marco de red neuronal de grafos que aborda los priores topológicos y la pérdida de conectividad en TSP. Utiliza una matriz de transición MixScore y difusión anisotrópica para permitir un intercambio eficiente de información, superando a los métodos existentes en diversos tamaños de problema y distribuciones mientras mantiene un tiempo de cómputo competitivo. La implementación está disponible en GitHub.

arxiv arXiv cs.LG · hace 3 h

Marco de Anotación Automatizada para Disparadores AEB Retardados y Falsos

Un nuevo sistema automatizado aborda el desequilibrio extremo de clases y el ruido asimétrico en las etiquetas de los datos de Frenado Automático de Emergencia. Utiliza aumento de datos dirigido y supresión de ruido para identificar disparadores raros retardados y falsos con un 80% de mejora en la recuperación y una reducción del 50% en el esfuerzo de anotación manual, permitiendo la auto-mejora continua en la optimización del AEB a bordo del vehículo.

arxiv arXiv cs.LG · hace 3 h

RL enfocado en decisiones para carga de vehículos eléctricos con tiempos de salida desconocidos

Un nuevo marco de RL enfocado en entrenamiento conjuntamente un pronosticador y un controlador de carga para manejar tiempos de salida desconocidos de vehículos eléctricos. Al alinear la precisión del pronóstico con la calidad de las decisiones posteriores, el método logra hasta un 14% más de recompensa total y una reducción del 55% en energía no suministrada en comparación con los enfoques estándar de RL.

arxiv arXiv cs.LG · hace 3 h

Geometría de Autovalores Generalizados de Ataques Adversarios Semánticos

Una nueva teoría modela cómo las paráfrasis semánticas pueden engañar a los clasificadores de sentimiento financiero analizando el desplazamiento en el peor caso de las representaciones del modelo objetivo. El índice de atacabilidad λ*(x) se deriva del mayor autovalor generalizado de un lápiz matricial (A,B), ofreciendo predicciones de forma cerrada y certificados de robustez para salidas afines. El marco conecta la teoría de perturbaciones continuas con la búsqueda discreta de paráfrasis, con validación empírica en clasificadores de texto financiero reales.