Todos los artículos
arxiv arXiv cs.LG · hace 1 h En vivo

VRA-FedSGD: Aprendizaje Federado con Reducción de Varianza para Ruido de Cola Pesada

Los autores proponen VRA-FedSGD, un algoritmo basado en reducción de varianza diseñado para el aprendizaje federado en entornos con ruido de gradiente y comunicación de cola pesada. Este enfoque aborda desafíos prevalentes en el aprendizaje automático a gran escala en redes inalámbricas e implementaciones del Internet de las Cosas. El método emplea reducción de varianza por momento combinada con mapeo no lineal para mitigar el ruido de gradiente de cola pesada. También utiliza un mecanismo de agregación con reducción de varianza para suprimir el ruido de comunicación de cola pesada. Para funciones objetivo no convexas, VRA-FedSGD alcanza una tasa de convergencia media de O(K^(-(p-1)/(2p-1))), donde p es el índice de cola. En el sentido casi seguro, alcanza una tasa de Õ(K^(-(1-1/(p-ε))) para objetivos fuertemente convexos, con ε siendo una constante arbitrariamente pequeña. Experimentos simulados en regresión logística con datos del mundo real verifican la efectividad del algoritmo.

arxiv arXiv cs.LG · hace 1 h En vivo

Los modelos de texto-voz transcriben latentemente el habla en capas intermedias

Los modelos de lenguaje-habla entrelazados pasan por una fase de transcripción implícita donde las palabras habladas se vuelven decodificables como tokens de texto en capas intermedias, a pesar de no tener entrenamiento de reconocimiento de voz. Hasta el 77% de los datos muestran la palabra hablada apareciendo como la principal candidata de predicción de texto, seguida de una transición hacia la predicción de la siguiente palabra basada en texto antes de volver al habla. Este comportamiento está influenciado por el entrenamiento entrelazado y la inicialización del LM de texto, y se correlaciona con el rendimiento del conocimiento hablado.

arxiv arXiv cs.LG · hace 1 h En vivo

Las Costuras de Errores en Aplicaciones Integradas con LLM Revelan Lagunas en las Pruebas

Un asistente de búsqueda de alquiler con funciones de LLM y soporte multi-mercado enfrentó defectos persistentes por parte de los usuarios a pesar de 1,553 pruebas automatizadas exitosas. El análisis de 252 commits de corrección de errores mostró que el 44% de las correcciones ocurrieron en cuatro costuras no vistas: tiempo de ejecución del navegador, mercado no predeterminado, flujos de extremo a extremo y nivel de sistema completo. Una corrección sin una guardia de costura causó que un defecto se enviara dos veces, destacando la necesidad de pruebas dirigidas en estos límites.

arxiv arXiv cs.LG · hace 1 h En vivo

Pipeline de aprendizaje profundo para el reconocimiento y la traducción al hindi de lenguas señas indias

Un modelo de aprendizaje profundo en dos etapas clasifica clips de vídeo de lengua de signos india en palabras en inglés utilizando un transformador VideoMAE ajustado, alcanzando una precisión del 99% en entrenamiento y del 78% en validación sobre un conjunto de datos de 13 clases. Las etiquetas en inglés predichas se traducen a hindi, telugu y bengalí utilizando el modelo multilingüe NLLB-200 de Meta AI, con una demo de Streamlit que permite la inferencia de vídeos subidos por el usuario y la salida entre idiomas.

arxiv arXiv cs.LG · hace 1 h En vivo

El preprocesamiento del lado del prompt mejora la precisión de la IA en el borde

Un marco estructurado de prompts mejora la precisión de los LLM locales en el monitoreo ambiental al transformar datos crudos de sensores en representaciones textuales enriquecidas. Las evaluaciones en conjuntos de datos interiores y exteriores muestran que la precisión del modelo local aumenta de 50.9% a 81.7% en interiores y de 63.7% a 89.3% en exteriores con prompts enriquecidos, mientras mantiene una baja latencia cerca de 0.22 segundos en modo sin cadena de pensamiento.

arxiv arXiv cs.LG · hace 1 h En vivo

El Efecto Tijera: Reducir la diversidad perjudica la transferencia de sustitutos robustos

La diversidad de entrada, una práctica común en ataques de transferencia, mejora el éxito en sustitutos estándar pero lo reduce en los robustos. Este efecto dependiente del régimen, llamado Efecto Tijera, está impulsado por la geometría del gradiente, con las operaciones de redimensionamiento degradando la alineación en modelos robustos. Una regla sin entrenamiento (CG-DI) ajusta la diversidad basada en la consistencia local del gradiente para preservar el éxito del ataque a través de tipos de sustitutos.

arxiv arXiv cs.LG · hace 1 h En vivo

HERTA: Pruebas automatizadas para vulnerabilidades en marcos de cifrado homomórfico completo

HERTA es la primera herramienta de pruebas automatizadas diseñada para marcos de cifrado homomórfico completo. Utiliza pruebas metamórficas con relaciones novedosas derivadas de la semántica del FHE para detectar errores lógicos arraigados que pueden corromper silenciosamente los cálculos cifrados. La evaluación en tres marcos industriales reveló 21 errores previamente desconocidos, varios de los cuales han sido confirmados y corregidos por desarrolladores, con implicaciones significativas para la seguridad y la integridad del servicio.

arxiv arXiv cs.LG · hace 1 h En vivo

Modelos de difusión robustos mediante desruido ponderado inducido por divergencia

Un nuevo método de entrenamiento reemplaza la pérdida MSE en modelos de difusión con una transformación basada en f-divergencia, creando un sustituto robusto que mejora el rendimiento bajo contaminación de datos. El enfoque utiliza construcciones de divergencia local bajo la kernel inversa gaussiana de DDPM, reduciendo el objetivo de entrenamiento a una función unidimensional del error de desruido, con divergencias de influencia acotada suprimiendo errores grandes y mejorando la estabilidad.

arxiv arXiv cs.LG · hace 1 h En vivo

Marco de Optimización Robusta Generativa

La Optimización Robusta Generativa (GRO) introduce un modelo generativo profundo para definir conjuntos de incertidumbre, capturando correlaciones no lineales, asimetría y multimodalidad. Un marco de evaluación de cinco puntos evalúa los conjuntos de incertidumbre basados en redes neuronales en términos de fidelidad de reconstrucción, coincidencia de distribución, regularidad latente, relevancia robusta y tractabilidad computacional, con experimentos que validan la efectividad de GRO en problemas de planificación de producción y localización de instalaciones.

arxiv arXiv cs.LG · hace 1 h En vivo

Presentando la Temperatura de Medición Cuántica para Estabilizar el Entrenamiento de QNN Híbridas

Se introduce un parámetro de escalado aprendible llamado Temperatura de Medición Cuántica (QMT) para reescalar las salidas de medición cuántica en redes neuronales cuánticas híbridas. Este enfoque mitiga la contracción de logits inducida por la medición, mejorando la magnitud y estabilidad del gradiente durante el entrenamiento sin alterar el circuito cuántico ni los operadores de medición. Los experimentos muestran una separación de logits mejorada, fuerza del gradiente y precisión de clasificación en tareas de clasificación de proteínas e imágenes.

arxiv arXiv cs.LG · hace 1 h En vivo

Red de materiales profundos para la homogeneización de compuestos piezoeléctricos

Se propone una red de materiales profundos piezoeléctrica (PDMN) para homogeneizar eficientemente compuestos piezoeléctricos de dos fases. El marco integra relaciones de homogeneización electromecánica en su arquitectura, permitiendo predicciones semi-analíticas informadas por la física con un costo computacional más de tres órdenes de magnitud menor que la simulación numérica directa, validado en compuestos PVDF-LiNbO3 y viscoelásticos-piezoeléctricos bajo carga no lineal.

arxiv arXiv cs.LG · hace 1 h En vivo

Aprendizaje de prompts con restricciones de conceptos para adaptación de CLIP con pocos ejemplos

CCPL introduce un marco ligero que ancla los prompts de clase a prototipos de conceptos congelados, mejorando la adaptación de CLIP con pocos ejemplos. Logra un mejor rendimiento de base a nuevo en DTD y EuroSAT en comparación con CoOp, con ganancias consistentes gracias a la regularización de conceptos en el espacio de texto, aunque los resultados varían según el conjunto de datos y el protocolo.

arxiv arXiv cs.LG · hace 1 h En vivo

Juegos de campo medio robustos estacionarios bajo desajustes del modelo

Este artículo introduce un marco de juego de campo medio estacionario que incorpora directamente la incertidumbre distribucional del modelo en la dinámica acoplada por población. Establece un principio de programación dinámica robusta, demuestra la existencia de un equilibrio robusto estacionario y presenta el primer algoritmo con garantías de convergencia. La solución de campo medio aproxima los equilibrios de poblaciones finitas y proporciona límites de error explícitos no asintóticos bajo incertidumbre del modelo.

arxiv arXiv cs.LG · hace 1 h En vivo

Clasificación de tareas sin entrenamiento para la fusión de modelos multi-tarea

SiM permite el enrutamiento dinámico en la fusión de modelos multi-tarea sin entrenamiento adicional ni acceso a IDs de tarea. Utiliza aproximaciones basadas en SVD y proyecta las entradas de prueba sobre variedades de tareas precalculadas para enrutar las entradas a los expertos relevantes, mejorando el rendimiento y reduciendo la brecha con los niveles de expertos individuales.

arxiv arXiv cs.LG · hace 2 h

La Destilación On-Policy Ponderada por Importancia Aborda el Sesgo de Posición

La Destilación On-Policy (OPD) sufre de sesgo de posición donde los tokens posteriores proporcionan una supervisión deficiente. Introducimos la Destilación On-Policy Ponderada por Importancia (IW-OPD), que asigna pesos basados en la discrepancia de distribución, priorizando los tokens iniciales. IW-OPD converge más rápido y logra ganancias de rendimiento de hasta 6.9 puntos en AIME-2025.

arxiv arXiv cs.LG · hace 2 h

Modelos Bayesianos escalables para la detección de fulguraciones estelares

Un marco de sustitución generativo que utiliza un Autoencoder Variacional aproxima las priors de Procesos Gaussianos, evitando costosas operaciones de covarianza. La arquitectura VAE+Hidden Markov Model permite una detección rápida y escalable de fulguraciones estelares en grandes series temporales astronómicas, igualando a los modelos exactos en fidelidad estructural mientras reduce significativamente el tiempo computacional.

arxiv arXiv cs.LG · hace 2 h

Los modelos de lenguaje pequeños superan a los LLM de vanguardia en la extracción de relaciones

Un modelo Qwen2.5 de 0.5B parámetros ajustado finamente alcanza un micro-F1 de 0.83 en la extracción de relaciones de dominio general, superando a GPT-5.4 y Claude Sonnet 4.6 en modo zero-shot. En benchmarks literarios, alcanza 0.92 en el conjunto de datos Biográfico, superando a GPT-5.4 y excediendo a los modelos de vanguardia en precisión, demostrando que los modelos pequeños adaptados a la tarea pueden ofrecer un alto rendimiento con una sobrecarga mínima de hardware y privacidad.

arxiv arXiv cs.AI · hace 2 h

Programación en línea consciente de la geometría para el servicio de LLM

Un nuevo algoritmo de programación, Smallest Volume First (SVF), reduce la latencia de inferencia de LLM optimizando la gestión de la caché de claves y valores. El análisis teórico muestra una relación competitiva en el peor caso reducida de 48 a 5, con SVF de 1 bit logrando un rendimiento sólido utilizando información mínima. Las evaluaciones en modelos Llama-3.1 confirman mejoras tanto en la latencia promedio como en la latencia de cola, con el enfoque integrado en vLLM.

arxiv arXiv cs.AI · hace 2 h

BabelJudge: Midiendo la confiabilidad de LLM-as-a-Judge en múltiples idiomas y trayectorias de agentes

BabelJudge introduce un marco de código abierto para medir cuatro modos clave de sesgo en jueces LLM a través de idiomas y trayectorias de agentes. Revela una caída significativa en la confiabilidad del hindi al suajili: de 0.714 a 0.550, destacando una degradación intercultural invisible para la precisión bruta. El marco permite evaluaciones conscientes del sesgo sin etiquetas humanas, utilizando perturbaciones controladas para crear etiquetas doradas conocidas, y se extiende a flujos de trabajo agénticos con nuevas métricas sobre precisión de herramientas y detección de alucinaciones.