Todos los artículos
arxiv arXiv cs.LG · hace 3 h

SAFER: Agrupación adaptativa guiada por fiabilidad para la adaptación en tiempo de prueba robusta

Los autores abordan la fragilidad de la adaptación en tiempo de prueba (TTA) bajo flujos contaminados adversarialmente proponiendo SAFER, un marco sin entrenamiento para TTA robusta. SAFER actúa como un envoltorio de augmentación que reemplaza las predicciones de vista única con un predictor agrupado guiado por fiabilidad para estabilizar las actualizaciones en línea. Para cada muestra de prueba, el método genera augmentaciones estocásticas y agrega sus salidas utilizando agrupamiento ponderado por correlación combinado con detección de valores atípicos. También se introduce una extensión de mezcla adaptativa, que ajusta la ponderación entre entradas originales y aumentadas basándose en señales de desacuerdo de características para preservar el rendimiento limpio. Los investigadores evaluaron SAFER en los benchmarks PACS, VLCS y OfficeHome bajo ataques PGD a varias tasas. Los resultados indican que SAFER mejora la resiliencia de los métodos TTA contra ataques adversariales mientras mantiene una precisión competitiva en datos limpios.

arxiv arXiv cs.LG · hace 3 h

El aprendizaje de diccionarios activados parcimoniosamente vincula la dispersión y el almacenamiento con los modelos generativos

El artículo introduce el aprendizaje de diccionarios activados parcimoniosamente (PADL), un método que impone una regularización global sobre el número de átomos del diccionario activados. Demuestra que PADL es equivalente a la estimación de máxima a posteriori bajo un modelo generativo estructurado con variables latentes auxiliares. Esta equivalencia permite derivar garantías de generalización difíciles de obtener a partir de la formulación original. Los autores proporcionan una caracterización analítica del compromiso entre dispersión, costo de almacenamiento y precisión de reconstrucción. Este marco permite la estimación basada en datos de hiperparámetros óptimos sin ajuste manual. Se desarrolla un algoritmo PADL eficiente e interpretable basado en esta conexión teórica. Los resultados experimentales muestran un rendimiento mejorado de reconstrucción bajo niveles comparables de dispersión en benchmarks visuales. El método también demuestra utilidad práctica al acelerar la inferencia para modelos de visión y lenguaje.

arxiv arXiv cs.LG · hace 3 h

ORBIT: Dirección de comportamiento multiatributo sin entrenamiento mediante rotación de subespacio ortogonal

Los autores presentan ORBIT, un método sin entrenamiento para controlar simultáneamente múltiples atributos de comportamiento en modelos de lenguaje grandes. Las técnicas existentes de dirección de activación luchan con el control multiatributo debido al desequilibrio de norma y la cancelación direccional al usar suma vectorial ingenua. ORBIT aborda esto construyendo un subespacio conjunto a partir de planos de dirección por atributo mediante descomposición en valores singulares. Luego aplica una única rotación que preserva la norma dentro de ese subespacio hacia una dirección combinada objetivo. El método incorpora enmascaramiento adaptivo por token para identificar correcciones necesarias en cada posición y un impulso aditivo opcional para proyecciones débiles. Para evaluar el enfoque, los autores presentan TraitFactory, un punto de referencia centrado en tendencias de comportamiento en lugar de estilo superficial. Los experimentos en modelos Llama-3.2-3B, Qwen-2.5-7B y Llama-3.1-8B demuestran que ORBIT logra una dirección más fuerte y equilibrada que las líneas base mientras preserva la coherencia de salida.

arxiv arXiv cs.LG · hace 3 h

Evaluación sin referencia de la consistencia física en la generación de video basada en modelos del mundo

Los autores introducen medidas sin referencia para evaluar la consistencia física de los videos generados combinando evaluaciones de fidelidad relativa y absoluta. Este enfoque aborda la brecha en la fidelidad física que a menudo impide que herramientas de generación de video como WorldGym o WorldEval reproduzcan con precisión las tasas de éxito de tareas del mundo real para modelos VLA. A diferencia de los métodos existentes que requieren votación humana costosa o referencias ground-truth no disponibles, el nuevo marco utiliza DROID-SLAM y SEA-RAFT para cuantificar inconsistencias. Motivado por WorldScore, la evaluación de consistencia relativa filtra videos para mejorar las tasas de éxito de tareas en más del 8%. Además, la evaluación absoluta permite la localización espaciotemporal para visualizar cuándo y dónde ocurren los artefactos físicos en el contenido generado.

arxiv arXiv cs.AI · hace 3 h

Muestreo de posteriores con annealing de flujo para regresión en espacio de funciones y problemas inversos

FAPS es el primer marco de muestreo de posteriors en espacio de funciones que unifica la regresión de procesos estocásticos y los problemas inversos de EDP. Utiliza priors de flow-matching preentrenados y corrección de Langevin con preconditioning de covarianza de bajo rango para habilitar inferencia posterior eficiente y precisa a partir de datos dispersos y ruidosos, con cuantificación coherente de la incertidumbre.

media r/LocalLLaMA · hace 3 h

Actualización de Ornith-1.0-35B GGUF: injerto nativo de descodificación especulativa MTP + métricas completas de servicio/TTFT/contexto largo (llama.cpp, tp=1)

Este artículo informa sobre una actualización del modelo Ornith-1.0-35B, que presenta una cabeza de borrador MTP nativa injertada en el cuerpo IQ4_XS para la descodificación especulativa auto-iniciada en llama.cpp. El autor proporciona métricas de rendimiento integrales que incluyen throughput, tiempo hasta el primer token (TTFT) y capacidades de contexto largo en una única GPU RTX PRO 6000 Blackwell.

arxiv arXiv cs.LG · hace 3 h

Kiwano: Un kit de herramientas PyTorch de código abierto para la investigación en verificación del hablante

Los investigadores han presentado Kiwano, un kit de herramientas de código abierto diseñado para impulsar la investigación y la evaluación en el campo de la verificación del hablante. Construido sobre PyTorch, este marco ligero pero extensible proporciona recetas estandarizadas, modelos preentrenados e integración de arquitecturas ampliamente utilizadas. El proyecto enfatiza la reproducibilidad al ofrecer pipelines de entrenamiento transparentes, protocolos de evaluación unificados y líneas base listas para usar en múltiples corpus. Más allá de las capacidades estándar de entrenamiento e inferencia, Kiwano incluye herramientas especializadas para la evaluación comparativa, el seguimiento de experimentos y el prototipado rápido de nuevas arquitecturas. Para fomentar la adopción por parte de la comunidad, el kit de herramientas se distribuye bajo la licencia Apache 2.0 y viene acompañado de documentación completa y experimentos reproducibles. Al reducir las barreras de entrada y estandarizar las prácticas de evaluación, Kiwano tiene como objetivo servir como un recurso valioso tanto para la investigación académica como para el desarrollo aplicado. El proyecto está disponible públicamente en GitHub en https://github.com/kiwano-toolkit/kiwano/.

arxiv arXiv cs.LG · hace 3 h

Entrenamiento Multirred para Generación Molecular usando Redes Neuronales Gráficas

Los autores introducen una estrategia de entrenamiento multirred para abordar los altos costos computacionales y la inestabilidad asociados con el modelado de sistemas moleculares bioquímicos a resolución completa. Este enfoque aprovecha la optimización a baja resolución para acelerar el aprendizaje en resoluciones más altas mediante la transferencia de parámetros entre diferentes discretizaciones. Para representaciones moleculares basadas en grafos, el método transfiere progresivamente los parámetros desde un grafo grueso hacia grafos cada vez más finos utilizando muestreo ascendente con caminata aleatoria sesgada. En la generación molecular 3D, las estructuras se voxelizan a múltiples resoluciones, lo que permite preentrenar primero un Autoencoder Variacional Condicional (CVAE) de resolución gruesa. Los parámetros convolucionales compatibles con la forma se transfieren luego del modelo grueso para inicializar un CVAE de resolución fina. Los experimentos numéricos en la generación de ligandos 3D condicionados por receptores demuestran que este método acelera la convergencia en comparación con el entrenamiento desde cero. Además, el estudio muestra que el entrenamiento multirred mejora las capacidades de generalización para tareas de generación molecular.

arxiv arXiv cs.LG · hace 3 h

HyperAdapter: Adaptación de hiperaristas estructuradas para el ajuste fino eficiente en parámetros de transformadores de visión

Los autores proponen HyperAdapter, un método novedoso de ajuste fino eficiente en parámetros que adapta transformadores de visión en el espacio de hiperaristas en lugar del espacio de tokens. Los métodos existentes basados en adaptadores típicamente realizan adaptaciones independientes para cada token, lo que pasa por alto las relaciones estructuradas y puede llevar a actualizaciones redundantes. HyperAdapter construye un hipergrafo suave sobre los tokens de ViT utilizando asignaciones basadas en prototipos para permitir una adaptación consciente del grupo. La arquitectura agrega las características de los tokens en representaciones latentes de hiperaristas y aplica una adaptación ligera de cuello de botella a nivel de hiperarista. Las actualizaciones se difunden luego de vuelta a los tokens individuales a través de la estructura de incidencia del hipergrafo, inyectando un sesgo inductivo estructural explícito. Experimentos extensos en diversos benchmarks visuales demuestran que este enfoque supera consistentemente a las líneas base fuertes de PEFT bajo presupuestos de parámetros comparables. Los resultados destacan ganancias significativas en tareas que requieren razonamiento estructurado y sugieren que la elección del espacio de adaptación es una dimensión crítica para la transferencia eficiente.

arxiv arXiv cs.LG · hace 3 h

CNN eficiente con aprendizaje por transferencia para detección de múltiples cánceres

Un estudio presenta una red neuronal convolucional ligera mejorada con aprendizaje por transferencia para la detección de múltiples cánceres utilizando imágenes biomédicas. La arquitectura busca reducir la complejidad computacional mientras mantiene un alto rendimiento de clasificación para su implementación en entornos con recursos limitados. Los investigadores evaluaron el modelo en tres conjuntos de datos de tumores que comprenden resonancias magnéticas cerebrales y tomografías computarizadas de pulmón y riñón. El sistema logró exactitudes de prueba del 90,85%, 98,64% y 99,92% para cáncer cerebral, pulmonar y renal respectivamente, mediante validación cruzada estratificada de cinco pliegues. Se empleó aprendizaje por transferencia preentrenando en un tipo de cáncer y ajustando finamente en otros, requiriendo solo 20 épocas adicionales para igualar a los modelos entrenados desde cero. El proceso de ajuste fino actualiza la parte de clasificación de la CNN y toma aproximadamente 0,014 segundos por imagen por época en una NVIDIA GeForce GTX 960. Las evaluaciones comparativas demuestran que este modelo supera a arquitecturas de última generación como Xception, VGG16, VGG19, MobileNetV2 y DenseNet121.

arxiv arXiv cs.LG · hace 3 h

P4IR: El aprendizaje por refuerzo mejora los sistemas automatizados de cumplimiento de código

Un nuevo marco llamado P4IR aborda el problema de las reglas alucinadas en sistemas automatizados de cumplimiento de código basados en modelos de lenguaje grandes. Este enfoque de dos etapas primero emplea ajuste fino supervisado para inyectar conocimiento del dominio en el modelo. Luego utiliza Group Relative Policy Optimization para mejorar la precisión de los esqueletos de código de alto nivel generados. El método logró reducciones de hasta 23,8% en la distancia de edición de árboles y 38,6% en la distancia de Levenshtein a nivel de token en comparación con las líneas base de ajuste fino supervisado. El análisis comparativo muestra que P4IR supera a modelos líderes como Claude Opus, GPT-5.2 y Qwen-3-Max en configuraciones zero-shot. Además, la etapa de aprendizaje por refuerzo produjo una reducción estadísticamente significativa en falsos positivos. Esta combinación de técnicas ofrece un camino hacia un cumplimiento de código automatizado más confiable.

arxiv arXiv cs.LG · hace 3 h

Recuperación del subespacio de señal asintótica en modelos de atención softmax

Este estudio investiga los principios teóricos detrás de los mecanismos de atención softmax analizando un modelo estilizado donde un vector de consulta se aprende mediante ascenso de gradiente estocástico. Los autores explotan la simetría del modelo para derivar un objetivo poblacional y caracterizar la ecuación diferencial ordinaria límite que rige la dinámica de aprendizaje. Mediante el empleo de herramientas de aproximación estocástica y teoría de sistemas dinámicos, establecen una conexión rigurosa entre el algoritmo de aprendizaje estocástico y su límite determinista. Bajo supuestos adecuados de escalado en altas dimensiones y condiciones estándar del tamaño de paso, la investigación demuestra que la consulta aprendida converge casi seguramente al subespacio de señal unidimensional. Esta convergencia implica que la consulta recupera asintóticamente la dirección informativa latente hasta una ambigüedad de signo intrínseca. Los hallazgos proporcionan una base teórica para comprender la atención como un procedimiento de extracción de señal en entornos ruidosos de alta dimensión.

arxiv arXiv cs.LG · hace 3 h

QeHDC: Computación hiperdimensional basada en enlace mejorado por cuántica y construcción de SuperClase

Los autores proponen QeHDC, un marco novel que extiende la Computación Hiperdimensional clásica aprovechando propiedades mecánicas cuánticas para mejorar la eficiencia computacional. Este enfoque utiliza un método de entrenamiento de un solo pase que emplea codificación sinusoidal y cuántica para proyectar datos clásicos en estados de amplitud cuántica. Una innovación clave es la introducción de una operación de enlace cuántico basada en estados de referencia, realizada mediante circuitos cuánticos específicos. Además, el marco implementa una estrategia de generación de superclases basada en matrices de densidad utilizando descomposición de autovalores para extraer características críticas del estado cuántico. Estos mecanismos permiten representaciones de clase más precisas y robustas para tareas de clasificación. Las evaluaciones experimentales en conjuntos de datos estándar demuestran un rendimiento superior en comparación con métodos clásicos tradicionales y métodos existentes mejorados por cuántica. Los resultados también destacan la robustez del enfoque ante el ruido y su viabilidad computacional, sugiriendo beneficios prácticos para futuros paradigmas inspirados en la cuántica.

arxiv arXiv cs.LG · hace 3 h

GaRA: Generación de LoRA consciente del grafo para mejorar LLMs en tareas de grafos

Las redes neuronales gráficas a menudo presentan transferibilidad limitada debido a su estrecho acoplamiento con espacios de características específicos del conjunto de datos, mientras que los modelos de lenguaje ofrecen generalización flexible a través de una interfaz unificada. Los métodos existentes para adaptar modelos de lenguaje a tareas de grafos tienen dificultades para codificar información de todo el grafo, lo que puede provocar una pérdida significativa de información y una comprensión subóptima. Para abordar esta limitación, los autores proponen GaRA, un nuevo modelo de generación de LoRA consciente del grafo que implementa un paradigma de inyección de información a nivel de pesos. Este enfoque genera actualizaciones de peso específicas para la tarea condicionadas por las estructuras originales del grafo, permitiendo que interactúen directamente con las representaciones ocultas. El método restringe la norma de estas actualizaciones generadas para inyectar información de todo el grafo mientras evita el sesgo de optimización inherente a la generación estándar de pesos. Los estudios empíricos demuestran que GaRA supera consistentemente a los métodos base en varias tareas de aprendizaje de grafos zero-shot.

arxiv arXiv cs.LG · hace 3 h

Los LLMs Determinan la Estructura Causal Mediante Lógica de Hacer Diferencia

El artículo aborda el enigma de cómo los modelos de lenguaje grandes adquieren estructura causal a pesar de las limitaciones de formalismos estándar como el enfoque intervencionista de Judea Pearl y el marco de Neyman-Rubin. Argumenta que los LLMs utilizan un método inductivo específico conocido como inducción variacional, que se basa en la lógica de hacer diferencia. Durante el entrenamiento, los modelos procesan grandes cantidades de texto de contextos diversos para identificar lo que constituye un factor de diferencia o un factor de indiferencia dentro de las secuencias de palabras. El análisis examina cómo los componentes arquitectónicos, específicamente las incrustaciones de tokens y los mecanismos de autoatención, facilitan este proceso de inducción variacional. Este marco lógico paralela fundamentalmente el método experimental utilizado en la ciencia. En ambos casos, las relaciones causales se derivan variando sistemáticamente circunstancias individuales para observar su influencia en un fenómeno.

arxiv arXiv cs.LG · hace 3 h

Escapando de la Trampa de la Varianza: Dinámica Libre de Jacobiano para Optimización Bínivel de Búsqueda de Raíces

Los autores identifican un defecto crítico denominado la Trampa de la Varianza, que surge cuando los problemas estocásticos de búsqueda de raíces se fuerzan a marcos de minimización mediante residuos al cuadrado. Los algoritmos estándar de minimización bínivel requieren estimar hipergradientes que involucran Jacobianos implícitos que actúan como amplificadores de ruido en entornos estocásticos. Para abordar esto, el paper formaliza la Optimización Bínivel de Búsqueda de Raíces (RF-BO) como una clase de problema distinta para evitar esta patología. Se propone una solución libre de Jacobiano utilizando Aproximación Estocástica de Dos Escalas de Tiempo (TTSA) para actualizar directamente a lo largo del error de raíz. El estudio proporciona las primeras garantías de convergencia no asintóticas para TTSA en este entorno bajo ruido markoviano. Los experimentos muestran una ganancia de precisión top-1 del 2.6% en SimCLR y una convergencia 17 veces más rápida en el control de EDOs no lineales en comparación con las líneas base. Además, el marco logra una estabilidad de entropía significativamente mejorada en el aprendizaje por refuerzo y una mejora de calidad del 11.1% en la modelización generativa.

arxiv arXiv cs.LG · hace 3 h

RQ-TTSA: Optimización bilevel robusta consciente de la distribución con actualizaciones Huber guiadas por cuantiles

Los autores proponen RQ-TTSA, un marco consciente de la distribución diseñado para abordar la inestabilidad en la optimización bilevel causada por ruido estocástico de colas pesadas. A diferencia de las técnicas existentes de reducción de varianza que dependen de comprobaciones miope de magnitud, este método utiliza búferes de gradiente históricos para estimar cuantiles móviles para recorte adaptativo al estilo Huber. Este enfoque preserva la geometría de optimización local mientras acota estrictamente la varianza efectiva bajo supuestos no convexos-estrictamente convexos con ruido de varianza infinita. El análisis teórico deriva una tasa de convergencia de O(T^(-(p-1)/(3p-2))) que recupera la dependencia óptima del parámetro de colas pesadas p. Las evaluaciones empíricas en seis tareas diversas, incluyendo benchmarks de visión y aprendizaje por refuerzo offline, muestran un rendimiento superior consistente frente a las líneas base más avanzadas. RQ-TTSA elimina los picos de divergencia y asegura una convergencia estable con una sobrecarga computacional despreciable de aproximadamente 2.7 por ciento.

arxiv arXiv cs.LG · hace 3 h

Un VCS de Atari diferenciable para IA explicable

Se presenta un emulador completamente diferenciable del VCS Atari 2600, que reproduce los 64 juegos de ALE con precisión bit a bit en la RAM y la salida de pantalla. El sistema permite una IA explicable basada en gradientes al proporcionar una verdad fundamental compleja y totalmente conocida, con implementaciones validadas en Julia y JAX frente a un emulador de referencia y soporte para entrenamiento de alto rendimiento en GPUs.

arxiv arXiv cs.LG · hace 3 h

Deezer implementa un sistema de generación de descripciones para listas de reproducción basado en LLM

Deezer ha implementado un sistema automático de generación de descripciones para listas de reproducción impulsado por modelos de lenguaje grandes para mejorar su función Daily Mix. Esta tecnología genera descripciones en lenguaje natural para listas de reproducción personalizadas, ayudando a los usuarios a comprender el contenido detrás de cada recomendación. El sistema aprovecha los avances recientes en LLM para procesar diversas fuentes de datos mientras mantiene un estricto control sobre la calidad de la salida. Ya está activo para millones de usuarios, mejorando significativamente las métricas generales de interacción. La implementación destaca cómo el encuadre semántico influye en la percepción del usuario en experiencias personalizadas en línea. Esta iniciativa aborda el desafío de escalar la generación de descripciones de listas de reproducción de manera efectiva.