Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 108

Los sumideros de atención y el colapso son consecuencias universales del enrutamiento basado en contenido

El estudio demuestra que los sumideros de atención, el colapso de representación y la estratificación de normas no son exclusivos de las arquitecturas transformer, sino consecuencias inherentes del enrutamiento basado en contenido bajo una métrica de similitud fija. Establece una identidad que muestra las funciones de atención softmax como agregación ponderada por Boltzmann sobre distancias euclidianas con normas de clave constantes, volviéndolo ciego a la magnitud de la clave debido a la omisión de un término de norma específico. Este marco predice que cualquier enrutador que utilice una métrica mal ajustada a sus representaciones compensará concentrando el enrutamiento y colapsando las representaciones enrutadas. Los autores validan esta hipótesis en diversos modelos, incluidos nueve transformers preentrenados, redes de atención gráfica, modelos de espacio de estado selectivo, mezcladores recurrentes y capas residuales aprendidas. Los resultados experimentales confirman que todas las arquitecturas probadas exhiben esta misma firma de colapso independientemente de su dominio o estructura específicos. Además, las ablaciones dentro del modelo aíslan el mecanismo de enrutamiento como la causa principal en lugar de dinámicas de entrenamiento incidentales. Se muestra que la aparición de este fenómeno depende de la fuerza del freno posicional que acompaña a la puntuación de contenido, lo cual puede desplazar el efecto a lo largo de su rango. Sin embargo, el mecanismo subyacente permanece invariante y no requiere estratificación de normas, ya que los enrutadores con claves normalizadas por norma exhiben el mismo comportamiento de concentración.

arxiv arXiv cs.LG · hace 3 h

Primer análisis de tiempo finito de Adam clásico para optimización no convexa no suave

Este estudio presenta el primer análisis de convergencia en tiempo finito para el optimizador Adam clásico, abordando específicamente su comportamiento en configuraciones de optimización no convexa no suave. Investigaciones anteriores ignoraron en gran medida el término de corrección de sesgo de Adam o requirieron modificaciones algorítmicas adicionales como el recorte, dejando las garantías del método original poco claras. Los autores utilizan el marco de Conversión de Online a Noconvexo para demostrar que una tasa de aprendizaje escalada aleatoriamente garantiza una tasa de convergencia de $1/T^{ rac{2}{13}}$. Este resultado teórico es significativo porque se aplica al régimen moderno de ruido de cola pesada, que refleja más de cerca las condiciones prácticas de entrenamiento. Además, el análisis establece la convergencia bajo la elección de parámetros donde $β_1=β_2$, alineándose con observaciones empíricas recientes. Estos hallazgos proporcionan una explicación rigurosa de la efectividad de Adam en escenarios del mundo real que anteriormente no fueron adecuadamente capturados por las teorías de optimización suave.

arxiv arXiv cs.LG · hace 3 h

Generalización sin referencia en el aprendizaje automático cuántico

Este estudio aborda el problema de identificabilidad en el aprendizaje automático cuántico donde los datos de entrenamiento carecen de una base preferida o un marco de referencia. Los autores formulan el aprendizaje supervisado sin un marco de referencia cuántico externo, requiriendo que los clasificadores preserven las simetrías unitarias no rotas por los datos de entrenamiento. Demuestran que si los estados de entrenamiento no abarcan todo el espacio de Hilbert, todos los estados puros ortogonales a este abarcamiento reciben predicciones idénticas. Esta limitación surge de la falta de información de referencia en lugar de restricciones de discriminación de estados o computacionales. La investigación establece una versión robusta bajo ruptura débil de simetría y muestra que aprender conceptos genéricos requiere exponencialmente muchas direcciones de entrenamiento orientadas. Las ilustraciones numéricas visualizan el colapso de predicción resultante y su relajación controlada. Los resultados identifican los mapas de características, las bases de medición y diversos estados de entrenamiento como recursos operativos esenciales para la generalización.

arxiv arXiv cs.LG · hace 3 h

El ultrasonido A-mode portátil permite el seguimiento cinemático completo de la mano en un microcontrolador

Los investigadores proponen un marco para el seguimiento cinemático robusto de toda la mano y la muñeca utilizando la plataforma portátil WULPUS con una sonda de ultrasonido A-mode. El sistema aborda la regresión de 23 grados de libertad directamente en el dispositivo, superando las limitaciones de los sistemas no portátiles anteriores. Se emplea una red neuronal convolucional compacta de múltiples salidas que contiene 11.285 parámetros junto con una estrategia de entrenamiento incremental para mejorar la generalización. Este enfoque reduce el error absoluto medio en más del 17% en comparación con los métodos no incrementales. El modelo se implementa en el microcontrolador WULPUS nRF52832, logrando un seguimiento de extremo a extremo completamente en el dispositivo. La inferencia consume solo 0,73 mJ con una latencia de 29,1 ms. El sistema admite operación completa dentro de 33 mW, permitiendo hasta 36 horas de uso continuo. Este método también reduce los requisitos de ancho de banda inalámbrico en un 88% en comparación con la transmisión de datos sin procesar.

arxiv arXiv cs.LG · hace 3 h

Selección conformal calibrada con nulo mediante puntuaciones de pertenencia al objetivo

El artículo presenta la Selección Conformal Calibrada con Nulo (NCCS), un método que utiliza puntuaciones de probabilidad de pertenencia al objetivo para identificar candidatos de prueba dentro de una región objetivo mientras controla la tasa de descubrimiento falso. Los autores argumentan que estas puntuaciones de pertenencia proporcionan un ranking más natural para tareas de selección que las puntuaciones de no conformidad convencionales orientadas a la predicción, particularmente para objetivos complejos. Esta distinción es crítica para objetivos con valores de intervalo, impulsados por varianza, multimodales o multi-condición, donde las puntuaciones tradicionales pueden estar desalineadas con el poder de selección. NCCS clasifica las puntuaciones de prueba contra ejemplos de calibración no objetivo confirmados para producir p-valores nulos válidos en muestras finitas bajo intercambiabilidad nula. Estos p-valores pueden combinarse con el procedimiento de Benjamini-Yekutieli bajo dependencia arbitraria o con el procedimiento de Benjamini-Hochberg bajo condiciones estándar de dependencia positiva. Los experimentos demuestran que las puntuaciones de pertenencia igualan a las puntuaciones convencionales en objetivos monótonos en la media, pero mejoran sustancialmente el rendimiento en objetivos impulsados por varianza. En regímenes de objetivo raro, NCCS intercambia poder por validez nula en muestras finitas, abordando problemas donde el umbralizado empírico directo de FDP puede ser anti-conservador.

arxiv arXiv cs.LG · hace 3 h

El Estimador de Varianza Invariante al Desplazamiento Elimina el Sesgo de Minimización en la Estimación del Coeficiente Local de Aprendizaje

La Teoría del Aprendizaje Singular utiliza el Coeficiente Local de Aprendizaje para cuantificar la geometría del paisaje de pérdida de las redes neuronales, pero los estimadores de energía media dependen de una línea base aditiva de pérdida. Durante las fases de entrenamiento fuera del equilibrio, este mínimo es desconocido, y sustituirlo con pérdidas de mini-lotes ruidosas introduce un sesgo sistemático de minimización. Los autores proponen el Estimador de Varianza Invariante al Desplazamiento (SIVE) para eliminar estructuralmente esta línea base desconocida a través del operador de varianza. Al combinar SIVE con una corrección derivada de la Ley de la Varianza Total, el método separa las fluctuaciones geométricas de la pérdida del ruido de evaluación. Experimentos controlados en modelos toy analíticamente tratables demuestran que SIVE recupera señales geométricas de temperatura finita esperadas donde los estimadores de media anclados fallan. Aplicado a redes neuronales profundas, SIVE sirve como un diagnóstico robusto para rastrear transiciones de fase estructurales durante todo el entrenamiento.

arxiv arXiv cs.LG · hace 4 h

RoboMME-Interference evalúa la memoria del robot bajo distracción

La introducción de RoboMME-Interference aborda la necesidad de evaluar la memoria del robot en escenarios realistas de contexto largo, donde los sistemas deben recordar información de sesiones anteriores. Este nuevo benchmark entre sesiones se basa en el marco existente de RoboMME para medir el rendimiento cuando los robots enfrentan distracciones por experiencias previas no relacionadas. Para cada episodio de consulta, el benchmark construye un historial de sesión que consiste en demostraciones relevantes seguidas por un número controlado de sesiones no relacionadas proporcionadas como memoria a los modelos Vision-Language-Action. Los investigadores probaron las variantes liberadas del modelo π_0.5 aumentadas con memoria sin modificación para evaluar su robustez bajo estas condiciones. Los resultados indican que, aunque las variantes de memoria perceptual mejoran las tasas de éxito cuando no hay distractores, su precisión disminuye de manera constante y fuerte a medida que se acumulan sesiones no relacionadas. Estos hallazgos destacan una falla crítica en los sistemas actuales con respecto a la memoria de contexto largo y la resistencia a la interferencia. La página del proyecto, videos, código y datos para este benchmark están disponibles en https://robotmemorybench.com.

arxiv arXiv cs.LG · hace 4 h

Muestreo de posterior mediante enfriamiento de flujos para regresión en el espacio de funciones y problemas inversos

Los autores presentan el Muestreo de Posterior mediante Enfriamiento de Flujos (FAPS, por sus siglas en inglés), un marco novedoso que unifica la regresión de procesos estocásticos con los problemas inversos de EDP en el espacio de funciones. Basado en priores de emparejamiento de flujos en el espacio de funciones previamente entrenados, FAPS facilita la inferencia posterior guiada por verosimilitud utilizando observaciones dispersas y ruidosas. El método soporta discretizaciones de consulta variables y evita la necesidad de evaluar explícitamente la densidad del prior durante el muestreo. Emplea un mecanismo de corrección de Langevin que utiliza un precondicionador de covarianza de rango bajo para explotar las correlaciones dominantes en el espacio de funciones entre diferentes discretizaciones. Las pruebas en procesos estocásticos tanto gaussianos como no gaussianos demuestran que FAPS produce muestras posteriores coherentes con una cuantificación precisa de la incertidumbre. El enfoque supera significativamente a las líneas base existentes de regresión funcional en estas tareas estándar. Además, logra un rendimiento competitivo o superior en problemas inversos de EDP ruidosos en comparación con los muestreadores basados en difusión, mientras reduce los costos de muestreo en tiempo de prueba.

arxiv arXiv cs.LG · hace 4 h

Select-to-Act: Aprendizaje por refuerzo jerárquico mediante guía de lenguaje adaptativa

El artículo presenta HRLLI, un marco de aprendizaje por refuerzo jerárquico diseñado para mejorar la eficiencia de muestreo aprovechando instrucciones en lenguaje natural. Aborda la limitación de los enfoques existentes que tratan las instrucciones como entradas estáticas, sin tener en cuenta su relevancia dependiente del etapa en entornos complejos. El método propuesto descompone las instrucciones en elementos de guía por tramos que se vuelven relevantes en diferentes etapas de interacción. Se formula un nuevo paradigma Select-to-Act donde una política semántica de alto nivel actúa como selector para la pieza de instrucción más relevante basada en el estado actual. Esta guía seleccionada condiciona una política de bajo nivel que ejecuta las acciones del entorno, con ambas políticas aprendidas simultáneamente para maximizar los retornos esperados aumentados. Los experimentos en la benchmark RTFM demuestran que HRLLI supera consistentemente a las bases fuertes de RL condicionado por instrucciones. Los resultados confirman que modelar explícitamente la selección adaptativa de instrucciones mejora significativamente la efectividad del aprendizaje por refuerzo.

arxiv arXiv cs.LG · hace 4 h

SAFER: Agrupación adaptativa guiada por fiabilidad para la adaptación en tiempo de prueba robusta

Los autores abordan la fragilidad de la adaptación en tiempo de prueba (TTA) bajo flujos contaminados adversarialmente proponiendo SAFER, un marco sin entrenamiento para TTA robusta. SAFER actúa como un envoltorio de augmentación que reemplaza las predicciones de vista única con un predictor agrupado guiado por fiabilidad para estabilizar las actualizaciones en línea. Para cada muestra de prueba, el método genera augmentaciones estocásticas y agrega sus salidas utilizando agrupamiento ponderado por correlación combinado con detección de valores atípicos. También se introduce una extensión de mezcla adaptativa, que ajusta la ponderación entre entradas originales y aumentadas basándose en señales de desacuerdo de características para preservar el rendimiento limpio. Los investigadores evaluaron SAFER en los benchmarks PACS, VLCS y OfficeHome bajo ataques PGD a varias tasas. Los resultados indican que SAFER mejora la resiliencia de los métodos TTA contra ataques adversariales mientras mantiene una precisión competitiva en datos limpios.

arxiv arXiv cs.LG · hace 4 h

El aprendizaje de diccionarios activados parcimoniosamente vincula la dispersión y el almacenamiento con los modelos generativos

El artículo introduce el aprendizaje de diccionarios activados parcimoniosamente (PADL), un método que impone una regularización global sobre el número de átomos del diccionario activados. Demuestra que PADL es equivalente a la estimación de máxima a posteriori bajo un modelo generativo estructurado con variables latentes auxiliares. Esta equivalencia permite derivar garantías de generalización difíciles de obtener a partir de la formulación original. Los autores proporcionan una caracterización analítica del compromiso entre dispersión, costo de almacenamiento y precisión de reconstrucción. Este marco permite la estimación basada en datos de hiperparámetros óptimos sin ajuste manual. Se desarrolla un algoritmo PADL eficiente e interpretable basado en esta conexión teórica. Los resultados experimentales muestran un rendimiento mejorado de reconstrucción bajo niveles comparables de dispersión en benchmarks visuales. El método también demuestra utilidad práctica al acelerar la inferencia para modelos de visión y lenguaje.

arxiv arXiv cs.LG · hace 4 h

ORBIT: Dirección de comportamiento multiatributo sin entrenamiento mediante rotación de subespacio ortogonal

Los autores presentan ORBIT, un método sin entrenamiento para controlar simultáneamente múltiples atributos de comportamiento en modelos de lenguaje grandes. Las técnicas existentes de dirección de activación luchan con el control multiatributo debido al desequilibrio de norma y la cancelación direccional al usar suma vectorial ingenua. ORBIT aborda esto construyendo un subespacio conjunto a partir de planos de dirección por atributo mediante descomposición en valores singulares. Luego aplica una única rotación que preserva la norma dentro de ese subespacio hacia una dirección combinada objetivo. El método incorpora enmascaramiento adaptivo por token para identificar correcciones necesarias en cada posición y un impulso aditivo opcional para proyecciones débiles. Para evaluar el enfoque, los autores presentan TraitFactory, un punto de referencia centrado en tendencias de comportamiento en lugar de estilo superficial. Los experimentos en modelos Llama-3.2-3B, Qwen-2.5-7B y Llama-3.1-8B demuestran que ORBIT logra una dirección más fuerte y equilibrada que las líneas base mientras preserva la coherencia de salida.

arxiv arXiv cs.LG · hace 4 h

Evaluación sin referencia de la consistencia física en la generación de video basada en modelos del mundo

Los autores introducen medidas sin referencia para evaluar la consistencia física de los videos generados combinando evaluaciones de fidelidad relativa y absoluta. Este enfoque aborda la brecha en la fidelidad física que a menudo impide que herramientas de generación de video como WorldGym o WorldEval reproduzcan con precisión las tasas de éxito de tareas del mundo real para modelos VLA. A diferencia de los métodos existentes que requieren votación humana costosa o referencias ground-truth no disponibles, el nuevo marco utiliza DROID-SLAM y SEA-RAFT para cuantificar inconsistencias. Motivado por WorldScore, la evaluación de consistencia relativa filtra videos para mejorar las tasas de éxito de tareas en más del 8%. Además, la evaluación absoluta permite la localización espaciotemporal para visualizar cuándo y dónde ocurren los artefactos físicos en el contenido generado.

arxiv arXiv cs.AI · hace 4 h

Muestreo de posteriores con annealing de flujo para regresión en espacio de funciones y problemas inversos

FAPS es el primer marco de muestreo de posteriors en espacio de funciones que unifica la regresión de procesos estocásticos y los problemas inversos de EDP. Utiliza priors de flow-matching preentrenados y corrección de Langevin con preconditioning de covarianza de bajo rango para habilitar inferencia posterior eficiente y precisa a partir de datos dispersos y ruidosos, con cuantificación coherente de la incertidumbre.

media r/LocalLLaMA · hace 4 h

Script para monitorear llama cpp y analizar el uso de memoria

Un usuario ha compartido un script en Bash diseñado para analizar la salida detallada de llama.cpp, proporcionando un resumen claro de los requisitos de VRAM/RAM y las métricas de rendimiento en tiempo de ejecución. Esta herramienta aborda la dificultad de predecir las necesidades de memoria para varias cuantizaciones de modelos agrupando las asignaciones de búfer por función y backend.

media r/LocalLLaMA · hace 4 h

Actualización de Ornith-1.0-35B GGUF: injerto nativo de descodificación especulativa MTP + métricas completas de servicio/TTFT/contexto largo (llama.cpp, tp=1)

Este artículo informa sobre una actualización del modelo Ornith-1.0-35B, que presenta una cabeza de borrador MTP nativa injertada en el cuerpo IQ4_XS para la descodificación especulativa auto-iniciada en llama.cpp. El autor proporciona métricas de rendimiento integrales que incluyen throughput, tiempo hasta el primer token (TTFT) y capacidades de contexto largo en una única GPU RTX PRO 6000 Blackwell.

arxiv arXiv cs.LG · hace 4 h

Kiwano: Un kit de herramientas PyTorch de código abierto para la investigación en verificación del hablante

Los investigadores han presentado Kiwano, un kit de herramientas de código abierto diseñado para impulsar la investigación y la evaluación en el campo de la verificación del hablante. Construido sobre PyTorch, este marco ligero pero extensible proporciona recetas estandarizadas, modelos preentrenados e integración de arquitecturas ampliamente utilizadas. El proyecto enfatiza la reproducibilidad al ofrecer pipelines de entrenamiento transparentes, protocolos de evaluación unificados y líneas base listas para usar en múltiples corpus. Más allá de las capacidades estándar de entrenamiento e inferencia, Kiwano incluye herramientas especializadas para la evaluación comparativa, el seguimiento de experimentos y el prototipado rápido de nuevas arquitecturas. Para fomentar la adopción por parte de la comunidad, el kit de herramientas se distribuye bajo la licencia Apache 2.0 y viene acompañado de documentación completa y experimentos reproducibles. Al reducir las barreras de entrada y estandarizar las prácticas de evaluación, Kiwano tiene como objetivo servir como un recurso valioso tanto para la investigación académica como para el desarrollo aplicado. El proyecto está disponible públicamente en GitHub en https://github.com/kiwano-toolkit/kiwano/.

arxiv arXiv cs.LG · hace 4 h

Entrenamiento Multirred para Generación Molecular usando Redes Neuronales Gráficas

Los autores introducen una estrategia de entrenamiento multirred para abordar los altos costos computacionales y la inestabilidad asociados con el modelado de sistemas moleculares bioquímicos a resolución completa. Este enfoque aprovecha la optimización a baja resolución para acelerar el aprendizaje en resoluciones más altas mediante la transferencia de parámetros entre diferentes discretizaciones. Para representaciones moleculares basadas en grafos, el método transfiere progresivamente los parámetros desde un grafo grueso hacia grafos cada vez más finos utilizando muestreo ascendente con caminata aleatoria sesgada. En la generación molecular 3D, las estructuras se voxelizan a múltiples resoluciones, lo que permite preentrenar primero un Autoencoder Variacional Condicional (CVAE) de resolución gruesa. Los parámetros convolucionales compatibles con la forma se transfieren luego del modelo grueso para inicializar un CVAE de resolución fina. Los experimentos numéricos en la generación de ligandos 3D condicionados por receptores demuestran que este método acelera la convergencia en comparación con el entrenamiento desde cero. Además, el estudio muestra que el entrenamiento multirred mejora las capacidades de generalización para tareas de generación molecular.

arxiv arXiv cs.LG · hace 4 h

HyperAdapter: Adaptación de hiperaristas estructuradas para el ajuste fino eficiente en parámetros de transformadores de visión

Los autores proponen HyperAdapter, un método novedoso de ajuste fino eficiente en parámetros que adapta transformadores de visión en el espacio de hiperaristas en lugar del espacio de tokens. Los métodos existentes basados en adaptadores típicamente realizan adaptaciones independientes para cada token, lo que pasa por alto las relaciones estructuradas y puede llevar a actualizaciones redundantes. HyperAdapter construye un hipergrafo suave sobre los tokens de ViT utilizando asignaciones basadas en prototipos para permitir una adaptación consciente del grupo. La arquitectura agrega las características de los tokens en representaciones latentes de hiperaristas y aplica una adaptación ligera de cuello de botella a nivel de hiperarista. Las actualizaciones se difunden luego de vuelta a los tokens individuales a través de la estructura de incidencia del hipergrafo, inyectando un sesgo inductivo estructural explícito. Experimentos extensos en diversos benchmarks visuales demuestran que este enfoque supera consistentemente a las líneas base fuertes de PEFT bajo presupuestos de parámetros comparables. Los resultados destacan ganancias significativas en tareas que requieren razonamiento estructurado y sugieren que la elección del espacio de adaptación es una dimensión crítica para la transferencia eficiente.

arxiv arXiv cs.LG · hace 4 h

CNN eficiente con aprendizaje por transferencia para detección de múltiples cánceres

Un estudio presenta una red neuronal convolucional ligera mejorada con aprendizaje por transferencia para la detección de múltiples cánceres utilizando imágenes biomédicas. La arquitectura busca reducir la complejidad computacional mientras mantiene un alto rendimiento de clasificación para su implementación en entornos con recursos limitados. Los investigadores evaluaron el modelo en tres conjuntos de datos de tumores que comprenden resonancias magnéticas cerebrales y tomografías computarizadas de pulmón y riñón. El sistema logró exactitudes de prueba del 90,85%, 98,64% y 99,92% para cáncer cerebral, pulmonar y renal respectivamente, mediante validación cruzada estratificada de cinco pliegues. Se empleó aprendizaje por transferencia preentrenando en un tipo de cáncer y ajustando finamente en otros, requiriendo solo 20 épocas adicionales para igualar a los modelos entrenados desde cero. El proceso de ajuste fino actualiza la parte de clasificación de la CNN y toma aproximadamente 0,014 segundos por imagen por época en una NVIDIA GeForce GTX 960. Las evaluaciones comparativas demuestran que este modelo supera a arquitecturas de última generación como Xception, VGG16, VGG19, MobileNetV2 y DenseNet121.