Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 107

El ultrasonido A-mode portátil permite el seguimiento cinemático completo de la mano en un microcontrolador

Los investigadores proponen un marco para el seguimiento cinemático robusto de toda la mano y la muñeca utilizando la plataforma portátil WULPUS con una sonda de ultrasonido A-mode. El sistema aborda la regresión de 23 grados de libertad directamente en el dispositivo, superando las limitaciones de los sistemas no portátiles anteriores. Se emplea una red neuronal convolucional compacta de múltiples salidas que contiene 11.285 parámetros junto con una estrategia de entrenamiento incremental para mejorar la generalización. Este enfoque reduce el error absoluto medio en más del 17% en comparación con los métodos no incrementales. El modelo se implementa en el microcontrolador WULPUS nRF52832, logrando un seguimiento de extremo a extremo completamente en el dispositivo. La inferencia consume solo 0,73 mJ con una latencia de 29,1 ms. El sistema admite operación completa dentro de 33 mW, permitiendo hasta 36 horas de uso continuo. Este método también reduce los requisitos de ancho de banda inalámbrico en un 88% en comparación con la transmisión de datos sin procesar.

arxiv arXiv cs.LG · hace 1 h En vivo

Selección conformal calibrada con nulo mediante puntuaciones de pertenencia al objetivo

El artículo presenta la Selección Conformal Calibrada con Nulo (NCCS), un método que utiliza puntuaciones de probabilidad de pertenencia al objetivo para identificar candidatos de prueba dentro de una región objetivo mientras controla la tasa de descubrimiento falso. Los autores argumentan que estas puntuaciones de pertenencia proporcionan un ranking más natural para tareas de selección que las puntuaciones de no conformidad convencionales orientadas a la predicción, particularmente para objetivos complejos. Esta distinción es crítica para objetivos con valores de intervalo, impulsados por varianza, multimodales o multi-condición, donde las puntuaciones tradicionales pueden estar desalineadas con el poder de selección. NCCS clasifica las puntuaciones de prueba contra ejemplos de calibración no objetivo confirmados para producir p-valores nulos válidos en muestras finitas bajo intercambiabilidad nula. Estos p-valores pueden combinarse con el procedimiento de Benjamini-Yekutieli bajo dependencia arbitraria o con el procedimiento de Benjamini-Hochberg bajo condiciones estándar de dependencia positiva. Los experimentos demuestran que las puntuaciones de pertenencia igualan a las puntuaciones convencionales en objetivos monótonos en la media, pero mejoran sustancialmente el rendimiento en objetivos impulsados por varianza. En regímenes de objetivo raro, NCCS intercambia poder por validez nula en muestras finitas, abordando problemas donde el umbralizado empírico directo de FDP puede ser anti-conservador.

arxiv arXiv cs.LG · hace 1 h En vivo

El Estimador de Varianza Invariante al Desplazamiento Elimina el Sesgo de Minimización en la Estimación del Coeficiente Local de Aprendizaje

La Teoría del Aprendizaje Singular utiliza el Coeficiente Local de Aprendizaje para cuantificar la geometría del paisaje de pérdida de las redes neuronales, pero los estimadores de energía media dependen de una línea base aditiva de pérdida. Durante las fases de entrenamiento fuera del equilibrio, este mínimo es desconocido, y sustituirlo con pérdidas de mini-lotes ruidosas introduce un sesgo sistemático de minimización. Los autores proponen el Estimador de Varianza Invariante al Desplazamiento (SIVE) para eliminar estructuralmente esta línea base desconocida a través del operador de varianza. Al combinar SIVE con una corrección derivada de la Ley de la Varianza Total, el método separa las fluctuaciones geométricas de la pérdida del ruido de evaluación. Experimentos controlados en modelos toy analíticamente tratables demuestran que SIVE recupera señales geométricas de temperatura finita esperadas donde los estimadores de media anclados fallan. Aplicado a redes neuronales profundas, SIVE sirve como un diagnóstico robusto para rastrear transiciones de fase estructurales durante todo el entrenamiento.

arxiv arXiv cs.LG · hace 2 h

RoboMME-Interference evalúa la memoria del robot bajo distracción

La introducción de RoboMME-Interference aborda la necesidad de evaluar la memoria del robot en escenarios realistas de contexto largo, donde los sistemas deben recordar información de sesiones anteriores. Este nuevo benchmark entre sesiones se basa en el marco existente de RoboMME para medir el rendimiento cuando los robots enfrentan distracciones por experiencias previas no relacionadas. Para cada episodio de consulta, el benchmark construye un historial de sesión que consiste en demostraciones relevantes seguidas por un número controlado de sesiones no relacionadas proporcionadas como memoria a los modelos Vision-Language-Action. Los investigadores probaron las variantes liberadas del modelo π_0.5 aumentadas con memoria sin modificación para evaluar su robustez bajo estas condiciones. Los resultados indican que, aunque las variantes de memoria perceptual mejoran las tasas de éxito cuando no hay distractores, su precisión disminuye de manera constante y fuerte a medida que se acumulan sesiones no relacionadas. Estos hallazgos destacan una falla crítica en los sistemas actuales con respecto a la memoria de contexto largo y la resistencia a la interferencia. La página del proyecto, videos, código y datos para este benchmark están disponibles en https://robotmemorybench.com.

arxiv arXiv cs.LG · hace 2 h

Muestreo de posterior mediante enfriamiento de flujos para regresión en el espacio de funciones y problemas inversos

Los autores presentan el Muestreo de Posterior mediante Enfriamiento de Flujos (FAPS, por sus siglas en inglés), un marco novedoso que unifica la regresión de procesos estocásticos con los problemas inversos de EDP en el espacio de funciones. Basado en priores de emparejamiento de flujos en el espacio de funciones previamente entrenados, FAPS facilita la inferencia posterior guiada por verosimilitud utilizando observaciones dispersas y ruidosas. El método soporta discretizaciones de consulta variables y evita la necesidad de evaluar explícitamente la densidad del prior durante el muestreo. Emplea un mecanismo de corrección de Langevin que utiliza un precondicionador de covarianza de rango bajo para explotar las correlaciones dominantes en el espacio de funciones entre diferentes discretizaciones. Las pruebas en procesos estocásticos tanto gaussianos como no gaussianos demuestran que FAPS produce muestras posteriores coherentes con una cuantificación precisa de la incertidumbre. El enfoque supera significativamente a las líneas base existentes de regresión funcional en estas tareas estándar. Además, logra un rendimiento competitivo o superior en problemas inversos de EDP ruidosos en comparación con los muestreadores basados en difusión, mientras reduce los costos de muestreo en tiempo de prueba.

arxiv arXiv cs.LG · hace 2 h

Select-to-Act: Aprendizaje por refuerzo jerárquico mediante guía de lenguaje adaptativa

El artículo presenta HRLLI, un marco de aprendizaje por refuerzo jerárquico diseñado para mejorar la eficiencia de muestreo aprovechando instrucciones en lenguaje natural. Aborda la limitación de los enfoques existentes que tratan las instrucciones como entradas estáticas, sin tener en cuenta su relevancia dependiente del etapa en entornos complejos. El método propuesto descompone las instrucciones en elementos de guía por tramos que se vuelven relevantes en diferentes etapas de interacción. Se formula un nuevo paradigma Select-to-Act donde una política semántica de alto nivel actúa como selector para la pieza de instrucción más relevante basada en el estado actual. Esta guía seleccionada condiciona una política de bajo nivel que ejecuta las acciones del entorno, con ambas políticas aprendidas simultáneamente para maximizar los retornos esperados aumentados. Los experimentos en la benchmark RTFM demuestran que HRLLI supera consistentemente a las bases fuertes de RL condicionado por instrucciones. Los resultados confirman que modelar explícitamente la selección adaptativa de instrucciones mejora significativamente la efectividad del aprendizaje por refuerzo.

arxiv arXiv cs.LG · hace 2 h

SAFER: Agrupación adaptativa guiada por fiabilidad para la adaptación en tiempo de prueba robusta

Los autores abordan la fragilidad de la adaptación en tiempo de prueba (TTA) bajo flujos contaminados adversarialmente proponiendo SAFER, un marco sin entrenamiento para TTA robusta. SAFER actúa como un envoltorio de augmentación que reemplaza las predicciones de vista única con un predictor agrupado guiado por fiabilidad para estabilizar las actualizaciones en línea. Para cada muestra de prueba, el método genera augmentaciones estocásticas y agrega sus salidas utilizando agrupamiento ponderado por correlación combinado con detección de valores atípicos. También se introduce una extensión de mezcla adaptativa, que ajusta la ponderación entre entradas originales y aumentadas basándose en señales de desacuerdo de características para preservar el rendimiento limpio. Los investigadores evaluaron SAFER en los benchmarks PACS, VLCS y OfficeHome bajo ataques PGD a varias tasas. Los resultados indican que SAFER mejora la resiliencia de los métodos TTA contra ataques adversariales mientras mantiene una precisión competitiva en datos limpios.

arxiv arXiv cs.LG · hace 2 h

El aprendizaje de diccionarios activados parcimoniosamente vincula la dispersión y el almacenamiento con los modelos generativos

El artículo introduce el aprendizaje de diccionarios activados parcimoniosamente (PADL), un método que impone una regularización global sobre el número de átomos del diccionario activados. Demuestra que PADL es equivalente a la estimación de máxima a posteriori bajo un modelo generativo estructurado con variables latentes auxiliares. Esta equivalencia permite derivar garantías de generalización difíciles de obtener a partir de la formulación original. Los autores proporcionan una caracterización analítica del compromiso entre dispersión, costo de almacenamiento y precisión de reconstrucción. Este marco permite la estimación basada en datos de hiperparámetros óptimos sin ajuste manual. Se desarrolla un algoritmo PADL eficiente e interpretable basado en esta conexión teórica. Los resultados experimentales muestran un rendimiento mejorado de reconstrucción bajo niveles comparables de dispersión en benchmarks visuales. El método también demuestra utilidad práctica al acelerar la inferencia para modelos de visión y lenguaje.

arxiv arXiv cs.LG · hace 2 h

ORBIT: Dirección de comportamiento multiatributo sin entrenamiento mediante rotación de subespacio ortogonal

Los autores presentan ORBIT, un método sin entrenamiento para controlar simultáneamente múltiples atributos de comportamiento en modelos de lenguaje grandes. Las técnicas existentes de dirección de activación luchan con el control multiatributo debido al desequilibrio de norma y la cancelación direccional al usar suma vectorial ingenua. ORBIT aborda esto construyendo un subespacio conjunto a partir de planos de dirección por atributo mediante descomposición en valores singulares. Luego aplica una única rotación que preserva la norma dentro de ese subespacio hacia una dirección combinada objetivo. El método incorpora enmascaramiento adaptivo por token para identificar correcciones necesarias en cada posición y un impulso aditivo opcional para proyecciones débiles. Para evaluar el enfoque, los autores presentan TraitFactory, un punto de referencia centrado en tendencias de comportamiento en lugar de estilo superficial. Los experimentos en modelos Llama-3.2-3B, Qwen-2.5-7B y Llama-3.1-8B demuestran que ORBIT logra una dirección más fuerte y equilibrada que las líneas base mientras preserva la coherencia de salida.

arxiv arXiv cs.LG · hace 2 h

Evaluación sin referencia de la consistencia física en la generación de video basada en modelos del mundo

Los autores introducen medidas sin referencia para evaluar la consistencia física de los videos generados combinando evaluaciones de fidelidad relativa y absoluta. Este enfoque aborda la brecha en la fidelidad física que a menudo impide que herramientas de generación de video como WorldGym o WorldEval reproduzcan con precisión las tasas de éxito de tareas del mundo real para modelos VLA. A diferencia de los métodos existentes que requieren votación humana costosa o referencias ground-truth no disponibles, el nuevo marco utiliza DROID-SLAM y SEA-RAFT para cuantificar inconsistencias. Motivado por WorldScore, la evaluación de consistencia relativa filtra videos para mejorar las tasas de éxito de tareas en más del 8%. Además, la evaluación absoluta permite la localización espaciotemporal para visualizar cuándo y dónde ocurren los artefactos físicos en el contenido generado.

arxiv arXiv cs.AI · hace 2 h

Muestreo de posteriores con annealing de flujo para regresión en espacio de funciones y problemas inversos

FAPS es el primer marco de muestreo de posteriors en espacio de funciones que unifica la regresión de procesos estocásticos y los problemas inversos de EDP. Utiliza priors de flow-matching preentrenados y corrección de Langevin con preconditioning de covarianza de bajo rango para habilitar inferencia posterior eficiente y precisa a partir de datos dispersos y ruidosos, con cuantificación coherente de la incertidumbre.

media r/LocalLLaMA · hace 2 h

Script para monitorear llama cpp y analizar el uso de memoria

Un usuario ha compartido un script en Bash diseñado para analizar la salida detallada de llama.cpp, proporcionando un resumen claro de los requisitos de VRAM/RAM y las métricas de rendimiento en tiempo de ejecución. Esta herramienta aborda la dificultad de predecir las necesidades de memoria para varias cuantizaciones de modelos agrupando las asignaciones de búfer por función y backend.

media r/LocalLLaMA · hace 2 h

Actualización de Ornith-1.0-35B GGUF: injerto nativo de descodificación especulativa MTP + métricas completas de servicio/TTFT/contexto largo (llama.cpp, tp=1)

Este artículo informa sobre una actualización del modelo Ornith-1.0-35B, que presenta una cabeza de borrador MTP nativa injertada en el cuerpo IQ4_XS para la descodificación especulativa auto-iniciada en llama.cpp. El autor proporciona métricas de rendimiento integrales que incluyen throughput, tiempo hasta el primer token (TTFT) y capacidades de contexto largo en una única GPU RTX PRO 6000 Blackwell.

arxiv arXiv cs.LG · hace 2 h

Kiwano: Un kit de herramientas PyTorch de código abierto para la investigación en verificación del hablante

Los investigadores han presentado Kiwano, un kit de herramientas de código abierto diseñado para impulsar la investigación y la evaluación en el campo de la verificación del hablante. Construido sobre PyTorch, este marco ligero pero extensible proporciona recetas estandarizadas, modelos preentrenados e integración de arquitecturas ampliamente utilizadas. El proyecto enfatiza la reproducibilidad al ofrecer pipelines de entrenamiento transparentes, protocolos de evaluación unificados y líneas base listas para usar en múltiples corpus. Más allá de las capacidades estándar de entrenamiento e inferencia, Kiwano incluye herramientas especializadas para la evaluación comparativa, el seguimiento de experimentos y el prototipado rápido de nuevas arquitecturas. Para fomentar la adopción por parte de la comunidad, el kit de herramientas se distribuye bajo la licencia Apache 2.0 y viene acompañado de documentación completa y experimentos reproducibles. Al reducir las barreras de entrada y estandarizar las prácticas de evaluación, Kiwano tiene como objetivo servir como un recurso valioso tanto para la investigación académica como para el desarrollo aplicado. El proyecto está disponible públicamente en GitHub en https://github.com/kiwano-toolkit/kiwano/.

arxiv arXiv cs.LG · hace 2 h

Entrenamiento Multirred para Generación Molecular usando Redes Neuronales Gráficas

Los autores introducen una estrategia de entrenamiento multirred para abordar los altos costos computacionales y la inestabilidad asociados con el modelado de sistemas moleculares bioquímicos a resolución completa. Este enfoque aprovecha la optimización a baja resolución para acelerar el aprendizaje en resoluciones más altas mediante la transferencia de parámetros entre diferentes discretizaciones. Para representaciones moleculares basadas en grafos, el método transfiere progresivamente los parámetros desde un grafo grueso hacia grafos cada vez más finos utilizando muestreo ascendente con caminata aleatoria sesgada. En la generación molecular 3D, las estructuras se voxelizan a múltiples resoluciones, lo que permite preentrenar primero un Autoencoder Variacional Condicional (CVAE) de resolución gruesa. Los parámetros convolucionales compatibles con la forma se transfieren luego del modelo grueso para inicializar un CVAE de resolución fina. Los experimentos numéricos en la generación de ligandos 3D condicionados por receptores demuestran que este método acelera la convergencia en comparación con el entrenamiento desde cero. Además, el estudio muestra que el entrenamiento multirred mejora las capacidades de generalización para tareas de generación molecular.

arxiv arXiv cs.LG · hace 2 h

HyperAdapter: Adaptación de hiperaristas estructuradas para el ajuste fino eficiente en parámetros de transformadores de visión

Los autores proponen HyperAdapter, un método novedoso de ajuste fino eficiente en parámetros que adapta transformadores de visión en el espacio de hiperaristas en lugar del espacio de tokens. Los métodos existentes basados en adaptadores típicamente realizan adaptaciones independientes para cada token, lo que pasa por alto las relaciones estructuradas y puede llevar a actualizaciones redundantes. HyperAdapter construye un hipergrafo suave sobre los tokens de ViT utilizando asignaciones basadas en prototipos para permitir una adaptación consciente del grupo. La arquitectura agrega las características de los tokens en representaciones latentes de hiperaristas y aplica una adaptación ligera de cuello de botella a nivel de hiperarista. Las actualizaciones se difunden luego de vuelta a los tokens individuales a través de la estructura de incidencia del hipergrafo, inyectando un sesgo inductivo estructural explícito. Experimentos extensos en diversos benchmarks visuales demuestran que este enfoque supera consistentemente a las líneas base fuertes de PEFT bajo presupuestos de parámetros comparables. Los resultados destacan ganancias significativas en tareas que requieren razonamiento estructurado y sugieren que la elección del espacio de adaptación es una dimensión crítica para la transferencia eficiente.

arxiv arXiv cs.LG · hace 2 h

CNN eficiente con aprendizaje por transferencia para detección de múltiples cánceres

Un estudio presenta una red neuronal convolucional ligera mejorada con aprendizaje por transferencia para la detección de múltiples cánceres utilizando imágenes biomédicas. La arquitectura busca reducir la complejidad computacional mientras mantiene un alto rendimiento de clasificación para su implementación en entornos con recursos limitados. Los investigadores evaluaron el modelo en tres conjuntos de datos de tumores que comprenden resonancias magnéticas cerebrales y tomografías computarizadas de pulmón y riñón. El sistema logró exactitudes de prueba del 90,85%, 98,64% y 99,92% para cáncer cerebral, pulmonar y renal respectivamente, mediante validación cruzada estratificada de cinco pliegues. Se empleó aprendizaje por transferencia preentrenando en un tipo de cáncer y ajustando finamente en otros, requiriendo solo 20 épocas adicionales para igualar a los modelos entrenados desde cero. El proceso de ajuste fino actualiza la parte de clasificación de la CNN y toma aproximadamente 0,014 segundos por imagen por época en una NVIDIA GeForce GTX 960. Las evaluaciones comparativas demuestran que este modelo supera a arquitecturas de última generación como Xception, VGG16, VGG19, MobileNetV2 y DenseNet121.

arxiv arXiv cs.LG · hace 2 h

P4IR: El aprendizaje por refuerzo mejora los sistemas automatizados de cumplimiento de código

Un nuevo marco llamado P4IR aborda el problema de las reglas alucinadas en sistemas automatizados de cumplimiento de código basados en modelos de lenguaje grandes. Este enfoque de dos etapas primero emplea ajuste fino supervisado para inyectar conocimiento del dominio en el modelo. Luego utiliza Group Relative Policy Optimization para mejorar la precisión de los esqueletos de código de alto nivel generados. El método logró reducciones de hasta 23,8% en la distancia de edición de árboles y 38,6% en la distancia de Levenshtein a nivel de token en comparación con las líneas base de ajuste fino supervisado. El análisis comparativo muestra que P4IR supera a modelos líderes como Claude Opus, GPT-5.2 y Qwen-3-Max en configuraciones zero-shot. Además, la etapa de aprendizaje por refuerzo produjo una reducción estadísticamente significativa en falsos positivos. Esta combinación de técnicas ofrece un camino hacia un cumplimiento de código automatizado más confiable.

arxiv arXiv cs.LG · hace 2 h

Recuperación del subespacio de señal asintótica en modelos de atención softmax

Este estudio investiga los principios teóricos detrás de los mecanismos de atención softmax analizando un modelo estilizado donde un vector de consulta se aprende mediante ascenso de gradiente estocástico. Los autores explotan la simetría del modelo para derivar un objetivo poblacional y caracterizar la ecuación diferencial ordinaria límite que rige la dinámica de aprendizaje. Mediante el empleo de herramientas de aproximación estocástica y teoría de sistemas dinámicos, establecen una conexión rigurosa entre el algoritmo de aprendizaje estocástico y su límite determinista. Bajo supuestos adecuados de escalado en altas dimensiones y condiciones estándar del tamaño de paso, la investigación demuestra que la consulta aprendida converge casi seguramente al subespacio de señal unidimensional. Esta convergencia implica que la consulta recupera asintóticamente la dirección informativa latente hasta una ambigüedad de signo intrínseca. Los hallazgos proporcionan una base teórica para comprender la atención como un procedimiento de extracción de señal en entornos ruidosos de alta dimensión.

arxiv arXiv cs.LG · hace 2 h

QeHDC: Computación hiperdimensional basada en enlace mejorado por cuántica y construcción de SuperClase

Los autores proponen QeHDC, un marco novel que extiende la Computación Hiperdimensional clásica aprovechando propiedades mecánicas cuánticas para mejorar la eficiencia computacional. Este enfoque utiliza un método de entrenamiento de un solo pase que emplea codificación sinusoidal y cuántica para proyectar datos clásicos en estados de amplitud cuántica. Una innovación clave es la introducción de una operación de enlace cuántico basada en estados de referencia, realizada mediante circuitos cuánticos específicos. Además, el marco implementa una estrategia de generación de superclases basada en matrices de densidad utilizando descomposición de autovalores para extraer características críticas del estado cuántico. Estos mecanismos permiten representaciones de clase más precisas y robustas para tareas de clasificación. Las evaluaciones experimentales en conjuntos de datos estándar demuestran un rendimiento superior en comparación con métodos clásicos tradicionales y métodos existentes mejorados por cuántica. Los resultados también destacan la robustez del enfoque ante el ruido y su viabilidad computacional, sugiriendo beneficios prácticos para futuros paradigmas inspirados en la cuántica.