Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 95

MAMO: Sistema Multiagente para Optimización Restringida con Múltiples Objetivos

MAMO introduce un enfoque de aprendizaje por refuerzo multiagente para abordar el desafío de equilibrar la minimización de costos y la satisfacción de restricciones en entornos dinámicos. Desacopla la ejecución de tareas de la selección de pesos de recompensa, tratando la elección de pesos como un problema de aprendizaje para permitir soluciones más autónomas y robustas.

arxiv arXiv cs.AI · hace 2 h

SPOT-E: Moldeado de entropía en tiempo de prueba con focos visuales para VLMs congelados

SPOT-E introduce un método en tiempo de prueba que utiliza focos visuales para mejorar la fundamentación de evidencias en modelos de visión y lenguaje congelados. Emplea anclas de baja entropía y un objetivo de moldeado de entropía para reducir la incertidumbre de las respuestas mientras se preservan los tokens de alta confianza, mejorando la robustez bajo corrupciones visuales a través de benchmarks y familias de VLMs.

arxiv arXiv cs.AI · hace 2 h

MACR: Resolución explícita de conflictos para inferencia de LLM

MACR introduce un marco de razonamiento multiagente para resolver conflictos de conocimiento en la inferencia de LLM evaluando conjuntamente el conocimiento interno y externo. Utiliza entropía semántica para medir la confianza y emplea tres agentes especializados para inducir reglas, detectar conflictos y resolver inconsistencias entre contextos. Los resultados empíricos muestran que MACR supera a los métodos más avanzados y proporciona resoluciones de conflictos interpretables.

arxiv arXiv cs.AI · hace 2 h

El ajuste fino de modelos VLA requiere menos capas de lo pensado

Los modelos Visión-Lenguaje-Acción muestran una redundancia capa por capa severa a pesar de los grandes conteos de parámetros. Un método de compresión sin entrenamiento que utiliza Alineación del Núcleo Centrado elimina capas gemelas, reduciendo la profundidad del modelo hasta un 50% y permitiendo un entrenamiento 40-50% más rápido y una inferencia hasta un 30% más rápida sin pérdida de rendimiento, validado en tareas robóticas de simulación y del mundo real.

arxiv arXiv cs.AI · hace 2 h

Marco de Inteligencia Semántica para el Discurso Público Nigeriano

El Marco de Inteligencia Semántica (MIF) introduce un esquema de nueve dimensiones para analizar el discurso público nigeriano, abordando la falla de contexto en los sistemas de IA. Un conjunto de datos de calibración de 30 elementos muestra que la indicación informada por el esquema mejora la precisión de clasificación del registro desde 33.3% hasta 73.3% y aumenta la Puntuación Compuesta de Inteligencia Semántica desde 73.2 hasta 78.6.

arxiv arXiv cs.AI · hace 2 h

Alineación editorial en la diseminación de conocimientos mediada por LLM

Un estudio de caso con una institución pública nórdica del conocimiento demuestra cómo la participación editorial puede re-alinear las interfaces de LLM con los estándares editoriales. El artículo introduce la alineación editorial como una práctica de diseño en IA Participativa, donde los valores editoriales se traducen en objetivos de alineación técnica. Este enfoque empodera a los editores con agencia en la diseminación de conocimientos mediada por LLM.

media r/LocalLLaMA · hace 2 h

Step-3.7-Flash (198B-A11B vision MoE) en 4×3090 — IQ3_XXS completamente residente supera a IQ4 derramado por 2.4×, y MTP speculative decode rompe silenciosamente la visión

Un usuario demuestra ejecutar el modelo Step-3.7-Flash de 198B parámetros de StepFun en una configuración de consumo con 4×RTX 3090, revelando compromisos críticos de rendimiento entre niveles de cuantización y predicción multi-token (MTP) con capacidades de visión.

arxiv arXiv cs.AI · hace 2 h

Evaluación automatizada consciente de la confianza de modelos científicos dibujados por estudiantes

Un modelo basado en visión con adaptación eficiente en parámetros califica los dibujos de estudiantes en educación científica. Utiliza puntuación consciente de la confianza para evaluar automáticamente las respuestas de alta confianza mientras pospone las inciertas a revisión humana, mejorando la fiabilidad y practicidad en evaluaciones a gran escala.

arxiv arXiv cs.AI · hace 2 h

Lagrange: Marco disperso de vocabulario abierto para conducción de extremo a extremo

Lagrange introduce un marco disperso basado en energía y de vocabulario abierto para la conducción generalizada de extremo a extremo. Utiliza Modelos Visión-Lenguaje para generar propuestas de objetos independientes de la clase y las codifica en tokens semánticos continuos, lo que permite una generalización robusta a escenarios anómalos mientras se adhiere a la cinemática del vehículo mediante la minimización de la acción lagrangiana.

arxiv arXiv cs.AI · hace 2 h

ELVA: Un marco impulsado por clasificación para recuperación multimodal

ELVA introduce un marco de aprendizaje por refuerzo basado en reglas para abordar la ceguera de grano en la recuperación multimodal. Al utilizar recompensas verificables y diferenciar las muestras negativas según su similitud, ELVA mejora la precisión del ranking y logra una ganancia del 13.1% en MRBench, un punto de referencia para escenarios de consulta multi-grano.

arxiv arXiv cs.AI · hace 2 h

Moldeado de Incrustaciones de Borde para el Desenredo Estructural de Grafos

El Moldeado de Incrustaciones de Borde (BES) aborda el entrelazamiento estructural de grafos suprimiendo selectivamente las correlaciones espurias entre vecinos cerca de los límites de clase. BES utiliza aprendizaje por contraste adaptativo para mejorar la discriminación de bordes, mejorando la clasificación de nodos en GCN en un promedio del 3.3% (hasta un 5.0% en WikiCS) y logrando una precisión superior en la predicción de enlaces.

arxiv arXiv cs.AI · hace 2 h

Enfoque DTL novedoso para diagnóstico de fallos con escasez de datos

Un nuevo método de aprendizaje profundo por transferencia aprovecha las no linealidades de los sistemas para generar datos de diagnóstico en condiciones de extrema escasez de datos. Este enfoque utiliza un procedimiento de multiexcitación periódica y una técnica novedosa de visualización de datos para aumentar los datos de vibración limitados, permitiendo un diagnóstico eficaz de fallos mediante CNNs preentrenadas. Los resultados experimentales en un pantógrafo ferroviario validan la efectividad del método.

arxiv arXiv cs.AI · hace 2 h

SoftSkill: Compresión conductual para adaptación contextual

SoftSkill propone un método para comprimir habilidades de lenguaje natural en priores latentes compactos, mejorando el rendimiento en tareas de SearchQA, LiveMath y DocVQA. Supera a SkillOpt entre 5,2 y 12,5 puntos en benchmarks clave, reemplazando cientos o miles de tokens de Markdown con unos pocos tokens virtuales.

arxiv arXiv cs.AI · hace 2 h

Q-learning robusto para control de campo medio bajo incertidumbre de Wasserstein

El artículo presenta un algoritmo de Q-learning robusto para problemas de control de campo medio en tiempo discreto con incertidumbre de Wasserstein en ruido común. Combina cuantificación y proyección con una reformulación dual de Wasserstein y demuestra convergencia con cotas de tiempo finito tanto para esquemas síncronos como asíncronos. Los experimentos numéricos en modelos de riesgo sistémico y epidemias muestran la compensación entre robustez y rendimiento de la implementación asíncrona, así como su convergencia bajo especificación incorrecta del ruido común.

arxiv arXiv cs.AI · hace 2 h

La minería de trayectorias revela la estructura de habilidades pero no mejora las políticas

Una tubería de tres etapas extrae bibliotecas de habilidades a partir de datos de interacción con GUI, logrando una alta pureza en cinco de los ocho clústeres frente a las etiquetas de InteraSkill. Sin embargo, el método solo mejora ligeramente la precisión de pasos de habilidad en IW y no logra avanzar el rendimiento en BrowseComp+ ni en métricas clave, lo que indica limitaciones en la transferencia de políticas entre dominios.

arxiv arXiv cs.AI · hace 2 h

AutoPass: Agentes LLM guiados por evidencia para el ajuste de rendimiento del compilador

AutoPass utiliza evidencia en tiempo de ejecución y del compilador para guiar las decisiones de optimización generadas por LLM, superando a heurísticas expertas y métodos clásicos de autotuneo. Logra aceleraciones geométricas medias de 1.043x en sistemas x86-64 y 1.117x en sistemas ARM64 sin entrenamiento previo ni ajuste fino.

arxiv arXiv cs.AI · hace 2 h

CRAX: Benchmarking rápido y seguro de aprendizaje por refuerzo

CRAX introduce un benchmark de seguridad acelerado y de alta fidelidad para el aprendizaje por refuerzo utilizando MuJoCo XLA. Logra aceleraciones de hasta 100x sobre benchmarks basados en CPU mediante vectorización y aceleración por hardware, presentando seis conjuntos de entornos y tres tareas específicas del agente en tres niveles de dificultad. La evaluación de seis métodos de RL seguro muestra que ningún enfoque domina, destacando los compromisos entre rendimiento y seguridad, con el aprendizaje por currículo y la transferencia de seguridad mejorando los resultados.

arxiv arXiv cs.LG · hace 3 h

Tri-Info: Predicción de fallos generalizable para modelos VLA

Tri-Info utiliza la teoría de la información para detectar fallos en modelos Visión-Lenguaje-Acción analizando la diversidad de acciones, la consistencia temporal y el acoplamiento de estados. Logra un 83% de precisión en tareas del mundo real a través de seis modelos y tres entornos, superando a métodos anteriores y manteniendo el rendimiento sin reentrenamiento.

arxiv arXiv cs.LG · hace 3 h

Entrenamiento de LLMs para agentes de ciclo de vida largo mediante generalización entre dominios

Un nuevo marco permite a los modelos de lenguaje grandes desarrollar la capacidad de 'Conectar los Puntos', permitiendo que los agentes de ciclo de vida largo aprendan de experiencias y actualicen iterativamente el contexto de su entorno. El marco utiliza aprendizaje por refuerzo con secuencias de rollout largas y tareas personalizadas para promover la generalización entre dominios, mostrando un rendimiento efectivo fuera de la distribución tanto en configuraciones de dominio como de transición.

arxiv arXiv cs.LG · hace 3 h

StreamKL: Divergencia KL rápida y eficiente en memoria para destilación de atención

StreamKL introduce un primitivo fusionado de GPU que elimina el uso de memoria cuadrático en la destilación de atención transmitiendo bloques query-key a través de SRAM on-chip. Logra una aceleración de hasta 43x en la pasada hacia adelante y 14x en las pasadas hacia atrás, reduciendo la huella adicional de HBM de O(N_QN_K) a O(1), permitiendo la destilación de contexto largo en una sola GPU.