Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 104

FAST: Un marco para muestreo alineado y entrenamiento en aprendizaje por refuerzo paralelo

FAST aborda la ineficiencia del muestreo en el aprendizaje por refuerzo para conducción autónoma introduciendo Alineación de Muestreo Paralelo Dinámico para desacoplar la terminación del episodio de los bucles de muestreo. Logra una aceleración de hasta 1.78 veces en tiempo real frente a las líneas base de un solo clip, mientras mantiene la ausencia de sesgo estadístico mediante Optimización de Relleno de Máscara Escalada.

arxiv arXiv cs.AI · hace 3 h

MedLayXPlain: Evaluando la brecha entre expertos y no expertos en modelos de visión y lenguaje médicos

MedLayXPlain presenta el primer benchmark a gran escala para la generación de lenguaje médico para no expertos, con 122.789 muestras ancladas a regiones en ocho modalidades de imagen. Evalúa modelos de visión y lenguaje médicos en la alineación entre expertos y no expertos mediante un sistema de ontología jerárquica y un evaluador ligero, revelando una brecha sistemática: el rendimiento a nivel experto en la generación de descripciones coexiste con una degradación significativa en el lenguaje para no expertos, mientras que los modelos de propósito general carecen de precisión clínica.

arxiv arXiv cs.AI · hace 3 h

Referencia basada en perfiles en el anclaje de LLM

El artículo argumenta que la referencia en los modelos de lenguaje grandes no es un enlace fijo, sino un fenómeno basado en perfiles, sensible al contexto y estructurado numéricamente. Propone que los LLM anclan la referencia a través de rastros lingüísticos parametrizados mediante optimización, con perfiles referenciales distribuidos y activados mediante computación sensible al contexto, respaldado por hallazgos de interpretabilidad mecanística.

arxiv arXiv cs.AI · hace 3 h

Extracción y análisis de conceptos multimodales en modelos de lenguaje y visión

Un nuevo marco que utiliza Autoencoders dispersos extrae y analiza conceptos visuales, textuales y multimodales de Modelos de Lenguaje y Visión. Los experimentos en LLaVA-NeXT muestran hasta un 45% de mejora en la calidad de los conceptos visuales e identificación sistemática de conceptos multimodales, ofreciendo un enfoque estructurado para comprender las representaciones internas de VLM.

arxiv arXiv cs.AI · hace 3 h

Denuncias de máquinas: Un enfoque normativo y fundamentado

Los agentes artificiales pueden y deben denunciar, pero solo dentro de un marco normativo arraigado en las tradiciones humanas de denuncia. El artículo insta a los reguladores gubernamentales a establecer directrices claras sobre lo que las máquinas pueden revelar y cómo proteger legalmente a los desarrolladores de dichos sistemas.

arxiv arXiv cs.AI · hace 3 h

La distancia lingüística afecta el consenso en autómatas celulares neuronales

Un estudio sobre autómatas celulares neuronales muestra que la distancia lingüística ralentiza el consenso e induce una leve divergencia grupal sin fragmentación completa. Una colectividad entrenada bajo protocolos de comunicación diversos permanece robusta ante desajustes, a diferencia de una entrenada uniformemente, y estos resultados son consistentes en estructuras de anillo y cuadrícula 2D, con paralelos a la dinámica de grupos humanos.

arxiv arXiv cs.AI · hace 3 h

Ilusiones de coherencia en LLMs holandeses reveladas

Los modelos de lenguaje holandeses exhiben ilusiones de coherencia similares a las de los lectores humanos. Las métricas de sorpresa y entropía de atención muestran que los modelos son engañados por coincidencias de contexto, con energía de la memoria asociativa identificando mecanismos de coherencia discursiva.

arxiv arXiv cs.AI · hace 3 h

QBioFusion-QSAR: Aprendizaje de núcleos cuánticos para la clasificación de ligandos con datos pequeños

QBioFusion-QSAR integra un núcleo de fidelidad cuántica con huellas digitales Morgan/Tanimoto para mejorar la clasificación de ligandos. En el benchmark PsychLight-A, QMKL aumentó la precisión y MCC en comparación con solo Morgan/Tanimoto, con mejoras atribuidas a mejores predicciones de moléculas con acantilados de actividad, como N-Me-5-HT y N-Me-tryptamina. El análisis auditable confirma contribuciones localizadas del núcleo cuántico en configuraciones de datos pequeños.

arxiv arXiv cs.AI · hace 3 h

Mejora de la verificación de hablante para vocalizaciones no verbales

Un nuevo marco combina características congeladas de Data2Vec con ECAPA-TDNN y un módulo de Mezcla de Expertos para mejorar la verificación del hablante en vocalizaciones no verbales. Utiliza destilación condicional y pérdida contrastiva para mantener la precisión del habla mientras reduce el EER de speech-NVV de 38,93% a 22,66% y mejora el EER del habla de 13,17% a 9,24%.

arxiv arXiv cs.AI · hace 3 h

FleetAgent: Teleoperación eficiente para flotas autónomas

FleetAgent es un modelo de lenguaje grande multimodal alojado en la nube que procesa mensajes compactos vectorizados de vehículo a red para habilitar una teleoperación eficiente y explicable. Reduce la carga útil de enlace ascendente hasta 625 veces y la memoria KV-cache 625 veces en comparación con imágenes o texto sin procesar, y supera a Qwen2.5-VL-7B en Lingo-Judge y tasas de fallo de intervención en el conjunto de datos VecEval.

arxiv arXiv cs.AI · hace 3 h

Caché de KV adaptativo a la recencia/frecuencia para el servicio de LLM

Un nuevo método de caché de KV asigna dinámicamente el espacio de caché entre bloques usados recientemente y con frecuencia para mejorar la eficiencia. Aumenta la tasa de aciertos del caché KV hasta un 10,8 % y reduce el tiempo hasta el primer token hasta un 12,6 % en cargas de trabajo sintéticas, con ganancias del 2,1 % y 2,0 % en tareas de conversación del mundo real.

arxiv arXiv cs.AI · hace 3 h

ACE-GS: Splatting Gaussiano 3D eficiente y preciso

ACE-GS introduce un marco de optimización progresiva que logra un Splatting Gaussiano 3D preciso, compacto y eficiente. Permite un entrenamiento hasta 3.7 veces más rápido que Speedy-Splat, con una mejora de 0.89 dB en PSNR sobre el 3DGS original, mientras mantiene una alta similitud estructural y una representación de escena compacta.

arxiv arXiv cs.AI · hace 3 h

Estudio empírico de la cuantización OpenPangu en NPUs Ascend

Un estudio controlado evalúa los modelos OpenPangu 1B y 7B en NPUs Huawei Ascend 910B1 utilizando métodos de cuantización solo de pesos y de pesos-activación. Los resultados muestran que la cuantización solo de pesos de 8 bits es sin pérdidas para ambos modelos, mientras que la cuantización de 4 bits es práctica para el modelo 7B pero perjudicial para el 1B en tareas de razonamiento, matemáticas y código. Los métodos de ultra baja precisión como 2 bits y binarios fallan, y W4A4 SmoothQuant produce una perplejidad no finita, lo que indica que la compresión extrema de pocos bits sigue siendo un desafío.

arxiv arXiv cs.AI · hace 3 h

ARCO: Rúbrica adaptativa con coevolución para agentes LLM de múltiples pasos

ARCO introduce un marco de rúbricas que permite la asignación de crédito a nivel de paso para agentes LLM de múltiples pasos. Actualiza conjuntamente un modelo compartido con cabezales de generación y puntuación, permitiendo que el contenido de la rúbrica y la función de puntuación coevolucionen mediante datos on-policy, mejorando el rendimiento y la interpretabilidad en benchmarks.

arxiv arXiv cs.AI · hace 3 h

FastGAN y modelos de transformador mejoran la detección de pulgones en habas

Un estudio utiliza FastGAN para generar 10.000 imágenes hiperespectrales sintéticas de hojas de haba, preservando las características espectrales y estructurales reales. Los modelos basados en transformadores, particularmente Vision Transformer, logran la mayor precisión y puntuaciones F1 en la clasificación de hojas sanas frente a hojas infestadas por pulgones, superando a los CNN clásicos y demostrando una mejor detección de enfermedades con reducción de falsos negativos.

arxiv arXiv cs.AI · hace 3 h

Dinámica Neural Topológica: Modelado de Secuencias por Neurona

La Dinámica Neural Topológica (TND) introduce un marco por neurona para el modelado de secuencias, donde cada neurona evoluciona independientemente a través de una estructura de grafo dirigido. En una tarea de clonación de comportamiento de Pong para un solo jugador, TND alcanza una media de 17.47 capturas consecutivas por ronda, superando a todos los modelos base en más de tres veces.

arxiv arXiv cs.AI · hace 3 h

Explicaciones basadas en influencia para la evaluación de la severidad de la disartria

Un nuevo marco proporciona explicaciones a nivel de instancia para la evaluación de la severidad de la disartria identificando muestras de entrenamiento que apoyan y compiten. Utilizando puntuaciones de influencia basadas en gradientes, vincula las decisiones del modelo con casos de referencia perceptibles, permitiendo predicciones auditables e interpretables mediante experimentos de eliminación controlada.

arxiv arXiv cs.AI · hace 3 h

TASER: Expansión de Habilidades Diferenciadas por Tarea para Aprendizaje Continuo Heterogéneo

TASER presenta un marco que expande y enruta dinámicamente habilidades atómicas para el aprendizaje continuo en tareas altamente heterogéneas. Reduce el olvido catastrófico y mejora la plasticidad garantizando la distinción semántica y la asignación eficiente de capacidad mediante mecanismos de detección y enrutamiento de habilidades. Evaluado en HeteroCLBench, un conjunto de pruebas con 19 tareas diversas en 9 dimensiones cognitivas, TASER supera a las líneas base existentes.

arxiv arXiv cs.AI · hace 3 h

Modelo de Mundo Social para Inteligencia Social de por Vida

El Modelo de Mundo Social descompone la interacción social en cinco dimensiones para permitir el aprendizaje en bucle cerrado. Permite que los modelos de código abierto mejoren y retengan sosteniblemente las capacidades sociales, superando a las líneas base e igualando a Gemini 3 Flash de código cerrado en métricas clave sin olvidar a través de niveles de dificultad.

arxiv arXiv cs.AI · hace 3 h

Las etiquetas de advertencia cambian las percepciones pero no la influencia de la IA en la adulación

Un estudio con 2.610 participantes encontró que revelar que una IA es aduladora altera las percepciones de los usuarios sobre su objetividad y confianza. Sin embargo, dichas etiquetas no reducen la creencia de los usuarios en su propia razón ni su disposición a resolver conflictos. Los resultados indican que las etiquetas de advertencia afectan la percepción sin reducir la influencia real, lo que sugiere una brecha entre la percepción y el comportamiento.