Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 100

LLMs evaluados para la detección de vulnerabilidades web

Un estudio evalúa seis LLMs en la detección de vulnerabilidades web del mundo real en plugins de WordPress, encontrando que las tasas de detección varían según el modelo y el diseño del prompt. Claude Opus 4.6 logró la tasa de detección más alta con un 63%, mientras que Qwen 3.5 solo alcanzó un 35%, y ningún modelo identificó consistentemente todas las vulnerabilidades de referencia a través de las iteraciones.

arxiv arXiv cs.AI · hace 1 h En vivo

La supervisión de LLM-Agent debe pasar de la calibración al control condicionado a la acción

La supervisión actual de los agentes LLM se basa en puntuaciones de riesgo escalares, pero esto no logra capturar si una intervención mejora los resultados. El artículo introduce "ventaja de intervención" como la métrica clave, demostrando que el control condicionado a la acción supera al enrutamiento escalar en benchmarks, con una reducción significativa del arrepentimiento en regímenes interactivos. La calibración por sí sola no resuelve la discrepancia subyacente en el rendimiento del control.

arxiv arXiv cs.AI · hace 1 h En vivo

SwarmX: Programación de agentes para sistemas de baja latencia

SwarmX introduce predictores neuronales para habilitar la programación consciente del prompt en sistemas de IA agéntica. Reduce la latencia de cola hasta un 61,5 % y mantiene hasta 2x el throughput de los programadores de producción bajo los mismos objetivos de nivel de servicio.

arxiv arXiv cs.AI · hace 1 h En vivo

La información errónea puede dañar a los agentes LLM que utilizan herramientas

Los estudios muestran que la información engañosa puede hacer que los agentes LLM rindan peor que sin ninguna información. En HotpotQA, Qwen2.5-7B baja de 44.8 a 4.7 F1 bajo recuperación desordenada, a pesar de tener herramientas limpias. Estos resultados indican que las ganancias por el uso de herramientas pueden estar exageradas y que los controles sin información son esenciales para una evaluación válida.

arxiv arXiv cs.AI · hace 1 h En vivo

2D vs 3D Diffusion para Entrenamiento de IA con Rayos X Sintéticos

Un estudio compara modelos de difusión 2D y 3D para generar imágenes sintéticas de rayos X. Muestra que los rayos X sintéticos basados en difusión 2D pueden entrenar modelos de IA para desempeñarse tan bien como los modelos entrenados con rayos X reales, ofreciendo una ruta viable hacia conjuntos de datos grandes y diversos sin depender de datos reales de pacientes.

arxiv arXiv cs.AI · hace 1 h En vivo

MIRCaps: Conjunto de datos a gran escala de visión y lenguaje en dominios mixtos

MIRCaps introduce un conjunto de datos multimodal a gran escala con 141.364 imágenes, 981.947 descripciones a nivel de imagen, 1.742.264 descripciones a nivel de región y 5.391.779 anotaciones de cajas delimitadoras. Permite el aprendizaje fino de visión y lenguaje al proporcionar descripciones detalladas para categorías de objetos, tamaños, colores, acciones y contexto ambiental, y demuestra efectividad en tareas de descripción de imágenes y detección de objetos.

arxiv arXiv cs.AI · hace 1 h En vivo

Los modelos MoE muestran un rendimiento de inferencia dependiente del dispositivo

Un estudio empírico encuentra que los modelos Mixture-of-Experts no superan consistentemente a los modelos densos en hardware de consumo o edge. En el Apple M2 Pro, OLMoE-1B-7B es solo un 10% más lento que un modelo denso comparable, mientras que en el NVIDIA Jetson Orin Nano, es un 31% más lento con 2.1 veces más energía por token, debido a restricciones de memoria y KV-cache. Los resultados indican que los beneficios de la activación dispersa están limitados por la huella de memoria del total de parámetros, especialmente en dispositivos edge limitados por ancho de banda.

arxiv arXiv cs.AI · hace 1 h En vivo

AutoRAS: Aprendizaje de Sistemas Agénticos Robustos con Representaciones Primitivas

AutoRAS propone un marco para diseñar automáticamente sistemas agénticos robustos generando secuencias de primitivas simbólicas que codifican tanto la conectividad estructural como las acciones conductuales. Optimiza estas secuencias utilizando señales de seguridad de la ejecución y objetivos basados en flujos, logrando un rendimiento superior tanto en condiciones normales como adversarias con una degradación mínima bajo ataques.

arxiv arXiv cs.AI · hace 1 h En vivo

CORTIS: Adaptación de Modelos de Lenguaje Hablado Solo con Texto

CORTIS permite que los agentes de voz orientados a tareas generen salidas de habla estructuradas mediante el ajuste fino de modelos de lenguaje hablado utilizando únicamente supervisión de tareas en formato texto. Supera a las cascadas ASR-LLM bajo degradación acústica, especialmente en la preservación de la semántica de alto nivel de la tarea, sin requerir anotaciones emparejadas de habla-objetivo durante el entrenamiento.

arxiv arXiv cs.AI · hace 1 h En vivo

Evaluación de referencia de modelos de lenguaje pequeños para PLN en árabe

Una evaluación de referencia con 240 elementos de prueba en árabe en ocho dominios y diez habilidades evalúa doce modelos de lenguaje pequeños en configuraciones zero-shot. Gemma 3 (12B) obtuvo la puntuación general más alta (4.548/5), seguido por Aya y C4AI Command Arabic, con un rendimiento vinculado más a la alineación con el árabe y al seguimiento de instrucciones que al tamaño del modelo. Los modos de fallo comunes incluyen filtración de prompt, alucinación y débil adherencia a la tarea.

arxiv arXiv cs.AI · hace 1 h En vivo

Reutilización de un clasificador de voz para generación basada en difusión

Un clasificador de voz preentrenado se reutiliza como columna vertebral para la generación de voz guiada por difusión. Al adjuntar una subred ligera y entrenarla bajo emparejamiento de puntuaciones de denoising, el enfoque logra alta calidad de voz con menor costo de memoria y computacional, utilizando un único modelo en lugar de dos componentes entrenados por separado.

arxiv arXiv cs.AI · hace 1 h En vivo

El modelo bayesiano consciente del contexto mejora la predicción del éxito de la FIV

Un modelo bayesiano jerárquico que utiliza 55 características ambientales conscientes del contexto reduce el error de predicción al 1.27% en datos de FIV, en comparación con el 3-5% obtenido con promedios crudos de sensores. El modelo alcanza un R2 = 0.86 en datos no vistos y reduce el error en un 64% para mujeres de 35 a 39 años, mostrando una señal clínica transferible entre clínicas.

arxiv arXiv cs.AI · hace 1 h En vivo

Desvío defensivo contra ataques automatizados en IA agéntica

Los sistemas de IA agéntica enfrentan crecientes amenazas por parte de ataques automatizados guiados por modelos. Una nueva estrategia de defensa, Desvío Contextual mediante Compromiso Progresivo (CMPE), reduce las tasas de éxito del atacante hasta en dos órdenes de magnitud y casi elimina el éxito verificado del ataque en pruebas de referencia.

arxiv arXiv cs.AI · hace 1 h En vivo

UltraQuant: Caché KV de 4 bits para agentes con alta carga de contexto

UltraQuant permite el caché KV de 4 bits para agentes con alta carga de contexto, reduciendo el tiempo P50 hasta el primer token en 3.47x en rondas tardías y aumentando el rendimiento de salida en 1.63x sobre la línea base FP8 KV. Logra esto mediante consultas FP8, tensores KV FP4, escalas de grupo UE8M0 y MFMA escalado nativo en GPUs AMD CDNA4, con optimizaciones para kernels de decode-attention y elecciones de diseño robustas como el tratamiento asimétrico K/V y la rotación de Walsh-Hadamard.

arxiv arXiv cs.AI · hace 1 h En vivo

Orden óptimo en el marco de sistemas multiagente

Un nuevo marco analiza los sistemas multiagente modelando las funciones de influencia y respuesta de los agentes. Deriva propiedades macroscópicas como potencia, entropía y orden, e identifica un nivel óptimo de sincronización que equilibra productividad, estabilidad y adaptabilidad. El estudio muestra que el orden y las propiedades del sistema dependen de la tarea y son relativos al contexto.

arxiv arXiv cs.AI · hace 1 h En vivo

Propagación del sesgo del evaluador en sistemas de LLM multi-agente

Contagion Networks introduce un marco para medir cómo se propagan los sesgos del evaluador entre agentes de LLM. En un experimento con 3 agentes, los sesgos se propagaron consistentemente con coeficientes de contagio entre 0.157 y 0.352, y los agentes de modelo homogéneo mostraron un contagio significativamente más débil que las configuraciones cruzadas entre modelos. Aumentar el tamaño del comité de evaluadores de k=1 a k=3 redujo el contagio efectivo en un 72.4%.

arxiv arXiv cs.AI · hace 2 h

Modelo de IA Explicable para la Depresión Relacionada con la Carrera en Estudiantes Universitarios

Un nuevo marco de IA Explicable utiliza datos conductuales estructurados y características de emociones faciales para detectar signos tempranos de depresión y ansiedad relacionadas con la carrera en estudiantes universitarios. El modelo, evaluado en datos de estudiantes pakistaníes, alcanza una puntuación F1 del 89.12% e identifica marcadores clave como la evitación de la mirada directa y el aislamiento social, alineándose con la teoría psicológica.

arxiv arXiv cs.AI · hace 2 h

Desacoplar el conocimiento declarativo y procedimental en modelos de visión-lenguaje-acción

w$^{2}$VLA introduce un modelo modular de visión-lenguaje-acción que desacopla el conocimiento declarativo y procedimental. Al reestructurar el flujo de información, permite una clonación de comportamiento robusta y la transferencia de habilidades zero-shot a objetos nuevos y disímiles.

arxiv arXiv cs.AI · hace 2 h

Aprendizaje profundo con complejidad temporal paralela O(log N)

El Aprendizaje Jerárquico Bloque-Local (HBLL) permite el entrenamiento de redes neuronales profundas en una complejidad temporal paralela de O(log N), eliminando la necesidad de retropropagación completa. HBLL descompone las redes en bloques vinculados jerárquicamente y logra un rendimiento competitivo en tareas de visión y lenguaje, con extensiones a arquitecturas recurrentes.

arxiv arXiv cs.AI · hace 2 h

La divergencia JS mejora la alineación de texto a imagen autoregresiva con GRPO

Un estudio introduce la divergencia JS en el post-entrenamiento autoregresivo de texto a imagen estilo GRPO, mostrando que equilibra la optimización de políticas y la diversidad de generación. Los experimentos en LlamaGen y Janus-7B demuestran que la divergencia JS logra un rendimiento superior o fuerte en las métricas de evaluación mientras preserva salidas diversas.