Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 130

SupraLabs lanza el modelo de visión y lenguaje SupraVL-Nano-900k

SupraLabs ha lanzado SupraVL-Nano-900k, un modelo de visión y lenguaje con 900k parámetros, completamente transparente, entrenado desde cero en Flickr8k. Cuenta con un codificador visual CNN, un decodificador estilo GPT-2 y fusión por concatenación de prefijos, con todos los componentes documentados abiertamente y diseñados para claridad educativa.

arxiv arXiv cs.AI · hace 13 d

UFP4: El entrenamiento uniforme de 4 bits supera el sesgo de contracción en el preentrenamiento de LLM

Un estudio identifica un sesgo de contracción en los formatos FP4 basados en E2M1 debido a la asimetría geométrica, lo que provoca acumulación de errores multiplicativos e inestabilidad en el entrenamiento. La receta UFP4 propuesta utiliza cuadrículas uniformes E1M2/INT4 y aplica la Transformada de Hadamard Aleatoria a todos los GEMM, logrando una degradación menor de la pérdida que las líneas base E2M1 en el preentrenamiento de LLM a gran escala. Los autores recomiendan E1M2/INT4 como un primitivo de entrenamiento de primera clase para futuros aceleradores.

github llama.cpp · hace 13 d

LLaMA.cpp Release b9715 Adds CUDA Col2Im 1D and Multiple Platform Binaries

La versión b9715 de LLaMA.cpp introduce soporte para CUDA en GGML_OP_COL2IM_1D, basándose en una implementación para CPU. La versión incluye binarios para macOS, Linux, Android, Windows y openEuler a través de múltiples arquitecturas y marcos de aceleración, incluyendo Vulkan, ROCm, OpenVINO y SYCL.

arxiv arXiv cs.AI · hace 13 d

DataMagic convierte datos tabulares en videos interactivos de insights

DataMagic transforma datos tabulares crudos y consultas en lenguaje natural en videos narrativos de insights de datos. Utiliza DVSpec para garantizar la fidelidad de los datos vinculando elementos visuales a campos de datos mediante referencias semánticas, y emplea una arquitectura multiagente para generar y orquestar escenas de video coherentes. El sistema admite exploración interactiva y preguntas-respuestas basadas en procedencia de datos, permitiendo a los usuarios interactuar con los datos más allá de vistas estáticas.

arxiv arXiv cs.AI · hace 13 d

NRT-Bench: Red-teaming multi-turn de agentes LLM en sistemas críticos para la seguridad

NRT-Bench presenta un benchmark para el red-teaming multi-turn de agentes LLM que operan en una planta de energía nuclear simulada. En cuatro modelos de operador de vanguardia, entre el 8,7 % y el 12,1 % de las sesiones de ataque provocan la pérdida de una función crítica de seguridad, con vulnerabilidades en gran medida disjuntas entre los modelos. La efectividad de las defensas varía significativamente según el modelo, mostrando una fuerte dependencia del modelo.

arxiv arXiv cs.AI · hace 13 d

La descompilación multi-vista mejora la clasificación de malware basada en LLM

Un benchmark de binarios benignos y maliciosos compilados y descompilados con Ghidra y RetDec revela que proporcionar ambas vistas del descompilador a los modelos de lenguaje grandes mejora el F1 de la clase maliciosa, principalmente al aumentar la recall. El análisis muestra que Ghidra y RetDec cometen errores distintos, lo que indica que sus salidas ofrecen evidencia complementaria para la clasificación de malware.

arxiv arXiv cs.AI · hace 13 d

Aprendizaje profundo guiado por atención para la clasificación interpretable de morfología espermática

Un nuevo marco de aprendizaje profundo combina EfficientNet-B0 con CBAM para mejorar la precisión y la interpretabilidad en la clasificación de morfología espermática. Evaluado en los conjuntos de datos SMIDS y HuSHem, alcanza una precisión del 90,2 % y del 93,9 % con puntuaciones F1 macro de 0,913 y 0,948, superando a los modelos base. Las visualizaciones Grad-CAM++ permiten un análisis transparente de las características, apoyando la adopción clínica en clínicas de fertilidad.

arxiv arXiv cs.AI · hace 13 d

Reutilización de un clasificador de voz para generación basada en difusión

Un clasificador de voz preentrenado se reutiliza como columna vertebral para la generación de voz guiada por difusión. Al adjuntar una subred ligera y entrenarla bajo emparejamiento de puntuaciones de denoising, el enfoque logra alta calidad de voz con menor costo de memoria y computacional, utilizando un único modelo en lugar de dos componentes entrenados por separado.

arxiv arXiv cs.AI · hace 13 d

El modelo bayesiano consciente del contexto mejora la predicción del éxito de la FIV

Un modelo bayesiano jerárquico que utiliza 55 características ambientales conscientes del contexto reduce el error de predicción al 1.27% en datos de FIV, en comparación con el 3-5% obtenido con promedios crudos de sensores. El modelo alcanza un R2 = 0.86 en datos no vistos y reduce el error en un 64% para mujeres de 35 a 39 años, mostrando una señal clínica transferible entre clínicas.

arxiv arXiv cs.AI · hace 13 d

Desvío defensivo contra ataques automatizados en IA agéntica

Los sistemas de IA agéntica enfrentan crecientes amenazas por parte de ataques automatizados guiados por modelos. Una nueva estrategia de defensa, Desvío Contextual mediante Compromiso Progresivo (CMPE), reduce las tasas de éxito del atacante hasta en dos órdenes de magnitud y casi elimina el éxito verificado del ataque en pruebas de referencia.

arxiv arXiv cs.AI · hace 13 d

UltraQuant: Caché KV de 4 bits para agentes con alta carga de contexto

UltraQuant permite el caché KV de 4 bits para agentes con alta carga de contexto, reduciendo el tiempo P50 hasta el primer token en 3.47x en rondas tardías y aumentando el rendimiento de salida en 1.63x sobre la línea base FP8 KV. Logra esto mediante consultas FP8, tensores KV FP4, escalas de grupo UE8M0 y MFMA escalado nativo en GPUs AMD CDNA4, con optimizaciones para kernels de decode-attention y elecciones de diseño robustas como el tratamiento asimétrico K/V y la rotación de Walsh-Hadamard.

arxiv arXiv cs.AI · hace 13 d

Orden óptimo en el marco de sistemas multiagente

Un nuevo marco analiza los sistemas multiagente modelando las funciones de influencia y respuesta de los agentes. Deriva propiedades macroscópicas como potencia, entropía y orden, e identifica un nivel óptimo de sincronización que equilibra productividad, estabilidad y adaptabilidad. El estudio muestra que el orden y las propiedades del sistema dependen de la tarea y son relativos al contexto.

arxiv arXiv cs.AI · hace 13 d

Propagación del sesgo del evaluador en sistemas de LLM multi-agente

Contagion Networks introduce un marco para medir cómo se propagan los sesgos del evaluador entre agentes de LLM. En un experimento con 3 agentes, los sesgos se propagaron consistentemente con coeficientes de contagio entre 0.157 y 0.352, y los agentes de modelo homogéneo mostraron un contagio significativamente más débil que las configuraciones cruzadas entre modelos. Aumentar el tamaño del comité de evaluadores de k=1 a k=3 redujo el contagio efectivo en un 72.4%.

arxiv arXiv cs.AI · hace 13 d

Calibración sin comprensión en la detección de vulnerabilidades de LLM

CWE-Trace evalúa ocho LLMs base y 15 LLMs ajustados con LoRA en la detección de vulnerabilidades del kernel de Linux. Los resultados muestran que la contaminación de los datos no ofrece ninguna ventaja, y el ajuste fino solo desplaza los umbrales de salida sin alterar las políticas de decisión. A pesar de las puntuaciones de detección mejoradas, los LLMs carecen de razonamiento de seguridad confiable, con una precisión de CWE top-1 inferior al 1.3% y un rendimiento de detección binaria del 52.1%.

arxiv arXiv cs.AI · hace 13 d

FreeStyle: Generación escalable de referencias duales de estilo y contenido mediante minería de LoRA comunitario

FreeStyle propone un marco que mina LoRAs comunitarios para generar tripletes de imágenes de referencia dual de estilo-contenido a gran escala. Emplea un currículo en dos etapas con mecanismos de desentrelazamiento para suprimir la fuga de estilo e introduce una evaluación con puntuaciones invariantes al estilo y basadas en VLM para evaluar la preservación del contenido y el rechazo de fugas.

arxiv arXiv cs.AI · hace 13 d

Cómo los LLM alineados con la seguridad interpretan demostraciones mixtas de cumplimiento

Los estudios muestran que las demostraciones benignas y dañinas de cumplimiento no son intercambiables en los LLM. Las demostraciones benignas pueden reducir o aumentar el cumplimiento dañino dependiendo del modelo, con la optimización de preferencias desempeñando un papel clave para prevenir el cumplimiento dañino. El orden de las demostraciones muestra un fuerte sesgo de recencia, y los modelos varían en cómo manejan el rechazo durante el aprendizaje in-context.

arxiv arXiv cs.AI · hace 13 d

Verificación probabilística eficiente y válida para agentes de IA

Un nuevo marco permite la aplicación segura y probabilística de políticas para agentes de IA en entornos ambiguos. Utiliza optimización robusta distribucional para calcular límites superiores rigurosos sobre las probabilidades de violación de políticas sin asumir independencia de predicados. El método supera a los enfoques anteriores en benchmarks de agentes con terminales y llamadas a herramientas, mejorando el equilibrio entre seguridad y utilidad.

arxiv arXiv cs.AI · hace 13 d

Multi-LCB: Extender LiveCodeBench a 12 lenguajes de programación

Multi-LCB extiende LiveCodeBench a doce lenguajes de programación, preservando sus controles de contaminación y protocolo de evaluación. Revela sobreajuste en Python, sesgos específicos del lenguaje y brechas significativas de rendimiento entre LLMs a través de los lenguajes, estableciendo un riguroso benchmark para la generación de código multilingüe.

arxiv arXiv cs.AI · hace 13 d

FlowEdit: Adaptación de pronunciación continua en TTS con emparejamiento de flujos

FlowEdit permite que los modelos TFS de emparejamiento de flujos congelados adapten correcciones de pronunciación a lo largo del tiempo mediante ediciones latentes en incrustaciones de texto. Almacena las correcciones en una Red de Hopfield moderna y las recupera mediante atención suave con compuerta de similitud, reduciendo las tasas de error de fonema en un 92.7% en 312 sustantivos propios multilingües mientras preserva la calidad del habla general. Las correcciones tardan aproximadamente 15 segundos en completarse en una sola GPU.

arxiv arXiv cs.AI · hace 13 d

Corredor de Ejecución Soberana para Control Agéntico Vinculado a Certificados

El Corredor de Ejecución Soberana (SEB) introduce un límite de aplicación en tiempo de ejecución que verifica y ejecuta la autoridad certificada en sistemas agénticos. Valida contratos de ejecución, verifica los períodos de validez y asegura el cumplimiento de políticas antes de invocar las APIs de infraestructura, proporcionando una capacidad de ejecución efímera, auditable y revocable. El prototipo fue evaluado en AWS y Kubernetes, midiendo la latencia, la propagación de revocaciones y la resistencia a inyección de fallos.