Todos los artículos
arxiv arXiv cs.AI · hace 13 d

UFP4: El entrenamiento uniforme de 4 bits supera el sesgo de contracción en el preentrenamiento de LLM

Un estudio identifica un sesgo de contracción en los formatos FP4 basados en E2M1 debido a la asimetría geométrica, lo que provoca acumulación de errores multiplicativos e inestabilidad en el entrenamiento. La receta UFP4 propuesta utiliza cuadrículas uniformes E1M2/INT4 y aplica la Transformada de Hadamard Aleatoria a todos los GEMM, logrando una degradación menor de la pérdida que las líneas base E2M1 en el preentrenamiento de LLM a gran escala. Los autores recomiendan E1M2/INT4 como un primitivo de entrenamiento de primera clase para futuros aceleradores.

arxiv arXiv cs.AI · hace 13 d

DataMagic convierte datos tabulares en videos interactivos de insights

DataMagic transforma datos tabulares crudos y consultas en lenguaje natural en videos narrativos de insights de datos. Utiliza DVSpec para garantizar la fidelidad de los datos vinculando elementos visuales a campos de datos mediante referencias semánticas, y emplea una arquitectura multiagente para generar y orquestar escenas de video coherentes. El sistema admite exploración interactiva y preguntas-respuestas basadas en procedencia de datos, permitiendo a los usuarios interactuar con los datos más allá de vistas estáticas.

arxiv arXiv cs.AI · hace 13 d

NRT-Bench: Red-teaming multi-turn de agentes LLM en sistemas críticos para la seguridad

NRT-Bench presenta un benchmark para el red-teaming multi-turn de agentes LLM que operan en una planta de energía nuclear simulada. En cuatro modelos de operador de vanguardia, entre el 8,7 % y el 12,1 % de las sesiones de ataque provocan la pérdida de una función crítica de seguridad, con vulnerabilidades en gran medida disjuntas entre los modelos. La efectividad de las defensas varía significativamente según el modelo, mostrando una fuerte dependencia del modelo.

arxiv arXiv cs.AI · hace 13 d

La descompilación multi-vista mejora la clasificación de malware basada en LLM

Un benchmark de binarios benignos y maliciosos compilados y descompilados con Ghidra y RetDec revela que proporcionar ambas vistas del descompilador a los modelos de lenguaje grandes mejora el F1 de la clase maliciosa, principalmente al aumentar la recall. El análisis muestra que Ghidra y RetDec cometen errores distintos, lo que indica que sus salidas ofrecen evidencia complementaria para la clasificación de malware.

arxiv arXiv cs.AI · hace 13 d

Aprendizaje profundo guiado por atención para la clasificación interpretable de morfología espermática

Un nuevo marco de aprendizaje profundo combina EfficientNet-B0 con CBAM para mejorar la precisión y la interpretabilidad en la clasificación de morfología espermática. Evaluado en los conjuntos de datos SMIDS y HuSHem, alcanza una precisión del 90,2 % y del 93,9 % con puntuaciones F1 macro de 0,913 y 0,948, superando a los modelos base. Las visualizaciones Grad-CAM++ permiten un análisis transparente de las características, apoyando la adopción clínica en clínicas de fertilidad.

arxiv arXiv cs.AI · hace 13 d

El modelo bayesiano consciente del contexto mejora la predicción del éxito de la FIV

Un modelo bayesiano jerárquico que utiliza 55 características ambientales conscientes del contexto reduce el error de predicción al 1.27% en datos de FIV, en comparación con el 3-5% obtenido con promedios crudos de sensores. El modelo alcanza un R2 = 0.86 en datos no vistos y reduce el error en un 64% para mujeres de 35 a 39 años, mostrando una señal clínica transferible entre clínicas.

arxiv arXiv cs.AI · hace 13 d

UltraQuant: Caché KV de 4 bits para agentes con alta carga de contexto

UltraQuant permite el caché KV de 4 bits para agentes con alta carga de contexto, reduciendo el tiempo P50 hasta el primer token en 3.47x en rondas tardías y aumentando el rendimiento de salida en 1.63x sobre la línea base FP8 KV. Logra esto mediante consultas FP8, tensores KV FP4, escalas de grupo UE8M0 y MFMA escalado nativo en GPUs AMD CDNA4, con optimizaciones para kernels de decode-attention y elecciones de diseño robustas como el tratamiento asimétrico K/V y la rotación de Walsh-Hadamard.

arxiv arXiv cs.AI · hace 13 d

Propagación del sesgo del evaluador en sistemas de LLM multi-agente

Contagion Networks introduce un marco para medir cómo se propagan los sesgos del evaluador entre agentes de LLM. En un experimento con 3 agentes, los sesgos se propagaron consistentemente con coeficientes de contagio entre 0.157 y 0.352, y los agentes de modelo homogéneo mostraron un contagio significativamente más débil que las configuraciones cruzadas entre modelos. Aumentar el tamaño del comité de evaluadores de k=1 a k=3 redujo el contagio efectivo en un 72.4%.

arxiv arXiv cs.AI · hace 13 d

Calibración sin comprensión en la detección de vulnerabilidades de LLM

CWE-Trace evalúa ocho LLMs base y 15 LLMs ajustados con LoRA en la detección de vulnerabilidades del kernel de Linux. Los resultados muestran que la contaminación de los datos no ofrece ninguna ventaja, y el ajuste fino solo desplaza los umbrales de salida sin alterar las políticas de decisión. A pesar de las puntuaciones de detección mejoradas, los LLMs carecen de razonamiento de seguridad confiable, con una precisión de CWE top-1 inferior al 1.3% y un rendimiento de detección binaria del 52.1%.

arxiv arXiv cs.AI · hace 13 d

FreeStyle: Generación escalable de referencias duales de estilo y contenido mediante minería de LoRA comunitario

FreeStyle propone un marco que mina LoRAs comunitarios para generar tripletes de imágenes de referencia dual de estilo-contenido a gran escala. Emplea un currículo en dos etapas con mecanismos de desentrelazamiento para suprimir la fuga de estilo e introduce una evaluación con puntuaciones invariantes al estilo y basadas en VLM para evaluar la preservación del contenido y el rechazo de fugas.

arxiv arXiv cs.AI · hace 13 d

Cómo los LLM alineados con la seguridad interpretan demostraciones mixtas de cumplimiento

Los estudios muestran que las demostraciones benignas y dañinas de cumplimiento no son intercambiables en los LLM. Las demostraciones benignas pueden reducir o aumentar el cumplimiento dañino dependiendo del modelo, con la optimización de preferencias desempeñando un papel clave para prevenir el cumplimiento dañino. El orden de las demostraciones muestra un fuerte sesgo de recencia, y los modelos varían en cómo manejan el rechazo durante el aprendizaje in-context.

arxiv arXiv cs.AI · hace 13 d

Verificación probabilística eficiente y válida para agentes de IA

Un nuevo marco permite la aplicación segura y probabilística de políticas para agentes de IA en entornos ambiguos. Utiliza optimización robusta distribucional para calcular límites superiores rigurosos sobre las probabilidades de violación de políticas sin asumir independencia de predicados. El método supera a los enfoques anteriores en benchmarks de agentes con terminales y llamadas a herramientas, mejorando el equilibrio entre seguridad y utilidad.

arxiv arXiv cs.AI · hace 13 d

FlowEdit: Adaptación de pronunciación continua en TTS con emparejamiento de flujos

FlowEdit permite que los modelos TFS de emparejamiento de flujos congelados adapten correcciones de pronunciación a lo largo del tiempo mediante ediciones latentes en incrustaciones de texto. Almacena las correcciones en una Red de Hopfield moderna y las recupera mediante atención suave con compuerta de similitud, reduciendo las tasas de error de fonema en un 92.7% en 312 sustantivos propios multilingües mientras preserva la calidad del habla general. Las correcciones tardan aproximadamente 15 segundos en completarse en una sola GPU.

arxiv arXiv cs.AI · hace 13 d

Corredor de Ejecución Soberana para Control Agéntico Vinculado a Certificados

El Corredor de Ejecución Soberana (SEB) introduce un límite de aplicación en tiempo de ejecución que verifica y ejecuta la autoridad certificada en sistemas agénticos. Valida contratos de ejecución, verifica los períodos de validez y asegura el cumplimiento de políticas antes de invocar las APIs de infraestructura, proporcionando una capacidad de ejecución efímera, auditable y revocable. El prototipo fue evaluado en AWS y Kubernetes, midiendo la latencia, la propagación de revocaciones y la resistencia a inyección de fallos.