Todos los artículos
github llama.cpp · hace 12 d

llama.cpp versión b9714 añade el encabezado X-Accel-Buffering y nuevos binarios

llama.cpp versión b9714 añade el encabezado "X-Accel-Buffering": "no" a los puntos de conexión de transmisión para evitar que Nginx almacene en búfer las respuestas, lo que resuelve problemas de transmisión con aplicaciones como el entorno de codificación Pi. El lanzamiento incluye binarios para macOS, Linux, Android, Windows y openEuler en múltiples arquitecturas y opciones de aceleración por hardware.

arxiv arXiv cs.AI · hace 12 d

UFP4: El entrenamiento uniforme de 4 bits supera el sesgo de contracción en el preentrenamiento de LLM

Un estudio identifica un sesgo de contracción en los formatos FP4 basados en E2M1 debido a la asimetría geométrica, lo que provoca acumulación de errores multiplicativos e inestabilidad en el entrenamiento. La receta UFP4 propuesta utiliza cuadrículas uniformes E1M2/INT4 y aplica la Transformada de Hadamard Aleatoria a todos los GEMM, logrando una degradación menor de la pérdida que las líneas base E2M1 en el preentrenamiento de LLM a gran escala. Los autores recomiendan E1M2/INT4 como un primitivo de entrenamiento de primera clase para futuros aceleradores.

arxiv arXiv cs.AI · hace 12 d

DataMagic convierte datos tabulares en videos interactivos de insights

DataMagic transforma datos tabulares crudos y consultas en lenguaje natural en videos narrativos de insights de datos. Utiliza DVSpec para garantizar la fidelidad de los datos vinculando elementos visuales a campos de datos mediante referencias semánticas, y emplea una arquitectura multiagente para generar y orquestar escenas de video coherentes. El sistema admite exploración interactiva y preguntas-respuestas basadas en procedencia de datos, permitiendo a los usuarios interactuar con los datos más allá de vistas estáticas.

arxiv arXiv cs.AI · hace 12 d

NRT-Bench: Red-teaming multi-turn de agentes LLM en sistemas críticos para la seguridad

NRT-Bench presenta un benchmark para el red-teaming multi-turn de agentes LLM que operan en una planta de energía nuclear simulada. En cuatro modelos de operador de vanguardia, entre el 8,7 % y el 12,1 % de las sesiones de ataque provocan la pérdida de una función crítica de seguridad, con vulnerabilidades en gran medida disjuntas entre los modelos. La efectividad de las defensas varía significativamente según el modelo, mostrando una fuerte dependencia del modelo.

arxiv arXiv cs.AI · hace 12 d

La descompilación multi-vista mejora la clasificación de malware basada en LLM

Un benchmark de binarios benignos y maliciosos compilados y descompilados con Ghidra y RetDec revela que proporcionar ambas vistas del descompilador a los modelos de lenguaje grandes mejora el F1 de la clase maliciosa, principalmente al aumentar la recall. El análisis muestra que Ghidra y RetDec cometen errores distintos, lo que indica que sus salidas ofrecen evidencia complementaria para la clasificación de malware.

arxiv arXiv cs.AI · hace 12 d

Aprendizaje profundo guiado por atención para la clasificación interpretable de morfología espermática

Un nuevo marco de aprendizaje profundo combina EfficientNet-B0 con CBAM para mejorar la precisión y la interpretabilidad en la clasificación de morfología espermática. Evaluado en los conjuntos de datos SMIDS y HuSHem, alcanza una precisión del 90,2 % y del 93,9 % con puntuaciones F1 macro de 0,913 y 0,948, superando a los modelos base. Las visualizaciones Grad-CAM++ permiten un análisis transparente de las características, apoyando la adopción clínica en clínicas de fertilidad.

arxiv arXiv cs.AI · hace 12 d

El modelo bayesiano consciente del contexto mejora la predicción del éxito de la FIV

Un modelo bayesiano jerárquico que utiliza 55 características ambientales conscientes del contexto reduce el error de predicción al 1.27% en datos de FIV, en comparación con el 3-5% obtenido con promedios crudos de sensores. El modelo alcanza un R2 = 0.86 en datos no vistos y reduce el error en un 64% para mujeres de 35 a 39 años, mostrando una señal clínica transferible entre clínicas.

arxiv arXiv cs.AI · hace 12 d

UltraQuant: Caché KV de 4 bits para agentes con alta carga de contexto

UltraQuant permite el caché KV de 4 bits para agentes con alta carga de contexto, reduciendo el tiempo P50 hasta el primer token en 3.47x en rondas tardías y aumentando el rendimiento de salida en 1.63x sobre la línea base FP8 KV. Logra esto mediante consultas FP8, tensores KV FP4, escalas de grupo UE8M0 y MFMA escalado nativo en GPUs AMD CDNA4, con optimizaciones para kernels de decode-attention y elecciones de diseño robustas como el tratamiento asimétrico K/V y la rotación de Walsh-Hadamard.

arxiv arXiv cs.AI · hace 13 d

Propagación del sesgo del evaluador en sistemas de LLM multi-agente

Contagion Networks introduce un marco para medir cómo se propagan los sesgos del evaluador entre agentes de LLM. En un experimento con 3 agentes, los sesgos se propagaron consistentemente con coeficientes de contagio entre 0.157 y 0.352, y los agentes de modelo homogéneo mostraron un contagio significativamente más débil que las configuraciones cruzadas entre modelos. Aumentar el tamaño del comité de evaluadores de k=1 a k=3 redujo el contagio efectivo en un 72.4%.