Todos los artículos
blog Simon Willison · hace 2 h

Datasette lanza el plugin Apps para aplicaciones HTML personalizadas

Datasette ha lanzado un nuevo plugin, datasette-apps, que permite ejecutar aplicaciones autocontenidas de HTML+JavaScript en una sandbox de iframe segura. Estas aplicaciones pueden ejecutar consultas SQL de solo lectura o de escritura contra las bases de datos de Datasette, con funciones de seguridad integradas como encabezados CSP y restricciones de sandbox para prevenir la exfiltración de datos o el acceso no autorizado.

media r/LocalLLaMA · hace 2 h

GLM-5.2 (744B, 2-bit) alcanza 7.3 tok/s en 4×3090 con 192GB de RAM

GLM-5.2 UD-IQ2_M funciona a ~7.3 tokens por segundo en 4×RTX 3090s con 192GB de RAM DDR5 usando expert offload de llama.cpp. Reducir la cuantización de IQ2 a IQ1 no proporcionó ganancia de velocidad, mientras que aumentar los hilos de CPU de 6 a 12 mejoró el rendimiento en un 22%. La decodificación está limitada por el cómputo de CPU, no por el ancho de banda de memoria, y los expertos descargados deben distribuirse explícitamente entre las GPUs para evitar errores de falta de memoria.

media r/LocalLLaMA · hace 2 h

Ejecutar GLM-5.2 solo en CPU con configuración local

Un usuario ejecuta GLM-5.2 localmente en un Dell PowerEdge R740 con dos CPUs Xeon 6248R y 768GB de RAM, utilizando ik_llama.cpp para mejorar la inferencia en CPU. Tras aislar un nodo NUMA para un rendimiento óptimo, logran 4–5.5 tokens por segundo en chat y aproximadamente 3 tokens por segundo en tareas de codificación, señalando que el modelo muestra 'sensaciones de frontera' durante la generación de código a pesar de su limitada usabilidad en este hardware.

media r/LocalLLaMA · hace 2 h

Reutilizar un nodo antiguo de múltiples GPUs para inferencia local

El nodo cuenta con 8 GPUs NVIDIA Quadro RTX 6000 con 192 GB de VRAM y 512 GB de RAM, lo que permite la inferencia de modelos de IA a gran escala en local. Modelos como LLaMA-3 o Mistral con 8-13 mil millones de parámetros podrían ejecutarse eficientemente aquí, ofreciendo un rendimiento más rápido, privado y de baja latencia en comparación con configuraciones de GPU única, lo que lo hace valioso para uso interno.

media r/LocalLLaMA · hace 2 h

LFM2.5-Embedding-350M y LFM2.5-ColBERT-350M lanzados

LFM2.5-Embedding-350M es un codificador bi-denso que proporciona recuperación multilingüe rápida con un vector por documento, logrando la mejor precisión para su tamaño y una velocidad de inferencia comparable a modelos más pequeños. LFM2.5-ColBERT-350M es un recuperador de interacción tardía con la mejor precisión multilingüe, permitiendo la recuperación entre idiomas al almacenar un vector por token y admitir la recuperación en múltiples idiomas con alta precisión. Ambos modelos están diseñados como reemplazos directos para las tuberías RAG existentes.

media r/LocalLLaMA · hace 2 h

Ahorros reales en costos de tokens con rtk, headroom y caveman

Un análisis de carga de trabajo real muestra que headroom, rtk y caveman reducen los costos de tokens en 2.8%, 0.5% y 0.4% respectivamente, sumando un 3.7% del gasto base. Sin embargo, los ahorros están limitados por la diversidad de payloads, con la mayor parte del tráfico siendo texto plano o código fuente, y las herramientas solo comprimen salidas estructuradas. La mayor reducción de costos ocurre en el flujo de tokens más barato—lecturas de caché—mientras que las herramientas no afectan el almacenamiento en caché de prompts ni los costos de salida, y existen brechas de cobertura, especialmente para rtk.