Todos los artículos
blog Simon Willison · hace 1 h En vivo

GLM-5.2 es el modelo de pesos abiertos líder en el Índice de Inteligencia de Artificial Analysis

GLM-5.2, un modelo de solo texto con 753B parámetros de Z.ai, es ahora el modelo de pesos abiertos principal en el Índice de Inteligencia de Artificial Analysis, superando a MiniMax-M3, DeepSeek V4 Pro y Kimi K2.6. Cuenta con una ventana de contexto de 1 millón de tokens y ocupa el segundo lugar en la tabla de clasificación Code Arena WebDev, a pesar de carecer de capacidades de entrada de imagen.

media r/LocalLLaMA · hace 2 h

Lemonade v10.8 lanza gestión automática de memoria, descarga a la nube y soporte para herramientas MCP

Lemonade v10.8 introduce gestión dinámica de VRAM que descarga automáticamente los modelos inactivos y reduce el tamaño del KV-cache para recuperar memoria de GPU. Añade soporte de descarga a la nube para proveedores compatibles con OpenAI, permitiendo el servicio de modelos local-first con enrutamiento opcional a la nube. Una nueva puerta de enlace MCP expone los modelos locales como herramientas mediante POST /mcp, permitiendo que los modelos locales se utilicen como herramientas en aplicaciones compatibles con MCP.

media r/LocalLLaMA · hace 2 h

Necesitamos urgentemente un modelo de 80-160B para dispositivos de memoria unificada

Los usuarios con memoria unificada de 80-160GB o RAM de alta anchura de banda enfrentan limitaciones debido a la falta de modelos adaptados a su hardware. Los modelos existentes son demasiado pequeños para el rendimiento o demasiado grandes para las restricciones de memoria, lo que impulsa una llamada por modelos dispersos de escala 100B como Qwen 3.5 122B o Gemma 4 122B para servir mejor a usuarios con AMD AI Pro, RTX 3090/5090 o dispositivos Apple.

media r/LocalLLaMA · hace 2 h

Post-entrené un modelo para lanzar un dado de manera confiable

Un usuario entrenó un modelo de lenguaje para lanzar un dado, asegurando que cada número aparezca aproximadamente una vez cada seis lanzamientos. La publicación destaca cómo los LLMs convencionales tienden a dar por defecto '4' cuando se les pide lanzar un dado, ilustrando un problema más amplio en el aprendizaje por refuerzo: los modelos a menudo fallan al explorar de manera efectiva y en su lugar siguen patrones conocidos.

media r/LocalLLaMA · hace 2 h

Configuración de implementación Docker SGLang GLM-5.2-FP8 HGX-H200

Un usuario comparte una configuración de Docker para ejecutar GLM-5.2-FP8 en hardware HGX-H200 utilizando SGLang. La configuración logra una longitud de contexto de 262k y 70 tokens por segundo con paralelismo tensorial de 8, usando una fracción de memoria de 0.83. El usuario señala que las recetas oficiales de vLLM no funcionan en H200 debido a limitaciones de cuantización FP8 del caché KV en la arquitectura DSV3.

media r/LocalLLaMA · hace 2 h

Construimos un kit de interfaz de usuario de código abierto para RAG/documentos y agentes

Extend AI ha lanzado un kit de interfaz de usuario de código abierto con 15 componentes para visores de PDF, DOCX y XLSX, que incluyen citas de cajas delimitadoras, carga de archivos, firma electrónica y sistemas de archivos. El conjunto de herramientas, con licencia MIT y totalmente personalizable, fue inicialmente interno pero ahora es de código abierto debido a la demanda de los clientes, y se mantiene para escalabilidad y manejo de casos extremos en el procesamiento de documentos de alto volumen.

media r/LocalLLaMA · hace 2 h

LoopCoder-V2: Modelo PLT de dos bucles logra la mejor relación ganancia-coste

LoopCoder-V2 es un modelo de código ajustado con instrucciones de 7B basado en Parallel Loop Transformer (PLT), entrenado con 18T tokens de datos mixtos de texto y código. La variante de dos bucles logra el mejor equilibrio entre ganancia y coste, mejorando SWE-bench Verified de 43.0 a 64.4, mientras que tres o más bucles provocan regresión debido al aumento del desajuste posicional y actualizaciones inestables.

media r/LocalLLaMA · hace 2 h

GameCraft-Bench: ¿Pueden los agentes construir juegos jugables de extremo a extremo en un motor de juego real?

GameCraft-Bench evalúa si los modelos de lenguaje grandes pueden construir juegos jugables de extremo a extremo utilizando un motor de juego real. El benchmark incluye evaluaciones de modelos principales como Opus-4.7 y GPT-5.5, con interés en cómo los modelos de tamaño mediano (por ejemplo, 30-70B parámetros) se desempeñan en tareas de desarrollo de juegos.

media r/LocalLLaMA · hace 2 h

Hacer que los modelos económicos rindan más allá de su peso con un marco de trabajo Rust inteligente

Un nuevo marco de trabajo basado en Rust permite a los modelos de lenguaje pequeños lograr un rendimiento comparable al de modelos más grandes, utilizando una gestión eficiente de la memoria y computación optimizada. El enfoque reduce la demanda de recursos sin sacrificar precisión, haciendo que la IA avanzada sea accesible para entornos con recursos limitados.