Todos los artículos
media r/LocalLLaMA · hace 14 h

El selector de compilaciones GPU offline estima el ajuste y la velocidad del modelo local

Un desarrollador ha lanzado una herramienta HTML offline de un solo archivo que estima qué modelos de lenguaje grandes locales se ajustarán a una configuración de GPU específica y predice su velocidad de generación de tokens. La herramienta está diseñada para responder a la pregunta común sobre si una compilación personalizada de PC puede ejecutar los modelos deseados de manera efectiva, sin requerir un backend ni cuenta de usuario.

media Ahead of AI · hace 15 h

Configuración de un agente de codificación local con herramientas de código abierto

Este artículo proporciona un tutorial sobre la configuración de una pila de agentes de codificación completamente local y lista para producción, utilizando herramientas de código abierto y modelos de lenguaje grandes de pesos abiertos. Detalla cómo combinar un LLM servido localmente con un entorno de codificación capaz de leer archivos, realizar ediciones, ejecutar comandos y verificar cambios.

media r/LocalLLaMA · hace 15 h

Informes de RTX 5090 con 96GB VRAM en Huaqiangbei de Shenzhen

Los visitantes del mercado electrónico Huaqiangbei de Shenzhen han encontrado informes y ofertas potenciales de tarjetas gráficas Nvidia RTX 5090 modificadas equipadas con 96 gigabytes de RAM de video. Un vendedor indicó que una RTX 6000 Blackwell modificada costaría aproximadamente $8,200, compuestos por 36,000 yuanes por la tarjeta base y 20,000 yuanes adicionales por la actualización de memoria.

media r/LocalLLaMA · hace 15 h

PR #20793 de llama.cpp: reintroducción de menos sincronizaciones durante el cálculo dividido

La solicitud de extracción #20793 reintroduce una reducción en la sincronización durante las operaciones de cálculo dividido en llama.cpp, dirigida principalmente a mejoras de rendimiento en CUDA. Los cambios implican intercambiar copias sincrónicas por copias asíncronas y relajar los requisitos de sincronización entre las copias de entrada en backends compatibles.