Todos los artículos
media r/LocalLLaMA · hace 6 h

El selector de compilaciones GPU offline estima el ajuste y la velocidad del modelo local

Un desarrollador ha lanzado una herramienta HTML offline de un solo archivo que estima qué modelos de lenguaje grandes locales se ajustarán a una configuración de GPU específica y predice su velocidad de generación de tokens. La herramienta está diseñada para responder a la pregunta común sobre si una compilación personalizada de PC puede ejecutar los modelos deseados de manera efectiva, sin requerir un backend ni cuenta de usuario.

media Ahead of AI · hace 7 h

Configuración de un agente de codificación local con herramientas de código abierto

Este artículo proporciona un tutorial sobre la configuración de una pila de agentes de codificación completamente local y lista para producción, utilizando herramientas de código abierto y modelos de lenguaje grandes de pesos abiertos. Detalla cómo combinar un LLM servido localmente con un entorno de codificación capaz de leer archivos, realizar ediciones, ejecutar comandos y verificar cambios.

media r/LocalLLaMA · hace 7 h

Informes de RTX 5090 con 96GB VRAM en Huaqiangbei de Shenzhen

Los visitantes del mercado electrónico Huaqiangbei de Shenzhen han encontrado informes y ofertas potenciales de tarjetas gráficas Nvidia RTX 5090 modificadas equipadas con 96 gigabytes de RAM de video. Un vendedor indicó que una RTX 6000 Blackwell modificada costaría aproximadamente $8,200, compuestos por 36,000 yuanes por la tarjeta base y 20,000 yuanes adicionales por la actualización de memoria.

media r/LocalLLaMA · hace 7 h

PR #20793 de llama.cpp: reintroducción de menos sincronizaciones durante el cálculo dividido

La solicitud de extracción #20793 reintroduce una reducción en la sincronización durante las operaciones de cálculo dividido en llama.cpp, dirigida principalmente a mejoras de rendimiento en CUDA. Los cambios implican intercambiar copias sincrónicas por copias asíncronas y relajar los requisitos de sincronización entre las copias de entrada en backends compatibles.

media r/LocalLLaMA · hace 8 h

Usuario pregunta sobre la destilación de modelos para demostración de teoremas con agentes

Un usuario en r/LocalLLaMA está considerando autoalojar modelos para demostración de teoremas con agentes con el fin de reducir costos, ya que tiene financiación de hardware pero no créditos de LLM. Propone destilar capacidades de un modelo más grande en uno más pequeño adecuado para casos de uso específicos como Rocq, señalando la falta de modelos existentes para este lenguaje específico.