Todos los artículos
media Ahead of AI · hace 19 h

Configuración de un agente de codificación local con herramientas de código abierto

Este artículo proporciona un tutorial sobre la configuración de una pila de agentes de codificación completamente local y lista para producción, utilizando herramientas de código abierto y modelos de lenguaje grandes de pesos abiertos. Detalla cómo combinar un LLM servido localmente con un entorno de codificación capaz de leer archivos, realizar ediciones, ejecutar comandos y verificar cambios.

media r/LocalLLaMA · hace 19 h

Informes de RTX 5090 con 96GB VRAM en Huaqiangbei de Shenzhen

Los visitantes del mercado electrónico Huaqiangbei de Shenzhen han encontrado informes y ofertas potenciales de tarjetas gráficas Nvidia RTX 5090 modificadas equipadas con 96 gigabytes de RAM de video. Un vendedor indicó que una RTX 6000 Blackwell modificada costaría aproximadamente $8,200, compuestos por 36,000 yuanes por la tarjeta base y 20,000 yuanes adicionales por la actualización de memoria.

media r/LocalLLaMA · hace 19 h

PR #20793 de llama.cpp: reintroducción de menos sincronizaciones durante el cálculo dividido

La solicitud de extracción #20793 reintroduce una reducción en la sincronización durante las operaciones de cálculo dividido en llama.cpp, dirigida principalmente a mejoras de rendimiento en CUDA. Los cambios implican intercambiar copias sincrónicas por copias asíncronas y relajar los requisitos de sincronización entre las copias de entrada en backends compatibles.

media r/LocalLLaMA · hace 20 h

Usuario pregunta sobre la destilación de modelos para demostración de teoremas con agentes

Un usuario en r/LocalLLaMA está considerando autoalojar modelos para demostración de teoremas con agentes con el fin de reducir costos, ya que tiene financiación de hardware pero no créditos de LLM. Propone destilar capacidades de un modelo más grande en uno más pequeño adecuado para casos de uso específicos como Rocq, señalando la falta de modelos existentes para este lenguaje específico.

media r/LocalLLaMA · hace 20 h

Un usuario compra un Minisforum MS-S1 Max usado para cargas de trabajo de LLM locales

Un usuario comparte su decisión de comprar un Minisforum MS-S1 Max ligeramente usado con 128GB de memoria por aproximadamente US$2800, citando el aumento de costos del hardware de Apple y los servicios de modelos cerrados como principales motivadores. El autor compara esta compra favorablemente frente al nuevo Geekom A9 Mega, destacando las ventajas específicas del MS-S1, incluyendo red 10Gbe, USB4v2 de 80Gbps, una ranura PCIe y una fuente de alimentación interna.

media r/LocalLLaMA · hace 20 h

Nemotron-3-Super-120B-A12B logra recuperación perfecta de agujas hasta 504K tokens en 4×3090

Un usuario probó el modelo Nemotron-3-Super-120B-A12B de NVIDIA, que combina arquitecturas híbridas Mamba y MoE, logrando recuperación exacta en pruebas de aguja en un pajar hasta 504.482 tokens. El modelo se ejecutó completamente en GPU a través de cuatro RTX 3090 usando la cuantización i1-Q4_K_S, demostrando que sus capas Mamba mantienen un estado recurrente de tamaño constante en lugar de una KV cache en crecimiento.