Todos los artículos
media r/LocalLLaMA · hace 1 h En vivo

Reutilizar un nodo antiguo de múltiples GPUs para inferencia local

El nodo cuenta con 8 GPUs NVIDIA Quadro RTX 6000 con 192 GB de VRAM y 512 GB de RAM, lo que permite la inferencia de modelos de IA a gran escala en local. Modelos como LLaMA-3 o Mistral con 8-13 mil millones de parámetros podrían ejecutarse eficientemente aquí, ofreciendo un rendimiento más rápido, privado y de baja latencia en comparación con configuraciones de GPU única, lo que lo hace valioso para uso interno.

media r/LocalLLaMA · hace 1 h En vivo

Calibración de GGUFs de 2 bits para tareas de codificación agéntica

Las versiones cuantizadas a 2 bits de Qwopus3.6-27B-Coder, calibradas con registros reales de codificación agéntica, logran una tasa de éxito del 63% en SWE-rebench. La cuantización IQ2_M supera a las versiones no calibradas y compite con Q5_K_M en tasa de éxito a pesar de ser la mitad de tamaño, con mejor robustez ante bucles y decodificación más rápida debido a un MTP integrado.

media r/LocalLLaMA · hace 1 h En vivo

LFM2.5-Embedding-350M y LFM2.5-ColBERT-350M lanzados

LFM2.5-Embedding-350M es un codificador bi-denso que proporciona recuperación multilingüe rápida con un vector por documento, logrando la mejor precisión para su tamaño y una velocidad de inferencia comparable a modelos más pequeños. LFM2.5-ColBERT-350M es un recuperador de interacción tardía con la mejor precisión multilingüe, permitiendo la recuperación entre idiomas al almacenar un vector por token y admitir la recuperación en múltiples idiomas con alta precisión. Ambos modelos están diseñados como reemplazos directos para las tuberías RAG existentes.

media r/LocalLLaMA · hace 1 h En vivo

Ahorros reales en costos de tokens con rtk, headroom y caveman

Un análisis de carga de trabajo real muestra que headroom, rtk y caveman reducen los costos de tokens en 2.8%, 0.5% y 0.4% respectivamente, sumando un 3.7% del gasto base. Sin embargo, los ahorros están limitados por la diversidad de payloads, con la mayor parte del tráfico siendo texto plano o código fuente, y las herramientas solo comprimen salidas estructuradas. La mayor reducción de costos ocurre en el flujo de tokens más barato—lecturas de caché—mientras que las herramientas no afectan el almacenamiento en caché de prompts ni los costos de salida, y existen brechas de cobertura, especialmente para rtk.

media r/LocalLLaMA · hace 1 h En vivo

¿SLMs y Difusión: El Futuro de Modelos Pequeños y Especializados?

Los usuarios debaten si los modelos de lenguaje pequeños específicos para tareas (SLMs) pueden superar a los modelos más grandes en tareas concretas, citando benchmarks donde los modelos de 9B igualan o superan a los más grandes. Proponen un flujo de trabajo agencial secuencial que utiliza múltiples modelos especializados, con uno coordinando y otros verificando las respuestas, sugiriendo que los modelos de difusión podrían acelerar dichos flujos de trabajo a pesar de una inteligencia reducida.

media r/LocalLLaMA · hace 1 h En vivo

El poder de la inteligencia está mejor en manos del pueblo que en las salas de juntas de los magnates

El proyecto PearlOS ha lanzado una plataforma de inteligencia enjambre de código abierto que utiliza modelos locales para manejar tareas multimodales. Selecciona y cambia automáticamente entre los mejores modelos según benchmarks, asegurando que los usuarios siempre accedan a los modelos más recientes y capaces sin depender de sistemas de código cerrado ni suscripciones.

media r/LocalLLaMA · hace 1 h En vivo

Discrepancia entre el rendimiento de Llama Bench y el del mundo real

El usuario reporta una brecha significativa entre los resultados de las pruebas de Llama y el rendimiento real del modelo. Las pruebas muestran 754 tk/s de prefill y 36 tk/s de generación, pero el uso real revela solo 7.98 tokens por segundo, con alta latencia y bajo throughput. La discrepancia se atribuye a las condiciones de uso en el mundo real, no a la configuración de las pruebas, lo que sugiere que el rendimiento real del modelo está muy por debajo de la velocidad medida en las pruebas.