LQ50/LQ50-24GB cuesta alrededor de $1200
Un usuario informó haber encontrado los modelos LQ50 y LQ50-24GB en TAOBAO, señalando que son costosos. La publicación destaca el costo como aproximadamente $1200.
Un usuario informó haber encontrado los modelos LQ50 y LQ50-24GB en TAOBAO, señalando que son costosos. La publicación destaca el costo como aproximadamente $1200.
DiffusionGemma 26B funciona a hasta 475t/s en un 4090 mediante vLLM con cuantización INT4 AWQ, alcanzando velocidades entre 290t/s y 700t/s según la longitud de salida. Sin embargo, sufre de operación para un solo usuario, menor precisión de respuesta, pérdida rápida del contexto y mayor tiempo hasta el primer token en comparación con los modelos estándar de 26B.
Un usuario busca recomendaciones de herramientas de transcripción de voz a texto en tiempo real con capacidades de diarización, preguntando por alternativas a Wispr Flow y MacParakeet, que utiliza los modelos Parakeet y Whisper. Se pregunta si han surgido nuevos modelos para admitir el rendimiento en tiempo real.
Un usuario ejecuta GLM-5.2 localmente en un Dell PowerEdge R740 con dos CPUs Xeon 6248R y 768GB de RAM, utilizando ik_llama.cpp para mejorar la inferencia en CPU. Tras aislar un nodo NUMA para un rendimiento óptimo, logran 4–5.5 tokens por segundo en chat y aproximadamente 3 tokens por segundo en tareas de codificación, señalando que el modelo muestra 'sensaciones de frontera' durante la generación de código a pesar de su limitada usabilidad en este hardware.
El nodo cuenta con 8 GPUs NVIDIA Quadro RTX 6000 con 192 GB de VRAM y 512 GB de RAM, lo que permite la inferencia de modelos de IA a gran escala en local. Modelos como LLaMA-3 o Mistral con 8-13 mil millones de parámetros podrían ejecutarse eficientemente aquí, ofreciendo un rendimiento más rápido, privado y de baja latencia en comparación con configuraciones de GPU única, lo que lo hace valioso para uso interno.
El artículo sostiene que Qwen local no es inferior a Opus, sino que cumple un propósito diferente. Hace hincapié en que cada modelo está diseñado para casos de uso específicos, y compararlos directamente pasa por alto sus capacidades distintas y aplicaciones previstas.
Las versiones cuantizadas a 2 bits de Qwopus3.6-27B-Coder, calibradas con registros reales de codificación agéntica, logran una tasa de éxito del 63% en SWE-rebench. La cuantización IQ2_M supera a las versiones no calibradas y compite con Q5_K_M en tasa de éxito a pesar de ser la mitad de tamaño, con mejor robustez ante bucles y decodificación más rápida debido a un MTP integrado.
Cohere Labs ha lanzado una versión cuantizada a 4 bits de North Mini Code en Hugging Face, reduciendo su tamaño a aproximadamente 20GB para ejecución local en dispositivos como Macs. El modelo ahora es compatible con Ollama, entornos de ejecución locales basados en llama.cpp y a través de la API de OpenRouter, mejorando la accesibilidad para desarrolladores.
LFM2.5-Embedding-350M es un codificador bi-denso que proporciona recuperación multilingüe rápida con un vector por documento, logrando la mejor precisión para su tamaño y una velocidad de inferencia comparable a modelos más pequeños. LFM2.5-ColBERT-350M es un recuperador de interacción tardía con la mejor precisión multilingüe, permitiendo la recuperación entre idiomas al almacenar un vector por token y admitir la recuperación en múltiples idiomas con alta precisión. Ambos modelos están diseñados como reemplazos directos para las tuberías RAG existentes.
Un análisis de carga de trabajo real muestra que headroom, rtk y caveman reducen los costos de tokens en 2.8%, 0.5% y 0.4% respectivamente, sumando un 3.7% del gasto base. Sin embargo, los ahorros están limitados por la diversidad de payloads, con la mayor parte del tráfico siendo texto plano o código fuente, y las herramientas solo comprimen salidas estructuradas. La mayor reducción de costos ocurre en el flujo de tokens más barato—lecturas de caché—mientras que las herramientas no afectan el almacenamiento en caché de prompts ni los costos de salida, y existen brechas de cobertura, especialmente para rtk.
Laguna M.1 es un modelo mixture-of-experts de 225B parámetros con 23B parámetros activados por token, diseñado para codificación agéntica y tareas de largo alcance. Alcanza un rendimiento competitivo en SWE-bench Verified (74.6%), SWE-bench Multilingual (63.1%) y Terminal-Bench 2.0 (45.8%), superando a modelos como Devstral 2 y GLM-4.7 en benchmarks clave.
Un sensor de gas MQ-2 real detecta humo y alimenta datos en vivo a un muestreador LLM, ajustando temperatura, top_p y top_k en tiempo real. A medida que aumenta el humo, el habla del robot se vuelve más repetitiva y asociativa, sin un modo 'drogado' pregrabado, demostrando el comportamiento del modelo en vivo impulsado por una entrada física.
mistral.rs v0.8.10 introduce Agent Skills compatibles con OpenAI a través de un endpoint /v1/skills, permitiendo que los modelos locales ejecuten instrucciones y scripts específicos del dominio sin depender de APIs de vanguardia. La actualización soporta herramientas como la carga y descarga de archivos mediante /v1/files e incluye binarios precompilados para Linux, macOS y Windows.
Hugging Face está ofreciendo acceso gratuito a la inferencia de GLM-5.2 durante las próximas seis horas. Los usuarios pueden acceder al modelo a través de la plataforma Hugging Face, con un prompt recomendado proporcionado en la publicación.
La Benchmark de Escritura Creativa de Sam Paech en EQ Bench clasifica a GLM-5.2 como el mejor modelo de escritura creativa con pesos abiertos. La evaluación se basa en métricas de rendimiento de la evaluación de escritura creativa de EQ Bench.
El modelo unsloth GLM-5.2-GGUF está disponible con cuantización de 2 bits, con un tamaño de 238GB. Está alojado en Hugging Face y compartido a través de una publicación en Reddit en la comunidad LocalLLaMA.
Un usuario pregunta dónde vender una RTX PRO 6000 Blackwell Max-Q apenas usada, comprada para inferencia de IA local con uso mínimo. Considera r/hardwareswap, eBay o mercados profesionales/de estaciones de trabajo de nicho, buscando consejos sobre precios realistas y expectativas del comprador como la transferencia de garantía o factura.
Los usuarios debaten si los modelos de lenguaje pequeños específicos para tareas (SLMs) pueden superar a los modelos más grandes en tareas concretas, citando benchmarks donde los modelos de 9B igualan o superan a los más grandes. Proponen un flujo de trabajo agencial secuencial que utiliza múltiples modelos especializados, con uno coordinando y otros verificando las respuestas, sugiriendo que los modelos de difusión podrían acelerar dichos flujos de trabajo a pesar de una inteligencia reducida.
Qwen3.6-27B funciona a ~60 tokens/seg en 32GB VRAM con cuantización KV FP8. La cuantización del caché KV NVFP4 en SM120 podría mejorar significativamente el rendimiento en estos sistemas, aunque la implementación actual aún no está disponible.
El proyecto PearlOS ha lanzado una plataforma de inteligencia enjambre de código abierto que utiliza modelos locales para manejar tareas multimodales. Selecciona y cambia automáticamente entre los mejores modelos según benchmarks, asegurando que los usuarios siempre accedan a los modelos más recientes y capaces sin depender de sistemas de código cerrado ni suscripciones.