Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 129

Reutilizar un nodo antiguo de múltiples GPUs para inferencia local

El nodo cuenta con 8 GPUs NVIDIA Quadro RTX 6000 con 192 GB de VRAM y 512 GB de RAM, lo que permite la inferencia de modelos de IA a gran escala en local. Modelos como LLaMA-3 o Mistral con 8-13 mil millones de parámetros podrían ejecutarse eficientemente aquí, ofreciendo un rendimiento más rápido, privado y de baja latencia en comparación con configuraciones de GPU única, lo que lo hace valioso para uso interno.

github CrewAI · hace 13 d

Notas de la versión 1.14.8a1

La versión 1.14.8a1 agrega una expresión if opcional a los pasos each.do y corrige problemas con JSON crew. Se han actualizado la instantánea y el registro de cambios para v1.14.8a. Los colaboradores incluyen a @joaomdmoura y @vinibrsl.

media r/LocalLLaMA · hace 13 d

Qwen local no es un Opus peor, es una herramienta diferente

El artículo sostiene que Qwen local no es inferior a Opus, sino que cumple un propósito diferente. Hace hincapié en que cada modelo está diseñado para casos de uso específicos, y compararlos directamente pasa por alto sus capacidades distintas y aplicaciones previstas.

media r/LocalLLaMA · hace 13 d

Calibración de GGUFs de 2 bits para tareas de codificación agéntica

Las versiones cuantizadas a 2 bits de Qwopus3.6-27B-Coder, calibradas con registros reales de codificación agéntica, logran una tasa de éxito del 63% en SWE-rebench. La cuantización IQ2_M supera a las versiones no calibradas y compite con Q5_K_M en tasa de éxito a pesar de ser la mitad de tamaño, con mejor robustez ante bucles y decodificación más rápida debido a un MTP integrado.

media Latent Space · hace 13 d

Por qué la escalabilidad de IA es un problema de sistemas, no solo una carrera de GPUs

El debate sobre la escalabilidad de IA pasa por alto que maximizar la utilización de FLOP del modelo es más crítico que comprar más GPUs. Fronteras como xAI operan con MFU inferior al 10%, mientras que modelos históricos lograron entre 21% y 70% de MFU, lo que indica ineficiencias sistémicas en la programación, la red y la gestión del clúster. Anjney Midha argumenta que la infraestructura de IA debe evolucionar hacia sistemas eficientes, alineados y responsables, con el 'output maxing' emergiendo como una nueva disciplina para la IA de frontera.

media r/LocalLLaMA · hace 13 d

North Mini Code: cuantización de 4 bits, soporte para Ollama y OpenRouter

Cohere Labs ha lanzado una versión cuantizada a 4 bits de North Mini Code en Hugging Face, reduciendo su tamaño a aproximadamente 20GB para ejecución local en dispositivos como Macs. El modelo ahora es compatible con Ollama, entornos de ejecución locales basados en llama.cpp y a través de la API de OpenRouter, mejorando la accesibilidad para desarrolladores.

media r/LocalLLaMA · hace 13 d

LFM2.5-Embedding-350M y LFM2.5-ColBERT-350M lanzados

LFM2.5-Embedding-350M es un codificador bi-denso que proporciona recuperación multilingüe rápida con un vector por documento, logrando la mejor precisión para su tamaño y una velocidad de inferencia comparable a modelos más pequeños. LFM2.5-ColBERT-350M es un recuperador de interacción tardía con la mejor precisión multilingüe, permitiendo la recuperación entre idiomas al almacenar un vector por token y admitir la recuperación en múltiples idiomas con alta precisión. Ambos modelos están diseñados como reemplazos directos para las tuberías RAG existentes.

media r/LocalLLaMA · hace 13 d

Ahorros reales en costos de tokens con rtk, headroom y caveman

Un análisis de carga de trabajo real muestra que headroom, rtk y caveman reducen los costos de tokens en 2.8%, 0.5% y 0.4% respectivamente, sumando un 3.7% del gasto base. Sin embargo, los ahorros están limitados por la diversidad de payloads, con la mayor parte del tráfico siendo texto plano o código fuente, y las herramientas solo comprimen salidas estructuradas. La mayor reducción de costos ocurre en el flujo de tokens más barato—lecturas de caché—mientras que las herramientas no afectan el almacenamiento en caché de prompts ni los costos de salida, y existen brechas de cobertura, especialmente para rtk.

media r/LocalLLaMA · hace 13 d

Laguna M.1: Modelo MoE de 225B parámetros para codificación agéntica

Laguna M.1 es un modelo mixture-of-experts de 225B parámetros con 23B parámetros activados por token, diseñado para codificación agéntica y tareas de largo alcance. Alcanza un rendimiento competitivo en SWE-bench Verified (74.6%), SWE-bench Multilingual (63.1%) y Terminal-Bench 2.0 (45.8%), superando a modelos como Devstral 2 y GLM-4.7 en benchmarks clave.

github llama.cpp · hace 13 d

llama.cpp Release b9703: Actualizaciones y descargas de binarios

La versión b9703 de llama.cpp incluye una reestructuración del manejo de presets del servidor, eliminando el soporte para presets remotos de HF y funciones obsoletas. El lanzamiento proporciona binarios para macOS, Linux, Android, Windows y openEuler en múltiples arquitecturas y opciones de aceleración por hardware, incluyendo Vulkan, CUDA, OpenVINO y SYCL.

github llama.cpp · hace 13 d

llama.cpp libera b9704: corrige el manejo de gramática inválida y añade nuevos binarios

La versión b9704 de llama.cpp ahora devuelve HTTP 400 para gramática inválida en lugar de descartar silenciosamente las restricciones. El lanzamiento incluye binarios para macOS, Linux, Android, Windows y openEuler a través de múltiples arquitecturas y aceleradores de hardware, con soporte para Vulkan, ROCm, OpenVINO, SYCL y CUDA.

media r/LocalLLaMA · hace 13 d

Mi robot maleta se pone loco con un sensor de gas real

Un sensor de gas MQ-2 real detecta humo y alimenta datos en vivo a un muestreador LLM, ajustando temperatura, top_p y top_k en tiempo real. A medida que aumenta el humo, el habla del robot se vuelve más repetitiva y asociativa, sin un modo 'drogado' pregrabado, demostrando el comportamiento del modelo en vivo impulsado por una entrada física.

media r/LocalLLaMA · hace 13 d

mistral.rs v0.8.10 añade soporte para /v1/skills en modelos locales

mistral.rs v0.8.10 introduce Agent Skills compatibles con OpenAI a través de un endpoint /v1/skills, permitiendo que los modelos locales ejecuten instrucciones y scripts específicos del dominio sin depender de APIs de vanguardia. La actualización soporta herramientas como la carga y descarga de archivos mediante /v1/files e incluye binarios precompilados para Linux, macOS y Windows.

media r/LocalLLaMA · hace 13 d

Inferencia gratuita de GLM-5.2 en Hugging Face durante las próximas 6 horas

Hugging Face está ofreciendo acceso gratuito a la inferencia de GLM-5.2 durante las próximas seis horas. Los usuarios pueden acceder al modelo a través de la plataforma Hugging Face, con un prompt recomendado proporcionado en la publicación.

media r/LocalLLaMA · hace 13 d

unsloth GLM-5.2-GGUF con cuantización de 2 bits en 238GB

El modelo unsloth GLM-5.2-GGUF está disponible con cuantización de 2 bits, con un tamaño de 238GB. Está alojado en Hugging Face y compartido a través de una publicación en Reddit en la comunidad LocalLLaMA.

media r/LocalLLaMA · hace 13 d

GLM-5.2 es el mejor modelo de escritura creativa con pesos abiertos

La Benchmark de Escritura Creativa de Sam Paech en EQ Bench clasifica a GLM-5.2 como el mejor modelo de escritura creativa con pesos abiertos. La evaluación se basa en métricas de rendimiento de la evaluación de escritura creativa de EQ Bench.

github llama.cpp · hace 13 d

llama.cpp Release b9702: Correcciones y nuevos binarios

La versión b9702 de llama.cpp incluye una corrección para que los argumentos del router no se reenvíen a las instancias secundarias. El lanzamiento proporciona binarios para macOS, Linux, Android, Windows y openEuler en múltiples arquitecturas y opciones de aceleración de hardware, incluyendo Vulkan, ROCm, OpenVINO y SYCL.

media r/LocalLLaMA · hace 13 d

Mejor lugar para vender una RTX PRO 6000 Blackwell Max-Q apenas usada

Un usuario pregunta dónde vender una RTX PRO 6000 Blackwell Max-Q apenas usada, comprada para inferencia de IA local con uso mínimo. Considera r/hardwareswap, eBay o mercados profesionales/de estaciones de trabajo de nicho, buscando consejos sobre precios realistas y expectativas del comprador como la transferencia de garantía o factura.

media r/LocalLLaMA · hace 13 d

¿SLMs y Difusión: El Futuro de Modelos Pequeños y Especializados?

Los usuarios debaten si los modelos de lenguaje pequeños específicos para tareas (SLMs) pueden superar a los modelos más grandes en tareas concretas, citando benchmarks donde los modelos de 9B igualan o superan a los más grandes. Proponen un flujo de trabajo agencial secuencial que utiliza múltiples modelos especializados, con uno coordinando y otros verificando las respuestas, sugiriendo que los modelos de difusión podrían acelerar dichos flujos de trabajo a pesar de una inteligencia reducida.

media r/LocalLLaMA · hace 13 d

La cuantización del caché KV NVFP4 en sm120 hará que los sistemas de 32GB VRAM sean muy capaces

Qwen3.6-27B funciona a ~60 tokens/seg en 32GB VRAM con cuantización KV FP8. La cuantización del caché KV NVFP4 en SM120 podría mejorar significativamente el rendimiento en estos sistemas, aunque la implementación actual aún no está disponible.