Todos los artículos — korshunov.ai — noticias de ML

Todos los artículos Página 1 / 33

media r/LocalLLaMA · hace 1 h En vivo

GLM-5.2 (744B, 2-bit) alcanza 7.3 tok/s en 4×3090 con 192GB de RAM

GLM-5.2 UD-IQ2_M funciona a ~7.3 tokens por segundo en 4×RTX 3090s con 192GB de RAM DDR5 usando expert offload de llama.cpp. Reducir la cuantización de IQ2 a IQ1 no proporcionó ganancia de velocidad, mientras que aumentar los hilos de CPU de 6 a 12 mejoró el rendimiento en un 22%. La decodificación está limitada por el cómputo de CPU, no por el ancho de banda de memoria, y los expertos descargados deben distribuirse explícitamente entre las GPUs para evitar errores de falta de memoria.

media r/LocalLLaMA · hace 1 h En vivo

LQ50/LQ50-24GB cuesta alrededor de $1200

Un usuario informó haber encontrado los modelos LQ50 y LQ50-24GB en TAOBAO, señalando que son costosos. La publicación destaca el costo como aproximadamente $1200.

media r/LocalLLaMA · hace 1 h En vivo

DiffusionGemma 26B en 4090 alcanza 475t/s con limitaciones

DiffusionGemma 26B funciona a hasta 475t/s en un 4090 mediante vLLM con cuantización INT4 AWQ, alcanzando velocidades entre 290t/s y 700t/s según la longitud de salida. Sin embargo, sufre de operación para un solo usuario, menor precisión de respuesta, pérdida rápida del contexto y mayor tiempo hasta el primer token en comparación con los modelos estándar de 26B.

media r/LocalLLaMA · hace 1 h En vivo

¿Cuál es el mejor sistema de texto a voz abierto hoy en día?

Un usuario busca recomendaciones de herramientas de transcripción de voz a texto en tiempo real con capacidades de diarización, preguntando por alternativas a Wispr Flow y MacParakeet, que utiliza los modelos Parakeet y Whisper. Se pregunta si han surgido nuevos modelos para admitir el rendimiento en tiempo real.

media r/LocalLLaMA · hace 1 h En vivo

Ejecutar GLM-5.2 solo en CPU con configuración local

Un usuario ejecuta GLM-5.2 localmente en un Dell PowerEdge R740 con dos CPUs Xeon 6248R y 768GB de RAM, utilizando ik_llama.cpp para mejorar la inferencia en CPU. Tras aislar un nodo NUMA para un rendimiento óptimo, logran 4–5.5 tokens por segundo en chat y aproximadamente 3 tokens por segundo en tareas de codificación, señalando que el modelo muestra 'sensaciones de frontera' durante la generación de código a pesar de su limitada usabilidad en este hardware.

media r/LocalLLaMA · hace 1 h En vivo

Reutilizar un nodo antiguo de múltiples GPUs para inferencia local

El nodo cuenta con 8 GPUs NVIDIA Quadro RTX 6000 con 192 GB de VRAM y 512 GB de RAM, lo que permite la inferencia de modelos de IA a gran escala en local. Modelos como LLaMA-3 o Mistral con 8-13 mil millones de parámetros podrían ejecutarse eficientemente aquí, ofreciendo un rendimiento más rápido, privado y de baja latencia en comparación con configuraciones de GPU única, lo que lo hace valioso para uso interno.

media r/LocalLLaMA · hace 1 h En vivo

Qwen local no es un Opus peor, es una herramienta diferente

El artículo sostiene que Qwen local no es inferior a Opus, sino que cumple un propósito diferente. Hace hincapié en que cada modelo está diseñado para casos de uso específicos, y compararlos directamente pasa por alto sus capacidades distintas y aplicaciones previstas.

media r/LocalLLaMA · hace 1 h En vivo

Calibración de GGUFs de 2 bits para tareas de codificación agéntica

Las versiones cuantizadas a 2 bits de Qwopus3.6-27B-Coder, calibradas con registros reales de codificación agéntica, logran una tasa de éxito del 63% en SWE-rebench. La cuantización IQ2_M supera a las versiones no calibradas y compite con Q5_K_M en tasa de éxito a pesar de ser la mitad de tamaño, con mejor robustez ante bucles y decodificación más rápida debido a un MTP integrado.

media r/LocalLLaMA · hace 1 h En vivo

North Mini Code: cuantización de 4 bits, soporte para Ollama y OpenRouter

Cohere Labs ha lanzado una versión cuantizada a 4 bits de North Mini Code en Hugging Face, reduciendo su tamaño a aproximadamente 20GB para ejecución local en dispositivos como Macs. El modelo ahora es compatible con Ollama, entornos de ejecución locales basados en llama.cpp y a través de la API de OpenRouter, mejorando la accesibilidad para desarrolladores.

media r/LocalLLaMA · hace 1 h En vivo

LFM2.5-Embedding-350M y LFM2.5-ColBERT-350M lanzados

LFM2.5-Embedding-350M es un codificador bi-denso que proporciona recuperación multilingüe rápida con un vector por documento, logrando la mejor precisión para su tamaño y una velocidad de inferencia comparable a modelos más pequeños. LFM2.5-ColBERT-350M es un recuperador de interacción tardía con la mejor precisión multilingüe, permitiendo la recuperación entre idiomas al almacenar un vector por token y admitir la recuperación en múltiples idiomas con alta precisión. Ambos modelos están diseñados como reemplazos directos para las tuberías RAG existentes.

media r/LocalLLaMA · hace 1 h En vivo

Ahorros reales en costos de tokens con rtk, headroom y caveman

Un análisis de carga de trabajo real muestra que headroom, rtk y caveman reducen los costos de tokens en 2.8%, 0.5% y 0.4% respectivamente, sumando un 3.7% del gasto base. Sin embargo, los ahorros están limitados por la diversidad de payloads, con la mayor parte del tráfico siendo texto plano o código fuente, y las herramientas solo comprimen salidas estructuradas. La mayor reducción de costos ocurre en el flujo de tokens más barato—lecturas de caché—mientras que las herramientas no afectan el almacenamiento en caché de prompts ni los costos de salida, y existen brechas de cobertura, especialmente para rtk.

media r/LocalLLaMA · hace 1 h En vivo

Laguna M.1: Modelo MoE de 225B parámetros para codificación agéntica

Laguna M.1 es un modelo mixture-of-experts de 225B parámetros con 23B parámetros activados por token, diseñado para codificación agéntica y tareas de largo alcance. Alcanza un rendimiento competitivo en SWE-bench Verified (74.6%), SWE-bench Multilingual (63.1%) y Terminal-Bench 2.0 (45.8%), superando a modelos como Devstral 2 y GLM-4.7 en benchmarks clave.

media r/LocalLLaMA · hace 1 h En vivo

Mi robot maleta se pone loco con un sensor de gas real

Un sensor de gas MQ-2 real detecta humo y alimenta datos en vivo a un muestreador LLM, ajustando temperatura, top_p y top_k en tiempo real. A medida que aumenta el humo, el habla del robot se vuelve más repetitiva y asociativa, sin un modo 'drogado' pregrabado, demostrando el comportamiento del modelo en vivo impulsado por una entrada física.

media r/LocalLLaMA · hace 1 h En vivo

mistral.rs v0.8.10 añade soporte para /v1/skills en modelos locales

mistral.rs v0.8.10 introduce Agent Skills compatibles con OpenAI a través de un endpoint /v1/skills, permitiendo que los modelos locales ejecuten instrucciones y scripts específicos del dominio sin depender de APIs de vanguardia. La actualización soporta herramientas como la carga y descarga de archivos mediante /v1/files e incluye binarios precompilados para Linux, macOS y Windows.

media r/LocalLLaMA · hace 1 h En vivo

Inferencia gratuita de GLM-5.2 en Hugging Face durante las próximas 6 horas

Hugging Face está ofreciendo acceso gratuito a la inferencia de GLM-5.2 durante las próximas seis horas. Los usuarios pueden acceder al modelo a través de la plataforma Hugging Face, con un prompt recomendado proporcionado en la publicación.

media r/LocalLLaMA · hace 1 h En vivo

GLM-5.2 es el mejor modelo de escritura creativa con pesos abiertos

La Benchmark de Escritura Creativa de Sam Paech en EQ Bench clasifica a GLM-5.2 como el mejor modelo de escritura creativa con pesos abiertos. La evaluación se basa en métricas de rendimiento de la evaluación de escritura creativa de EQ Bench.

media r/LocalLLaMA · hace 1 h En vivo

unsloth GLM-5.2-GGUF con cuantización de 2 bits en 238GB

El modelo unsloth GLM-5.2-GGUF está disponible con cuantización de 2 bits, con un tamaño de 238GB. Está alojado en Hugging Face y compartido a través de una publicación en Reddit en la comunidad LocalLLaMA.

media r/LocalLLaMA · hace 1 h En vivo

Mejor lugar para vender una RTX PRO 6000 Blackwell Max-Q apenas usada

Un usuario pregunta dónde vender una RTX PRO 6000 Blackwell Max-Q apenas usada, comprada para inferencia de IA local con uso mínimo. Considera r/hardwareswap, eBay o mercados profesionales/de estaciones de trabajo de nicho, buscando consejos sobre precios realistas y expectativas del comprador como la transferencia de garantía o factura.

media r/LocalLLaMA · hace 1 h En vivo

¿SLMs y Difusión: El Futuro de Modelos Pequeños y Especializados?

Los usuarios debaten si los modelos de lenguaje pequeños específicos para tareas (SLMs) pueden superar a los modelos más grandes en tareas concretas, citando benchmarks donde los modelos de 9B igualan o superan a los más grandes. Proponen un flujo de trabajo agencial secuencial que utiliza múltiples modelos especializados, con uno coordinando y otros verificando las respuestas, sugiriendo que los modelos de difusión podrían acelerar dichos flujos de trabajo a pesar de una inteligencia reducida.

media r/LocalLLaMA · hace 1 h En vivo

La cuantización del caché KV NVFP4 en sm120 hará que los sistemas de 32GB VRAM sean muy capaces

Qwen3.6-27B funciona a ~60 tokens/seg en 32GB VRAM con cuantización KV FP8. La cuantización del caché KV NVFP4 en SM120 podría mejorar significativamente el rendimiento en estos sistemas, aunque la implementación actual aún no está disponible.