Todos los artículos — korshunov.ai — noticias de ML

Todos los artículos Página 7 / 33

media r/LocalLLaMA · hace 1 h En vivo

Reutilizar un nodo antiguo de múltiples GPUs para inferencia local

El nodo cuenta con 8 GPUs NVIDIA Quadro RTX 6000 con 192 GB de VRAM y 512 GB de RAM, lo que permite la inferencia de modelos de IA a gran escala en local. Modelos como LLaMA-3 o Mistral con 8-13 mil millones de parámetros podrían ejecutarse eficientemente aquí, ofreciendo un rendimiento más rápido, privado y de baja latencia en comparación con configuraciones de GPU única, lo que lo hace valioso para uso interno.

media r/LocalLLaMA · hace 1 h En vivo

Qwen local no es un Opus peor, es una herramienta diferente

El artículo sostiene que Qwen local no es inferior a Opus, sino que cumple un propósito diferente. Hace hincapié en que cada modelo está diseñado para casos de uso específicos, y compararlos directamente pasa por alto sus capacidades distintas y aplicaciones previstas.

media r/LocalLLaMA · hace 1 h En vivo

Calibración de GGUFs de 2 bits para tareas de codificación agéntica

Las versiones cuantizadas a 2 bits de Qwopus3.6-27B-Coder, calibradas con registros reales de codificación agéntica, logran una tasa de éxito del 63% en SWE-rebench. La cuantización IQ2_M supera a las versiones no calibradas y compite con Q5_K_M en tasa de éxito a pesar de ser la mitad de tamaño, con mejor robustez ante bucles y decodificación más rápida debido a un MTP integrado.

media r/LocalLLaMA · hace 1 h En vivo

North Mini Code: cuantización de 4 bits, soporte para Ollama y OpenRouter

Cohere Labs ha lanzado una versión cuantizada a 4 bits de North Mini Code en Hugging Face, reduciendo su tamaño a aproximadamente 20GB para ejecución local en dispositivos como Macs. El modelo ahora es compatible con Ollama, entornos de ejecución locales basados en llama.cpp y a través de la API de OpenRouter, mejorando la accesibilidad para desarrolladores.

media r/LocalLLaMA · hace 1 h En vivo

LFM2.5-Embedding-350M y LFM2.5-ColBERT-350M lanzados

LFM2.5-Embedding-350M es un codificador bi-denso que proporciona recuperación multilingüe rápida con un vector por documento, logrando la mejor precisión para su tamaño y una velocidad de inferencia comparable a modelos más pequeños. LFM2.5-ColBERT-350M es un recuperador de interacción tardía con la mejor precisión multilingüe, permitiendo la recuperación entre idiomas al almacenar un vector por token y admitir la recuperación en múltiples idiomas con alta precisión. Ambos modelos están diseñados como reemplazos directos para las tuberías RAG existentes.

media r/LocalLLaMA · hace 1 h En vivo

Ahorros reales en costos de tokens con rtk, headroom y caveman

Un análisis de carga de trabajo real muestra que headroom, rtk y caveman reducen los costos de tokens en 2.8%, 0.5% y 0.4% respectivamente, sumando un 3.7% del gasto base. Sin embargo, los ahorros están limitados por la diversidad de payloads, con la mayor parte del tráfico siendo texto plano o código fuente, y las herramientas solo comprimen salidas estructuradas. La mayor reducción de costos ocurre en el flujo de tokens más barato—lecturas de caché—mientras que las herramientas no afectan el almacenamiento en caché de prompts ni los costos de salida, y existen brechas de cobertura, especialmente para rtk.

media r/LocalLLaMA · hace 1 h En vivo

Laguna M.1: Modelo MoE de 225B parámetros para codificación agéntica

Laguna M.1 es un modelo mixture-of-experts de 225B parámetros con 23B parámetros activados por token, diseñado para codificación agéntica y tareas de largo alcance. Alcanza un rendimiento competitivo en SWE-bench Verified (74.6%), SWE-bench Multilingual (63.1%) y Terminal-Bench 2.0 (45.8%), superando a modelos como Devstral 2 y GLM-4.7 en benchmarks clave.

media r/LocalLLaMA · hace 1 h En vivo

Mi robot maleta se pone loco con un sensor de gas real

Un sensor de gas MQ-2 real detecta humo y alimenta datos en vivo a un muestreador LLM, ajustando temperatura, top_p y top_k en tiempo real. A medida que aumenta el humo, el habla del robot se vuelve más repetitiva y asociativa, sin un modo 'drogado' pregrabado, demostrando el comportamiento del modelo en vivo impulsado por una entrada física.

media r/LocalLLaMA · hace 1 h En vivo

mistral.rs v0.8.10 añade soporte para /v1/skills en modelos locales

mistral.rs v0.8.10 introduce Agent Skills compatibles con OpenAI a través de un endpoint /v1/skills, permitiendo que los modelos locales ejecuten instrucciones y scripts específicos del dominio sin depender de APIs de vanguardia. La actualización soporta herramientas como la carga y descarga de archivos mediante /v1/files e incluye binarios precompilados para Linux, macOS y Windows.

media r/LocalLLaMA · hace 1 h En vivo

Inferencia gratuita de GLM-5.2 en Hugging Face durante las próximas 6 horas

Hugging Face está ofreciendo acceso gratuito a la inferencia de GLM-5.2 durante las próximas seis horas. Los usuarios pueden acceder al modelo a través de la plataforma Hugging Face, con un prompt recomendado proporcionado en la publicación.

media r/LocalLLaMA · hace 1 h En vivo

GLM-5.2 es el mejor modelo de escritura creativa con pesos abiertos

La Benchmark de Escritura Creativa de Sam Paech en EQ Bench clasifica a GLM-5.2 como el mejor modelo de escritura creativa con pesos abiertos. La evaluación se basa en métricas de rendimiento de la evaluación de escritura creativa de EQ Bench.

media r/LocalLLaMA · hace 1 h En vivo

unsloth GLM-5.2-GGUF con cuantización de 2 bits en 238GB

El modelo unsloth GLM-5.2-GGUF está disponible con cuantización de 2 bits, con un tamaño de 238GB. Está alojado en Hugging Face y compartido a través de una publicación en Reddit en la comunidad LocalLLaMA.

media r/LocalLLaMA · hace 1 h En vivo

Mejor lugar para vender una RTX PRO 6000 Blackwell Max-Q apenas usada

Un usuario pregunta dónde vender una RTX PRO 6000 Blackwell Max-Q apenas usada, comprada para inferencia de IA local con uso mínimo. Considera r/hardwareswap, eBay o mercados profesionales/de estaciones de trabajo de nicho, buscando consejos sobre precios realistas y expectativas del comprador como la transferencia de garantía o factura.

media r/LocalLLaMA · hace 1 h En vivo

¿SLMs y Difusión: El Futuro de Modelos Pequeños y Especializados?

Los usuarios debaten si los modelos de lenguaje pequeños específicos para tareas (SLMs) pueden superar a los modelos más grandes en tareas concretas, citando benchmarks donde los modelos de 9B igualan o superan a los más grandes. Proponen un flujo de trabajo agencial secuencial que utiliza múltiples modelos especializados, con uno coordinando y otros verificando las respuestas, sugiriendo que los modelos de difusión podrían acelerar dichos flujos de trabajo a pesar de una inteligencia reducida.

media r/LocalLLaMA · hace 1 h En vivo

La cuantización del caché KV NVFP4 en sm120 hará que los sistemas de 32GB VRAM sean muy capaces

Qwen3.6-27B funciona a ~60 tokens/seg en 32GB VRAM con cuantización KV FP8. La cuantización del caché KV NVFP4 en SM120 podría mejorar significativamente el rendimiento en estos sistemas, aunque la implementación actual aún no está disponible.

media r/LocalLLaMA · hace 1 h En vivo

El poder de la inteligencia está mejor en manos del pueblo que en las salas de juntas de los magnates

El proyecto PearlOS ha lanzado una plataforma de inteligencia enjambre de código abierto que utiliza modelos locales para manejar tareas multimodales. Selecciona y cambia automáticamente entre los mejores modelos según benchmarks, asegurando que los usuarios siempre accedan a los modelos más recientes y capaces sin depender de sistemas de código cerrado ni suscripciones.

media r/LocalLLaMA · hace 1 h En vivo

¿El fundador de GLM dice que habrá un GLM-fable antes de fin de año?

El fundador de GLM ha declarado en Reddit que podría lanzarse un GLM-fable antes de fin de año. La publicación proviene de una discusión de usuarios en el subreddit LocalLLaMA, donde la afirmación se presenta sin confirmación ni anuncio oficial.

media r/LocalLLaMA · hace 1 h En vivo

Los modelos OSS superaron decisivamente a los modelos propietarios en cuota de mercado

Basado en los últimos tres meses de datos de OpenRouter, los modelos de código abierto han superado a los modelos propietarios en cuota de mercado. El análisis destaca un cambio significativo hacia los modelos de lenguaje de código abierto en el panorama general de la IA.

media r/LocalLLaMA · hace 1 h En vivo

Discrepancia entre el rendimiento de Llama Bench y el del mundo real

El usuario reporta una brecha significativa entre los resultados de las pruebas de Llama y el rendimiento real del modelo. Las pruebas muestran 754 tk/s de prefill y 36 tk/s de generación, pero el uso real revela solo 7.98 tokens por segundo, con alta latencia y bajo throughput. La discrepancia se atribuye a las condiciones de uso en el mundo real, no a la configuración de las pruebas, lo que sugiere que el rendimiento real del modelo está muy por debajo de la velocidad medida en las pruebas.

media r/LocalLLaMA · hace 1 h En vivo

Agente LLM Local Ahora Genera Imágenes y Video Sin Conexión

Un usuario compartió que su agente LLM local fue equipado con herramientas MCP para generar imágenes y videos directamente. El sistema opera completamente sin conexión y es gratuito, con detalles y código fuente disponibles en los comentarios.