Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 60

Qwen3.6-35B-A3B APEX en RTX 3090: Puntos de referencia de velocidad y calidad

Un punto de referencia compara las bifurcaciones de llama.cpp (ik_llama y spiritbuun) que ejecutan Qwen3.6-35B-A3B APEX con modelos I-Compact e I-Quality. ik_llama con I-Compact logra la mayor velocidad (~146 TPS), mientras que spiritbuun con I-Quality y caché turbo8/turbo4 iguala esta velocidad y ofrece un rendimiento ligeramente mejor en HellaSwag. Las cachés KV turbo8/turbo4 superan a q8_0/q5_0, especialmente en contextos más largos, con una ganancia de velocidad de hasta el 15% y menor KLD, lo que las hace superiores para calidad y longitud de contexto.

media r/LocalLLaMA · hace 11 h

El passthrough de PCI solo alcanza velocidad de gen 1

El passthrough de PCI de una RTX 3090 a una VM a través del hipervisor Alpine muestra solo velocidad de PCIe gen 1 (2.5 GT/s) después del inicio de la VM, a pesar de que la GPU del host funciona a gen 4 (16 GT/s). El reentrenamiento del enlace ocurre cuando se inicia la VM y vuelve a gen 4 al apagarla, sin cambios observados al ajustar los ajustes de PCIe o los parámetros del kernel.

media r/LocalLLaMA · hace 11 h

Los precios de DDR5 en la UE bajan, Alemania es mucho más barata que los Países Bajos

Los precios de DDR5 en Alemania, Países Bajos, España y Bélgica han caído significativamente durante 25 días. Alemania es un 10-20% más barata que los Países Bajos y Bélgica para kits DDR5 idénticos, con modelos de G.Skill y Kingston mostrando caídas del 28% al 26%. Los kits DDR5-6000 2x16GB son ahora una opción rentable para inferencia LLM de nivel básico.

media r/LocalLLaMA · hace 11 h

Sin proveedores europeos de inferencia para GLM 5.2 o DeepSeek V4 Flash

Un usuario de Reddit señala que Openrouter lista 16 proveedores para GLM 5.2, todos basados en EE.UU., Singapur o China. El usuario cuestiona la ausencia de cualquier proveedor europeo ejecutando específicamente modelos abiertos chinos como GLM 5.2 o DeepSeek V4 Flash.

media r/LocalLLaMA · hace 11 h

La cuantización de caché KV con QAT para Gemma 4 31B muestra una mejora masiva

La cuantización de caché KV con QAT para Gemma 4 31B reduce significativamente la divergencia KL en comparación con las cuantizaciones estándar. QAT q8_0 logra una divergencia en el peor caso de 1.5, superando a q4_0 estándar por un factor de aproximadamente 38, y QAT q4_0 supera a q8_0 estándar en rendimiento, con una deriva de salida mucho menor y sin valores atípicos catastróficos.

media r/LocalLLaMA · hace 11 h

El informe técnico de Ling and Ring 2.6 libera modelos de billón de parámetros

Ling and Ring 2.6 ha lanzado los modelos base para Ling-2.6-1T y Ling-2.6-flash, ambos disponibles en Hugging Face. El modelo Ling-2.6-flash (100B parámetros) permite una inferencia rápida para usuarios con 24-32GB de VRAM, ofreciendo alto rendimiento en inferencia solo con CPU y 32GB de RAM.

media r/LocalLLaMA · hace 11 h

¿Puede Jetson Orin Nano ejecutar un modelo de codificación como Qwen?

Un usuario pregunta si un Jetson Orin Nano puede ejecutar un modelo de codificación como Qwen. Consideran Qwen 35B con MOE 3B pero notan que podría ser demasiado grande para el dispositivo.

media r/LocalLLaMA · hace 11 h

Gemma 4 QAT 31B responde mejor a la cuantización de KV cache

Un benchmark muestra que Gemma 4 QAT 31B tiene un mejor rendimiento con la cuantización de KV cache en comparación con versiones anteriores. Los resultados se derivaron de una publicación en el subreddit LocalLLaMA, donde el usuario justicecurcian compartió datos de rendimiento.

media r/LocalLLaMA · hace 11 h

Soporte para Step3.5/3.7 Flash MTP3 añadido

Una pull request añade soporte para Step3.5 y Step3.7 Flash MTP3 en llama.cpp. Esta mejora permite un mejor rendimiento con modelos específicos aprovechando operaciones de MTP3 multicapa. La actualización está disponible en la última versión de llama.cpp y da seguimiento a PR #23274.

media r/LocalLLaMA · hace 11 h

Gemma 4 31B Q6 funciona a 8-9 t/s en dos tarjetas 9060 XT

Un usuario informa que ejecuta Gemma 4 31B Q6 en dos tarjetas NVIDIA 9060 XT de 16GB, logrando un rendimiento constante de 8-9 tokens por segundo. Señalan que el rendimiento es utilizable pero está por debajo de las expectativas, sugiriendo posibles optimizaciones o limitaciones de hardware.

media r/LocalLLaMA · hace 12 h

Comparación entre Gemma 4 31B Q6 y Gemma 4 31B QAT

Una discusión en Reddit compara los modelos Gemma 4 31B Q6 y Gemma 4 31B QAT, centrándose en el rendimiento para tareas de escritura creativa. Los usuarios buscan orientación sobre qué variante ofrece mejores resultados generales, con preguntas sobre KLD (Divergencia de Kullback-Leibler) como métrica de calidad del modelo.

media r/LocalLLaMA · hace 12 h

Comparación de modelos locales de texto a imagen: La prueba definitiva

Una evaluación analizó 192 prompts en modelos locales de texto a imagen en un GX10 Spark, evaluando capacidades como comprensión de texto, generación de rostros y composición espacial. Los resultados están disponibles en ImageBench, con comparaciones a APIs de vanguardia usando modelos de lenguaje visuales, y todos los prompts e imágenes son de acceso público.

media r/LocalLLaMA · hace 12 h

Flujo de trabajo para programadores con configuración lenta de LLM local

Los usuarios comparten sus flujos de trabajo para codificar con LLMs locales cuando la generación de tokens es inferior a 10 tokens por segundo. Las estrategias comunes incluyen el uso de prompts concisos, aprovechar modelos locales con contexto mínimo y agrupar consultas para maximizar la eficiencia.

media r/LocalLLaMA · hace 12 h

¿Cuál es tu flujo de trabajo favorito para convertir PDF con estructura compleja a Markdown?

Un usuario pregunta sobre herramientas para convertir PDFs con estructuras complejas como tablas y cajas flotantes a Markdown. Ha probado markitdown, Docling y Mineru, y busca recomendaciones para mejores alternativas.

media r/LocalLLaMA · hace 12 h

Recomendaciones de agentes para la configuración de un proyecto web en Python

Un usuario busca recomendaciones del stack de software para construir un proyecto web en Python en PyCharm utilizando LLMs locales. Su objetivo es aprovechar sistemas de agentes que puedan generar planes, ejecutar código y realizar pruebas, con experiencia previa en los modelos GPT-OSS y Qwen mostrando diferencias de rendimiento y calidad.

media r/LocalLLaMA · hace 12 h

Finalmente viendo beneficios de MTP después de eliminar GGML_CUDA_ALLREDUCE

Un usuario reportó que eliminar la variable de entorno GGML_CUDA_ALLREDUCE llevó a una mejora notable en el throughput (TPS) para MTP en inferencia de LLM local. El cambio, que previamente se consideraba beneficioso, redujo inesperadamente la sobrecarga y mejoró el rendimiento, especialmente después de extensos ensayos de configuración.

media r/LocalLLaMA · hace 12 h

El agente Hermes se ve feo y tiene una mala experiencia de usuario

Un usuario expresa decepción con la interfaz web de Hermes Agent, citando fuentes y gráficos feos, así como una experiencia de usuario lenta tanto en las interfaces web como de terminal. A pesar de su promesa de funciones integradas y facilidad de uso, el usuario lo encuentra significativamente más lento y menos intuitivo que Pi Mono Agent, especialmente cuando se usa con los modelos Qwen3.6-35B y Gemma4-26B.

media r/LocalLLaMA · hace 12 h

Tabla de clasificación para modelos cuantizados, ¿similar al análisis artificial?

La tabla de clasificación de modelos del análisis artificial ayuda a comparar la inteligencia de los modelos, pero ignora los efectos de la cuantización en los modelos abiertos. Los usuarios preguntan si hay una mejor manera de comparar modelos abiertos cuantizados con los propietarios sin ejecutarlos directamente.

media r/LocalLLaMA · hace 12 h

No es un nuevo modelo, solo un Feliz Día del Padre y un agradecimiento

Un usuario de Reddit expresa su gratitud a la comunidad LocalLLaMA, compartiendo que el post no trata sobre un nuevo modelo sino un agradecimiento personal. Como padre, destaca el valor de la comunidad como refugio durante la vida familiar, apreciando las interacciones sobre configuración, hardware y ajuste de modelos.

media r/LocalLLaMA · hace 12 h

Optimización de la inferencia de LLM local: La guía completa

Una guía exhaustiva sobre la optimización de la inferencia de LLM local abarca la gestión de VRAM, el caché KV, la colocación de MoE, MTP, la optimización de CPU y los problemas comunes de falta de memoria. La guía está disponible en https://carteakey.dev/blog/local-inference/local-llm-optimization/ e incluye solicitudes de comentarios del autor.