Todos los artículos — korshunov.ai — noticias de ML

Todos los artículos Página 1 / 46

media r/LocalLLaMA · hace 2 h

Mismo modelo, mismo prompt, 4 agentes diferentes producen calidad de código variada

Un modelo Qwen3.6-27B autoalojado con el mismo prompt y hardware generó cuatro simulaciones del sistema solar en HTML/JavaScript. El andamiaje del agente influyó significativamente en la salida: opencode produjo código limpio y estable con física precisa; pi mostró robustez y consistencia de coordenadas; hermes ofreció resultados visualmente atractivos pero físicamente defectuosos; qwen code generó código mínimo y tosco. Los resultados destacan cómo el diseño del agente moldea la calidad, corrección y estabilidad del código a pesar de compartir modelo y prompt.

media Interconnects · hace 2 h

GLM-5.2 es el cambio de paso para agentes abiertos

GLM-5.2, un modelo de IA de pesos abiertos lanzado por Z.ai, ha establecido un nuevo punto de referencia en codificación y rendimiento general de agentes. Supera a modelos como Claude Fable 5 y Gemini, e iguala o supera al Opus 4.8 de OpenAI en modo de pensamiento máximo, consolidándose como el primer modelo abierto que se siente adecuado en harnesses de codificación como agente general.

media r/LocalLLaMA · hace 2 h

Prueba de velocidad de GLM-5.2 UD-IQ1_M en llama.cpp con 5090 y 3090 Ti

Una prueba de velocidad de GLM-5.2 cuantizado a UD-IQ1_M usando llama.cpp muestra 579 t/s de prefill con contexto de 8k y 324 t/s con contexto de 57k. La velocidad de decodificación se mantiene estable en 10.6 t/s para más de 580 tokens, cayendo a 9.37 t/s con contexto de 60k.

media r/LocalLLaMA · hace 2 h

¿Qué chasis estás usando?

Un usuario pide recomendaciones de gabinetes para múltiples GPUs, mencionando específicamente un modelo de torre de doble cámara con 6 GPUs disponible en Alibaba. Busca opiniones sobre esta opción y su idoneidad para configuraciones de GPU de gama alta.

media r/LocalLLaMA · hace 2 h

Construí una herramienta para dejar de cambiar modelos manualmente en mi GPU de 8GB

Desarrollé Prompt-Chain, una aplicación de Streamlit que encadena un modelo Prompter pequeño con un modelo Coder grande en una única canalización. Cambia automáticamente la VRAM al pasar del refinamiento de prompts a la generación de código, eliminando el cambio manual de modelos y reduciendo los tokens desperdiciados por prompts mal redactados.

media r/LocalLLaMA · hace 2 h

GLM5.2 se ejecuta a 7tg en 4x 3090s con 192GB DDR5 en una configuración económica

Un usuario comparte su configuración de laboratorio doméstico con cuatro GPUs GeForce 3090 y 192GB de RAM DDR5 overclockeadas a 5600 MHz. Ejecutan GLM5.2 a 7 tera-giga (tg) como planificador, MiniMax 2.7 a 45tg en VRAM para codificación, y Qwen3.6 27B en q8 para pruebas, todo en hardware de consumo por consideraciones de costo.

media r/LocalLLaMA · hace 2 h

Gemma 4 QAT responde mejor a la cuantización de la caché KV

Un post en Reddit informa que Gemma 4 QAT muestra una mejora significativa en el rendimiento al utilizar la cuantización de la caché KV, según lo medido en el conjunto de datos wikitext con un contexto de 16k. El usuario señala que sus límites de hardware limitan las pruebas a modelos de 31B e invita a otros a explorar los resultados.

media Hugging Face Forums · hace 2 h

Usuario solicita la eliminación de una cuenta que publica contenido pornográfico, sangriento y nazi

Un usuario en los foros de Hugging Face está solicitando la eliminación de la cuenta 'cerealpotatochipssea' por subir contenido prohibido. El informe alega que la cuenta ha compartido material para mayores de 18 años, imágenes sangrientas e imágenes relacionadas con los nazis.

github CrewAI · hace 2 h

Notas de la versión de CrewAI 1.15.1a1

La actualización de CrewAI 1.15.1a1 introduce nuevo seguimiento de telemetría, aplica definiciones explícitas del proyecto para CrewAI y mejora el flujo de trabajo de implementación de la CLI.

media r/LocalLLaMA · hace 2 h

Qwen3.6-35B-A3B APEX en RTX 3090: Puntos de referencia de velocidad y calidad

Un punto de referencia compara las bifurcaciones de llama.cpp (ik_llama y spiritbuun) que ejecutan Qwen3.6-35B-A3B APEX con modelos I-Compact e I-Quality. ik_llama con I-Compact logra la mayor velocidad (~146 TPS), mientras que spiritbuun con I-Quality y caché turbo8/turbo4 iguala esta velocidad y ofrece un rendimiento ligeramente mejor en HellaSwag. Las cachés KV turbo8/turbo4 superan a q8_0/q5_0, especialmente en contextos más largos, con una ganancia de velocidad de hasta el 15% y menor KLD, lo que las hace superiores para calidad y longitud de contexto.

media r/LocalLLaMA · hace 2 h

El passthrough de PCI solo alcanza velocidad de gen 1

El passthrough de PCI de una RTX 3090 a una VM a través del hipervisor Alpine muestra solo velocidad de PCIe gen 1 (2.5 GT/s) después del inicio de la VM, a pesar de que la GPU del host funciona a gen 4 (16 GT/s). El reentrenamiento del enlace ocurre cuando se inicia la VM y vuelve a gen 4 al apagarla, sin cambios observados al ajustar los ajustes de PCIe o los parámetros del kernel.

media r/LocalLLaMA · hace 2 h

Los precios de DDR5 en la UE bajan, Alemania es mucho más barata que los Países Bajos

Los precios de DDR5 en Alemania, Países Bajos, España y Bélgica han caído significativamente durante 25 días. Alemania es un 10-20% más barata que los Países Bajos y Bélgica para kits DDR5 idénticos, con modelos de G.Skill y Kingston mostrando caídas del 28% al 26%. Los kits DDR5-6000 2x16GB son ahora una opción rentable para inferencia LLM de nivel básico.

media r/LocalLLaMA · hace 2 h

Sin proveedores europeos de inferencia para GLM 5.2 o DeepSeek V4 Flash

Un usuario de Reddit señala que Openrouter lista 16 proveedores para GLM 5.2, todos basados en EE.UU., Singapur o China. El usuario cuestiona la ausencia de cualquier proveedor europeo ejecutando específicamente modelos abiertos chinos como GLM 5.2 o DeepSeek V4 Flash.

media r/LocalLLaMA · hace 2 h

La cuantización de caché KV con QAT para Gemma 4 31B muestra una mejora masiva

La cuantización de caché KV con QAT para Gemma 4 31B reduce significativamente la divergencia KL en comparación con las cuantizaciones estándar. QAT q8_0 logra una divergencia en el peor caso de 1.5, superando a q4_0 estándar por un factor de aproximadamente 38, y QAT q4_0 supera a q8_0 estándar en rendimiento, con una deriva de salida mucho menor y sin valores atípicos catastróficos.

media r/LocalLLaMA · hace 2 h

El informe técnico de Ling and Ring 2.6 libera modelos de billón de parámetros

Ling and Ring 2.6 ha lanzado los modelos base para Ling-2.6-1T y Ling-2.6-flash, ambos disponibles en Hugging Face. El modelo Ling-2.6-flash (100B parámetros) permite una inferencia rápida para usuarios con 24-32GB de VRAM, ofreciendo alto rendimiento en inferencia solo con CPU y 32GB de RAM.

media r/LocalLLaMA · hace 2 h

¿Puede Jetson Orin Nano ejecutar un modelo de codificación como Qwen?

Un usuario pregunta si un Jetson Orin Nano puede ejecutar un modelo de codificación como Qwen. Consideran Qwen 35B con MOE 3B pero notan que podría ser demasiado grande para el dispositivo.

media r/LocalLLaMA · hace 2 h

Gemma 4 QAT 31B responde mejor a la cuantización de KV cache

Un benchmark muestra que Gemma 4 QAT 31B tiene un mejor rendimiento con la cuantización de KV cache en comparación con versiones anteriores. Los resultados se derivaron de una publicación en el subreddit LocalLLaMA, donde el usuario justicecurcian compartió datos de rendimiento.

media r/LocalLLaMA · hace 2 h

Soporte para Step3.5/3.7 Flash MTP3 añadido

Una pull request añade soporte para Step3.5 y Step3.7 Flash MTP3 en llama.cpp. Esta mejora permite un mejor rendimiento con modelos específicos aprovechando operaciones de MTP3 multicapa. La actualización está disponible en la última versión de llama.cpp y da seguimiento a PR #23274.

media r/LocalLLaMA · hace 2 h

Gemma 4 31B Q6 funciona a 8-9 t/s en dos tarjetas 9060 XT

Un usuario informa que ejecuta Gemma 4 31B Q6 en dos tarjetas NVIDIA 9060 XT de 16GB, logrando un rendimiento constante de 8-9 tokens por segundo. Señalan que el rendimiento es utilizable pero está por debajo de las expectativas, sugiriendo posibles optimizaciones o limitaciones de hardware.

media r/LocalLLaMA · hace 2 h

Comparación entre Gemma 4 31B Q6 y Gemma 4 31B QAT

Una discusión en Reddit compara los modelos Gemma 4 31B Q6 y Gemma 4 31B QAT, centrándose en el rendimiento para tareas de escritura creativa. Los usuarios buscan orientación sobre qué variante ofrece mejores resultados generales, con preguntas sobre KLD (Divergencia de Kullback-Leibler) como métrica de calidad del modelo.