Notas de la versión de CrewAI 1.15.1a1
La actualización de CrewAI 1.15.1a1 introduce nuevo seguimiento de telemetría, aplica definiciones explícitas del proyecto para CrewAI y mejora el flujo de trabajo de implementación de la CLI.
La actualización de CrewAI 1.15.1a1 introduce nuevo seguimiento de telemetría, aplica definiciones explícitas del proyecto para CrewAI y mejora el flujo de trabajo de implementación de la CLI.
Un punto de referencia compara las bifurcaciones de llama.cpp (ik_llama y spiritbuun) que ejecutan Qwen3.6-35B-A3B APEX con modelos I-Compact e I-Quality. ik_llama con I-Compact logra la mayor velocidad (~146 TPS), mientras que spiritbuun con I-Quality y caché turbo8/turbo4 iguala esta velocidad y ofrece un rendimiento ligeramente mejor en HellaSwag. Las cachés KV turbo8/turbo4 superan a q8_0/q5_0, especialmente en contextos más largos, con una ganancia de velocidad de hasta el 15% y menor KLD, lo que las hace superiores para calidad y longitud de contexto.
El passthrough de PCI de una RTX 3090 a una VM a través del hipervisor Alpine muestra solo velocidad de PCIe gen 1 (2.5 GT/s) después del inicio de la VM, a pesar de que la GPU del host funciona a gen 4 (16 GT/s). El reentrenamiento del enlace ocurre cuando se inicia la VM y vuelve a gen 4 al apagarla, sin cambios observados al ajustar los ajustes de PCIe o los parámetros del kernel.
Los precios de DDR5 en Alemania, Países Bajos, España y Bélgica han caído significativamente durante 25 días. Alemania es un 10-20% más barata que los Países Bajos y Bélgica para kits DDR5 idénticos, con modelos de G.Skill y Kingston mostrando caídas del 28% al 26%. Los kits DDR5-6000 2x16GB son ahora una opción rentable para inferencia LLM de nivel básico.
Un usuario de Reddit señala que Openrouter lista 16 proveedores para GLM 5.2, todos basados en EE.UU., Singapur o China. El usuario cuestiona la ausencia de cualquier proveedor europeo ejecutando específicamente modelos abiertos chinos como GLM 5.2 o DeepSeek V4 Flash.
La cuantización de caché KV con QAT para Gemma 4 31B reduce significativamente la divergencia KL en comparación con las cuantizaciones estándar. QAT q8_0 logra una divergencia en el peor caso de 1.5, superando a q4_0 estándar por un factor de aproximadamente 38, y QAT q4_0 supera a q8_0 estándar en rendimiento, con una deriva de salida mucho menor y sin valores atípicos catastróficos.
Ling and Ring 2.6 ha lanzado los modelos base para Ling-2.6-1T y Ling-2.6-flash, ambos disponibles en Hugging Face. El modelo Ling-2.6-flash (100B parámetros) permite una inferencia rápida para usuarios con 24-32GB de VRAM, ofreciendo alto rendimiento en inferencia solo con CPU y 32GB de RAM.
Un usuario pregunta si un Jetson Orin Nano puede ejecutar un modelo de codificación como Qwen. Consideran Qwen 35B con MOE 3B pero notan que podría ser demasiado grande para el dispositivo.
Un benchmark muestra que Gemma 4 QAT 31B tiene un mejor rendimiento con la cuantización de KV cache en comparación con versiones anteriores. Los resultados se derivaron de una publicación en el subreddit LocalLLaMA, donde el usuario justicecurcian compartió datos de rendimiento.
Una pull request añade soporte para Step3.5 y Step3.7 Flash MTP3 en llama.cpp. Esta mejora permite un mejor rendimiento con modelos específicos aprovechando operaciones de MTP3 multicapa. La actualización está disponible en la última versión de llama.cpp y da seguimiento a PR #23274.
Un usuario informa que ejecuta Gemma 4 31B Q6 en dos tarjetas NVIDIA 9060 XT de 16GB, logrando un rendimiento constante de 8-9 tokens por segundo. Señalan que el rendimiento es utilizable pero está por debajo de las expectativas, sugiriendo posibles optimizaciones o limitaciones de hardware.
Una discusión en Reddit compara los modelos Gemma 4 31B Q6 y Gemma 4 31B QAT, centrándose en el rendimiento para tareas de escritura creativa. Los usuarios buscan orientación sobre qué variante ofrece mejores resultados generales, con preguntas sobre KLD (Divergencia de Kullback-Leibler) como métrica de calidad del modelo.
Una evaluación analizó 192 prompts en modelos locales de texto a imagen en un GX10 Spark, evaluando capacidades como comprensión de texto, generación de rostros y composición espacial. Los resultados están disponibles en ImageBench, con comparaciones a APIs de vanguardia usando modelos de lenguaje visuales, y todos los prompts e imágenes son de acceso público.
Los usuarios comparten sus flujos de trabajo para codificar con LLMs locales cuando la generación de tokens es inferior a 10 tokens por segundo. Las estrategias comunes incluyen el uso de prompts concisos, aprovechar modelos locales con contexto mínimo y agrupar consultas para maximizar la eficiencia.
Un usuario pregunta sobre herramientas para convertir PDFs con estructuras complejas como tablas y cajas flotantes a Markdown. Ha probado markitdown, Docling y Mineru, y busca recomendaciones para mejores alternativas.
Un usuario busca recomendaciones del stack de software para construir un proyecto web en Python en PyCharm utilizando LLMs locales. Su objetivo es aprovechar sistemas de agentes que puedan generar planes, ejecutar código y realizar pruebas, con experiencia previa en los modelos GPT-OSS y Qwen mostrando diferencias de rendimiento y calidad.
Un usuario reportó que eliminar la variable de entorno GGML_CUDA_ALLREDUCE llevó a una mejora notable en el throughput (TPS) para MTP en inferencia de LLM local. El cambio, que previamente se consideraba beneficioso, redujo inesperadamente la sobrecarga y mejoró el rendimiento, especialmente después de extensos ensayos de configuración.
Un usuario expresa decepción con la interfaz web de Hermes Agent, citando fuentes y gráficos feos, así como una experiencia de usuario lenta tanto en las interfaces web como de terminal. A pesar de su promesa de funciones integradas y facilidad de uso, el usuario lo encuentra significativamente más lento y menos intuitivo que Pi Mono Agent, especialmente cuando se usa con los modelos Qwen3.6-35B y Gemma4-26B.
La tabla de clasificación de modelos del análisis artificial ayuda a comparar la inteligencia de los modelos, pero ignora los efectos de la cuantización en los modelos abiertos. Los usuarios preguntan si hay una mejor manera de comparar modelos abiertos cuantizados con los propietarios sin ejecutarlos directamente.
Un usuario de Reddit expresa su gratitud a la comunidad LocalLLaMA, compartiendo que el post no trata sobre un nuevo modelo sino un agradecimiento personal. Como padre, destaca el valor de la comunidad como refugio durante la vida familiar, apreciando las interacciones sobre configuración, hardware y ajuste de modelos.