Todos los artículos
media r/LocalLLaMA · hace 2 h

Top-N-Sigma: Eliminar softmax+sort incondicional

El muestreador Top-N-Sigma actualmente realiza una operación de softmax y ordenamiento incondicional al final, lo cual es inútil cuando va seguido de Dist. Este PR elimina ese paso, mejorando el rendimiento en un 50% en un MacBook Pro M3 Max para el modelo google_gemma-4-E4B-it-Q8_0, reduciendo el tiempo por token en 10ms. El cambio puede afectar las cadenas del muestreado y aún no se ha verificado para todos los backends y modelos.

media r/LocalLLaMA · hace 2 h

¿El hardware dedicado para LLMs locales se volverá asequible pronto?

Los usuarios preguntan si el hardware dedicado para ejecutar modelos de lenguaje grandes locales se volverá asequible para los consumidores pronto. Señalan que, aunque modelos como Qwen 27B son efectivos, los costos del hardware siguen siendo altos y se preguntan si los fabricantes chinos, a pesar de los desafíos en la fabricación de chips y el software, podrían ofrecer soluciones de bajo costo y escalables.

media r/LocalLLaMA · hace 2 h

Gemma4-12B-QAT Uncensored Balanced lanzado con un aumento del 60% de velocidad mediante MTP

El modelo Gemma4-12B-QAT Uncensored Balanced ya está disponible, con una mejora del 60% en velocidad mediante descodificación especulativa de predicción multi-tokeno (MTP). Incluye cuantización Q4_K_M, soporte de visión a través de mmproj y generación estable sin bucles ni deriva del contexto, lo que lo hace ideal para tareas de escritura creativa e inteligencia emocional.

media r/LocalLLaMA · hace 2 h

Mismo modelo, mismo prompt, 4 agentes diferentes producen calidad de código variada

Un modelo Qwen3.6-27B autoalojado con el mismo prompt y hardware generó cuatro simulaciones del sistema solar en HTML/JavaScript. El andamiaje del agente influyó significativamente en la salida: opencode produjo código limpio y estable con física precisa; pi mostró robustez y consistencia de coordenadas; hermes ofreció resultados visualmente atractivos pero físicamente defectuosos; qwen code generó código mínimo y tosco. Los resultados destacan cómo el diseño del agente moldea la calidad, corrección y estabilidad del código a pesar de compartir modelo y prompt.

media r/LocalLLaMA · hace 2 h

Qwen3.6-35B-A3B APEX en RTX 3090: Puntos de referencia de velocidad y calidad

Un punto de referencia compara las bifurcaciones de llama.cpp (ik_llama y spiritbuun) que ejecutan Qwen3.6-35B-A3B APEX con modelos I-Compact e I-Quality. ik_llama con I-Compact logra la mayor velocidad (~146 TPS), mientras que spiritbuun con I-Quality y caché turbo8/turbo4 iguala esta velocidad y ofrece un rendimiento ligeramente mejor en HellaSwag. Las cachés KV turbo8/turbo4 superan a q8_0/q5_0, especialmente en contextos más largos, con una ganancia de velocidad de hasta el 15% y menor KLD, lo que las hace superiores para calidad y longitud de contexto.