Todos los artículos — korshunov.ai — noticias de ML

Todos los artículos Página 1 / 45

media r/LocalLLaMA · hace 2 h

Top-N-Sigma: Eliminar softmax+sort incondicional

El muestreador Top-N-Sigma actualmente realiza una operación de softmax y ordenamiento incondicional al final, lo cual es inútil cuando va seguido de Dist. Este PR elimina ese paso, mejorando el rendimiento en un 50% en un MacBook Pro M3 Max para el modelo google_gemma-4-E4B-it-Q8_0, reduciendo el tiempo por token en 10ms. El cambio puede afectar las cadenas del muestreado y aún no se ha verificado para todos los backends y modelos.

media r/LocalLLaMA · hace 2 h

Mejor modelo local para convertir texto en salida JSON estructurada

Los usuarios buscan un modelo local que convierta eficientemente texto no estructurado en JSON válido basado en un esquema definido. Entre los modelos probados, Qwen 3.6 35B a3b muestra un rendimiento sólido, igualando la calidad de modelos más grandes como GPT-120B mientras es más estable en máquinas locales que GPT-20B.

media r/LocalLLaMA · hace 2 h

Moebius: Marco de inpintación de imágenes ligero de 0.2B

Moebius es un marco de inpintación de imágenes de 0.2B parámetros que logra un rendimiento comparable al de modelos de 10B parámetros. Está diseñado para la edición de imágenes ligera y eficiente con requisitos computacionales mínimos.

media r/LocalLLaMA · hace 2 h

Hackers chinos crean un clon del Tesla V100 v4

Los hackers chinos han realizado ingeniería inversa del pinout del Tesla V100, lo han soldado en una PCB de media altura y lo han lanzado como el Tesla V100 v4. La versión de 16GB tiene un precio de 1499 RMB (220 USD) con una garantía de tres años, mientras que la versión de 32GB cuesta 3999 RMB (590 USD).

media r/LocalLLaMA · hace 2 h

TMax: Una receta sencilla para agentes de terminal

TMax presenta TMax-15k, un conjunto de datos con 14.600 entornos de RL, más de 2,5× mayor que el siguiente conjunto de datos de terminal abierto más grande. También presenta una receta de RL sencilla que entrena modelos abiertos de 2B a 27B parámetros, con TMax-9B logrando un 27,2% en Terminal Bench 2.0 y TMax-27B alcanzando el 42,7%.

media r/LocalLLaMA · hace 2 h

NEX-N2-mini afirma alcanzar la optimalidad de Pareto en eficiencia de razonamiento

El modelo NEX-N2-mini afirma lograr un rendimiento de razonamiento de nivel 3.5 y 3.6 con significativamente menos tokens de razonamiento. Las pruebas muestran que supera a otros modelos MoE en eficiencia, reduciendo los tokens desperdiciados mientras mantiene una alta calidad de razonamiento.

media r/LocalLLaMA · hace 2 h

¿El hardware dedicado para LLMs locales se volverá asequible pronto?

Los usuarios preguntan si el hardware dedicado para ejecutar modelos de lenguaje grandes locales se volverá asequible para los consumidores pronto. Señalan que, aunque modelos como Qwen 27B son efectivos, los costos del hardware siguen siendo altos y se preguntan si los fabricantes chinos, a pesar de los desafíos en la fabricación de chips y el software, podrían ofrecer soluciones de bajo costo y escalables.

media r/LocalLLaMA · hace 2 h

Gemma4-12B-QAT Uncensored Balanced lanzado con un aumento del 60% de velocidad mediante MTP

El modelo Gemma4-12B-QAT Uncensored Balanced ya está disponible, con una mejora del 60% en velocidad mediante descodificación especulativa de predicción multi-tokeno (MTP). Incluye cuantización Q4_K_M, soporte de visión a través de mmproj y generación estable sin bucles ni deriva del contexto, lo que lo hace ideal para tareas de escritura creativa e inteligencia emocional.

media r/LocalLLaMA · hace 2 h

Mismo modelo, mismo prompt, 4 agentes diferentes producen calidad de código variada

Un modelo Qwen3.6-27B autoalojado con el mismo prompt y hardware generó cuatro simulaciones del sistema solar en HTML/JavaScript. El andamiaje del agente influyó significativamente en la salida: opencode produjo código limpio y estable con física precisa; pi mostró robustez y consistencia de coordenadas; hermes ofreció resultados visualmente atractivos pero físicamente defectuosos; qwen code generó código mínimo y tosco. Los resultados destacan cómo el diseño del agente moldea la calidad, corrección y estabilidad del código a pesar de compartir modelo y prompt.

media Interconnects · hace 2 h

GLM-5.2 es el cambio de paso para agentes abiertos

GLM-5.2, un modelo de IA de pesos abiertos lanzado por Z.ai, ha establecido un nuevo punto de referencia en codificación y rendimiento general de agentes. Supera a modelos como Claude Fable 5 y Gemini, e iguala o supera al Opus 4.8 de OpenAI en modo de pensamiento máximo, consolidándose como el primer modelo abierto que se siente adecuado en harnesses de codificación como agente general.

media r/LocalLLaMA · hace 2 h

Prueba de velocidad de GLM-5.2 UD-IQ1_M en llama.cpp con 5090 y 3090 Ti

Una prueba de velocidad de GLM-5.2 cuantizado a UD-IQ1_M usando llama.cpp muestra 579 t/s de prefill con contexto de 8k y 324 t/s con contexto de 57k. La velocidad de decodificación se mantiene estable en 10.6 t/s para más de 580 tokens, cayendo a 9.37 t/s con contexto de 60k.

media r/LocalLLaMA · hace 2 h

¿Qué chasis estás usando?

Un usuario pide recomendaciones de gabinetes para múltiples GPUs, mencionando específicamente un modelo de torre de doble cámara con 6 GPUs disponible en Alibaba. Busca opiniones sobre esta opción y su idoneidad para configuraciones de GPU de gama alta.

media r/LocalLLaMA · hace 2 h

Construí una herramienta para dejar de cambiar modelos manualmente en mi GPU de 8GB

Desarrollé Prompt-Chain, una aplicación de Streamlit que encadena un modelo Prompter pequeño con un modelo Coder grande en una única canalización. Cambia automáticamente la VRAM al pasar del refinamiento de prompts a la generación de código, eliminando el cambio manual de modelos y reduciendo los tokens desperdiciados por prompts mal redactados.

media r/LocalLLaMA · hace 2 h

GLM5.2 se ejecuta a 7tg en 4x 3090s con 192GB DDR5 en una configuración económica

Un usuario comparte su configuración de laboratorio doméstico con cuatro GPUs GeForce 3090 y 192GB de RAM DDR5 overclockeadas a 5600 MHz. Ejecutan GLM5.2 a 7 tera-giga (tg) como planificador, MiniMax 2.7 a 45tg en VRAM para codificación, y Qwen3.6 27B en q8 para pruebas, todo en hardware de consumo por consideraciones de costo.

media r/LocalLLaMA · hace 2 h

Gemma 4 QAT responde mejor a la cuantización de la caché KV

Un post en Reddit informa que Gemma 4 QAT muestra una mejora significativa en el rendimiento al utilizar la cuantización de la caché KV, según lo medido en el conjunto de datos wikitext con un contexto de 16k. El usuario señala que sus límites de hardware limitan las pruebas a modelos de 31B e invita a otros a explorar los resultados.

media Hugging Face Forums · hace 2 h

Usuario solicita la eliminación de una cuenta que publica contenido pornográfico, sangriento y nazi

Un usuario en los foros de Hugging Face está solicitando la eliminación de la cuenta 'cerealpotatochipssea' por subir contenido prohibido. El informe alega que la cuenta ha compartido material para mayores de 18 años, imágenes sangrientas e imágenes relacionadas con los nazis.

github CrewAI · hace 2 h

Notas de la versión de CrewAI 1.15.1a1

La actualización de CrewAI 1.15.1a1 introduce nuevo seguimiento de telemetría, aplica definiciones explícitas del proyecto para CrewAI y mejora el flujo de trabajo de implementación de la CLI.

media r/LocalLLaMA · hace 2 h

Qwen3.6-35B-A3B APEX en RTX 3090: Puntos de referencia de velocidad y calidad

Un punto de referencia compara las bifurcaciones de llama.cpp (ik_llama y spiritbuun) que ejecutan Qwen3.6-35B-A3B APEX con modelos I-Compact e I-Quality. ik_llama con I-Compact logra la mayor velocidad (~146 TPS), mientras que spiritbuun con I-Quality y caché turbo8/turbo4 iguala esta velocidad y ofrece un rendimiento ligeramente mejor en HellaSwag. Las cachés KV turbo8/turbo4 superan a q8_0/q5_0, especialmente en contextos más largos, con una ganancia de velocidad de hasta el 15% y menor KLD, lo que las hace superiores para calidad y longitud de contexto.

media r/LocalLLaMA · hace 2 h

El passthrough de PCI solo alcanza velocidad de gen 1

El passthrough de PCI de una RTX 3090 a una VM a través del hipervisor Alpine muestra solo velocidad de PCIe gen 1 (2.5 GT/s) después del inicio de la VM, a pesar de que la GPU del host funciona a gen 4 (16 GT/s). El reentrenamiento del enlace ocurre cuando se inicia la VM y vuelve a gen 4 al apagarla, sin cambios observados al ajustar los ajustes de PCIe o los parámetros del kernel.

media r/LocalLLaMA · hace 2 h

Los precios de DDR5 en la UE bajan, Alemania es mucho más barata que los Países Bajos

Los precios de DDR5 en Alemania, Países Bajos, España y Bélgica han caído significativamente durante 25 días. Alemania es un 10-20% más barata que los Países Bajos y Bélgica para kits DDR5 idénticos, con modelos de G.Skill y Kingston mostrando caídas del 28% al 26%. Los kits DDR5-6000 2x16GB son ahora una opción rentable para inferencia LLM de nivel básico.