Todos los artículos — korshunov.ai — noticias de ML

Todos los artículos Página 1 / 54

media r/LocalLLaMA · hace 2 h

¿Se puede ejecutar GLM5.2 en servidores AMD EPYC con 4x 512GB de RAM?

El usuario pregunta si se puede ejecutar un modelo GLM 5.2 de 467GB en cuatro servidores, cada uno con 512GB de RAM y un ancho de banda de memoria de 409.6 GB/s, utilizando inferencia solo con CPU e Unsloth. Consideran dividir el modelo entre nodos para la velocidad de tokens o usar versiones de 8 bits en clústeres duales para manejar modelos más grandes y mejorar el rendimiento.

media r/LocalLLaMA · hace 2 h

Confirmación no irrefutable, pero...

Una publicación de Reddit comparte un artículo de Hugging Face, citando la pregunta de xyzblaz. La publicación señala que el artículo no proporciona una confirmación definitiva, pero ofrece perspectivas preliminares.

media r/LocalLLaMA · hace 2 h

Los precios de los modelos de OpenRouter implican una cuantización más pesada

La fijación de precios de los modelos de OpenRouter sugiere una cuantización significativa, ya que los costos de inferencia sin procesar superan los precios de la API sin un alto rendimiento o un servicio optimizado. El autor argumenta que, a menos que los proveedores logren una eficiencia mucho mejor o ofrezcan acceso premium y de alta fidelidad, es probable que la cuantización degrade la calidad de salida, especialmente en tareas complejas como la planificación y la programación, lo que genera preocupaciones sobre la transparencia y el acceso a la verdadera capacidad del modelo.

media r/LocalLLaMA · hace 2 h

PR de aceleración de GLM 5.2 en Mac Studio

GLM 5.2 ofrece velocidades de prefill mejoradas que superan los 100 t/s a longitudes de contexto más altas. La actualización reduce el uso de memoria, permitiendo que los modelos cuantizados en 4 bits manejen eficientemente más de 100k tokens de contexto. Esta mejora se detalla en un PR del creador de oMLX.

media r/LocalLLaMA · hace 2 h

Benchmark de Scribeo Médico con LLM: Las Omisiones Superan a las Alucinaciones

Un benchmark de 8 LLMs en 300 diálogos sintéticos entre médico y paciente encontró 12 alucinaciones de alto impacto y 520 omisiones clínicamente relevantes. Las omisiones fueron mucho más comunes que las alucinaciones, con DeepSeek destacando en prosa y costo pero omitiendo muchos hechos de seguridad, mientras que Claude Opus tuvo menos omisiones pero peor calidad de prosa.

media r/LocalLLaMA · hace 2 h

7 empresas chinas envían chips de IA de clase H100/H200, la mayoría salieron a bolsa en los últimos 6 meses

Al menos siete empresas chinas están enviando ahora aceleradores de IA de clase H100/H200, con la mayoría habiendo salido a bolsa en los últimos seis meses. Huawei solo envió 812,000 tarjetas de IA el año pasado, representando el 49% del suministro doméstico de China, y su Ascend 950 está dirigido según informes al rendimiento de clase H200. Varias de estas empresas fueron fundadas por antiguos líderes de GPU de NVIDIA y AMD, incluyendo MetaX, que vio crecer sus ingresos 3,800x en tres años, y Alibaba, que lanzó un servidor con 1.5TB de VRAM para despliegue de modelos fronterizos on-premises.

media r/LocalLLaMA · hace 2 h

VibeThinker: modelo de 3B parámetros supera a Opus 4.5 en razonamiento

VibeThinker, un modelo de lenguaje de 3 mil millones de parámetros, supera a Opus 4.5 en tareas de razonamiento utilizando un enfoque de entrenamiento SFT+GRPO novedoso. El modelo fue presentado en un artículo disponible en arXiv, con detalles compartidos en una publicación de Reddit.

media r/LocalLLaMA · hace 2 h

Análisis KLD de la cuantización del KV Cache para Qwen3.6-35B-A3B y Gemma4-E2B QAT

Un análisis detallado mapea la KLD (divergencia de Kullback-Leibler) de la cuantización del KV cache para los modelos Qwen3.6-35B-A3B y Gemma4-E2B. Los resultados muestran que la cuantización q8/q8 es casi sin pérdidas en ambos modelos, mientras que q4/q4 funciona bien en Qwen pero causa una degradación severa en Gemma. Las variantes de cuantización Turbo muestran un rendimiento mixto, con turbo3 y turbo2 permitiendo una compresión extrema del cache a costa significativa de la precisión.

media r/LocalLLaMA · hace 2 h

Krea 2 lanzado en Hugging Face

Krea 2, un LLM local, ha sido lanzado en Hugging Face. El modelo está disponible en una versión Turbo en https://huggingface.co/krea/Krea-2-Turbo y una versión raw en https://hugging- face.co/krea/Krea-2-Raw. El lanzamiento incluye discusión de la comunidad en Reddit.

media r/LocalLLaMA · hace 2 h

Baidu lanza la Análisis de Largo Alcance con un Solo Ejemplo

Baidu ha presentado un nuevo modelo de análisis llamado Análisis de Largo Alcance con un Solo Ejemplo. El modelo permite una comprensión eficiente y a largo plazo del texto con mínimos datos de entrenamiento, como se demuestra en un repositorio de GitHub.

media r/LocalLLaMA · hace 2 h

Comparando Docling, Liteparse, MinerU y Unstructured para procesamiento de documentos en instalaciones propias

Una universidad que busca procesamiento de documentos en instalaciones propias para flujos de trabajo académicos debe utilizar analizadores locales debido a estrictas políticas de gobernanza de datos que prohíben las APIs en la nube. El usuario evalúa Docling, Liteparse, MinerU y Unstructured, señalando que Docling destaca en diseños complejos con licencia Apache 2.0 pero es más lento; Liteparse ofrece buen rendimiento para documentos impresos con Tesseract OCR; MinerU utiliza PaddleOCR y maneja bien los documentos en francés a pesar de una configuración más larga; Unstructured soporta múltiples formatos incluyendo DOCX y PPTX. La solución debe admitir análisis recurrentes y estables de PDFs en evolución con mínimos cambios de formato.

media r/LocalLLaMA · hace 2 h

la webui de llama-server no responde tras recompilar

La webui de llama-server no responde a las indicaciones, mostrando únicamente 'procesando...' a pesar de que el modelo se carga correctamente. La interfaz CLI funciona normalmente y los puntos finales de salud del servidor responden correctamente. El problema surgió después de recompilar llama.cpp con soporte CUDA.

media r/LocalLLaMA · hace 2 h

Mi nuevo punto de referencia: ¿qué tan buenas son las LLM para simular el comportamiento de humedecimiento?

Un nuevo micro-punto de referencia para LLM evalúa qué tan bien los modelos de lenguaje grandes pueden simular interfaces sólido-líquido utilizando Surface Evolver, una herramienta de 1992 para modelar superficies líquidas. El punto de referencia requiere que las LLM escriban archivos de datos SE que definan la geometría y las restricciones a través de un proceso agénico iterativo con calificación objetiva, ofreciendo una tarea de nicho con relevancia científica real y datos de entrenamiento escasos.

media r/LocalLLaMA · hace 2 h

Benchmark TTS solo con CPU: Kokoro 82M vs Supertonic 3 vs Inflect-Nano-v1

Un benchmark de texto a voz solo con CPU compara Kokoro-82M, Supertonic-3 e Inflect-Nano-v1 en un Intel Xeon con 4 núcleos y 15.6GB de RAM. Kokoro ofrece el sonido más natural (MOS 4.44-4.45) a pesar de su velocidad más lenta, con la versión ONNX superando a PyTorch en factor de tiempo real mientras mantiene una calidad idéntica. Supertonic-5-step logra un resultado equilibrado a 3.2x tiempo real y MOS 4.37, convirtiéndolo en la opción práctica para usabilidad y calidad.

media r/LocalLLaMA · hace 2 h

¿Round robin de hardware agrupado con amigos?

Un usuario propone combinar rigs inactivos de varios amigos utilizando sistemas agénticos para realizar tareas en un round robin. La idea es verificar si los rigs de los amigos están inactivos y asignar trabajo cuando esté disponible, aprovechando la operación paralela de agentes para mejorar la eficiencia general.

media r/LocalLLaMA · hace 2 h

Flujos de trabajo reutilizables para LLMs locales de larga duración

Hayden ha desarrollado el arnés knot para gestionar tareas de LLM local de larga duración. Permite flujos de trabajo reutilizables con perfiles de agente, monitoreo de eventos del sistema de archivos y activadores automáticos, utilizando Pi.dev como agente predeterminado.

media r/LocalLLaMA · hace 2 h

Reseña de Jackrong/Qwopus3.5-9B-Coder-MTP-GGUF

Una reseña analiza la experiencia con las variantes Qwopus Coder MTP de Jackrong, comparándolas con los modelos Qwen3.5 y Qwen3.6 en tamaños de 9B, 27B y 35B parámetros. La reseña se centra en el rendimiento y la usabilidad del modelo 9B-Coder-MTP-GGUF en despliegues locales de LLM.

media r/LocalLLaMA · hace 2 h

Modelo grande de IA con 4 tarjetas V100 y servidor Tesla de 128G

Hay disponible una configuración con cuatro GPUs V100 en un servidor Tesla de 128G, con un precio listado de USD 3687.76. El sistema incluye un soporte para tarjeta gráfica con refrigeración líquida y enfriamiento líquido de 360° para toda la configuración.

media r/LocalLLaMA · hace 2 h

La actitud de GLM 5.2 refleja influencias del entrenamiento cultural

Los usuarios elogian a GLM 5.2 por su actitud directa e inquebrantable, contrastándola con modelos más empalagosos de EE. UU. El autor especula que este comportamiento proviene de datos de entrenamiento culturalmente específicos, sugiriendo que los conjuntos de datos locales tienen una influencia mayor de lo que se asumía anteriormente.

media r/LocalLLaMA · hace 2 h

¡Mi servidor local inactivo el 99% del tiempo!

Un usuario informa que su servidor local ejecuta Qwen3.6-27B con OWU y PI para tareas de programación, pero permanece inactivo el 99% del tiempo. Pide a la comunidad ideas sobre cómo utilizar mejor los LLM locales con tareas significativas y continuas las 24 horas.