Todos los artículos
media r/LocalLLaMA · hace 7 h

JetSpec: El descodificado especulativo con redacción paralela de árboles permite una aceleración de inferencia LLM sin pérdidas de hasta 9.64x

JetSpec introduce un método de descodificación especulativa llamado redacción causal de árboles en paralelo que co-optimiza el costo y la calidad del borrador para reducir la latencia de generación de LLM. El enfoque logra una aceleración end-to-end de hasta 9.64x en MATH-500 y 4.58x en chat abierto mientras mantiene la precisión sin pérdidas.

media r/LocalLLaMA · hace 7 h

Los precios de las tarjetas gráficas se vuelven locos, ¿debería comprar una segunda tarjeta?

Un usuario en r/LocalLLaMA está considerando añadir una segunda GPU a su equipo para inferencia de LLM local, pero se ve disuadido por el fuerte aumento de los precios de las tarjetas AMD Radeon RX 7900 XTX y XT. El autor señala que, aunque los precios nuevos de la RX 7900 XTX han subido a 1200€, las unidades usadas están alrededor de 900€, y la RX 7900 XT económica comienza en 700€.

media r/LocalLLaMA · hace 7 h

Manejo del aislamiento por agente y del ciclo de vida del entorno en una biblioteca de orquestación

El autor detalla la arquitectura de una biblioteca de orquestación agnóstica al arnés, centrada en gestionar los entornos de los agentes mediante abstracciones distintas de espacio de trabajo y tiempo de ejecución. El sistema define cuatro estados secuenciales—no aprovisionado, aprovisionado, iniciado y retirado—para controlar el ciclo de vida de cada instancia de agente.

media r/LocalLLaMA · hace 7 h

Usuario de Reddit cuestiona el valor de la RTX 6000 Pro ante el aumento de precios

Un usuario de Reddit en la comunidad r/LocalLLaMA está buscando consejos sobre la compra de una GPU NVIDIA RTX 6000 Pro. El autor señala que el precio ha aumentado significativamente, pasando de aproximadamente $8,000 hace seis meses a alrededor de $13,000 actualmente. Está buscando comentarios de propietarios existentes sobre su satisfacción con el hardware. Específicamente, el usuario pregunta si la tarjeta vale la pena la inversión para ejecutar modelos como Qwen 2.5 7B. La publicación tiene como objetivo ayudar al comprador a justificar el gasto ante su esposa recopilando experiencias de uso en el mundo real.

media r/LocalLLaMA · hace 7 h

LFM2.5 230M se ejecuta en el navegador a 1,400 tok/s mediante kernels WebGPU personalizados

El modelo LFM2.5-230M de LiquidAI ahora se ejecuta localmente en el navegador utilizando kernels WebGPU personalizados. Estos kernels especializados fueron desarrollados originalmente por Fable 5 antes de su cierre y Opus 4.8. La demostración fue grabada en un dispositivo M4 Max, alcanzando una velocidad de generación de 1,400 tokens por segundo. Todo el procesamiento ocurre completamente dentro del entorno del navegador del usuario sin dependencias de servidores externos. Una versión GGUF del modelo está disponible para descargar en Hugging Face junto con la checkpoint estándar. Los usuarios pueden interactuar con la demostración en vivo alojada por webml-community en Hugging Face Spaces.

media r/LocalLLaMA · hace 7 h

Apple omitirá los chips M6 Pro/Max y acelerará el M7 para IA local

Un informe reciente indica que Apple planea omitir el lanzamiento de los chips M6 Pro y M6 Max en su próxima gama. En cambio, la empresa tiene la intención de acelerar el desarrollo de la serie de chips M7 para apoyar mejor las cargas de trabajo de inteligencia artificial local. Este cambio estratégico sugiere una priorización de las capacidades de IA en el dispositivo sobre los incrementos tradicionales de rendimiento para la gama Pro. La decisión refleja el creciente énfasis de Apple en integrar características avanzadas de aprendizaje automático directamente en su arquitectura de hardware. Al acelerar el cronograma del M7, Apple busca proporcionar un rendimiento más robusto del motor neural para ejecutar modelos de lenguaje grandes localmente. Este movimiento señala un cambio significativo en la hoja de ruta de desarrollo de Apple Silicon hacia principios de diseño centrados en la IA.

media r/LocalLLaMA · hace 7 h

Publicación de Reddit: Capa de Memoria de Asistente de IA Totalmente Local

Un usuario de Reddit de la comunidad r/LocalLLaMA compartió una publicación titulada 'Después de 2.5 años de noches y fines de semana, mi asistente de IA totalmente local finalmente es utilizable.' La presentación se centra en explicar cómo funciona la capa de memoria de este sistema de IA personal. El contenido fue enviado por el usuario /u/PAiERAlabs al subreddit dedicado a modelos de lenguaje grandes locales. La publicación incluye un enlace a una galería que contiene detalles adicionales sobre el proyecto. Se dirige a los lectores a la sección de comentarios para más discusión e ideas técnicas. Esta entrada destaca un proyecto personal a largo plazo destinado a crear un asistente de IA funcional alojado localmente.

media r/LocalLLaMA · hace 7 h

Hugging Face bloquea descargas multihilo, afectando al ecosistema GGUF

Hugging Face ha implementado un cambio reciente que bloquea la aceleración de descargas multihilo, lo que resulta en errores 403 para todos los hilos excepto uno por conexión. Esta actualización afecta significativamente al ecosistema GGUF, donde son comunes los modelos grandes de archivo único y las velocidades de hilo único suelen estar limitadas a 40 MB/s. Anteriormente, herramientas como la CLI de Hugging Face aceleraban las descargas obteniendo múltiples archivos más pequeños en paralelo, un método ahora obstaculizado por esta restricción. El autor señala que descargar una rama completa de repositorios GGUF es ineficiente debido a la presencia de archivos grandes y múltiples cuantizaciones dentro de la misma rama. Sin una reversión de esta política, las velocidades de descarga seguirán siendo lentas a menos que los cargadores transiten a dividir los modelos en numerosos archivos más pequeños en diferentes ramas. Dicha solución requeriría que los usuarios fusionen manualmente los archivos, lo cual se considera menos deseable que la restauración por parte de Hugging Face de las capacidades de aceleración anteriores.

media r/LocalLLaMA · hace 7 h

Un desarrollador lleva los artefactos estilo Claude a modelos locales mediante TurboLLM

Un usuario de Reddit destaca la ausencia de artefactos renderizados en configuraciones de IA local en comparación con Claude de Anthropic. Aunque los modelos locales pueden generar código para paneles o diagramas, los usuarios generalmente deben copiar la salida en otro lugar para verla. Para abordar esta brecha, el desarrollador experimentó con la representación directa de HTML, SVG y código Mermaid generados dentro de la interfaz de chat. Los resultados demostraron que la limitación radica en la interfaz de usuario más que en las capacidades del modelo. Una captura de pantalla de la publicación muestra un panel renderizado por Gemma 4 26B a partir de un único prompt en un escritorio. La implementación se construyó utilizando TurboLLM, lo que permite esta visualización directa de las salidas de código. El autor invita a la comunidad a discutir sus flujos de trabajo y si extrañan la función de artefactos de Claude.

media r/LocalLLaMA · hace 8 h

Usuario de Reddit busca LLM local privado para documentación técnica

Un usuario de Reddit busca recomendaciones para un modelo de lenguaje grande local capaz de generar diseños de software de alto y bajo nivel. El flujo de trabajo implica usar plantillas existentes, cruzar referencias con el código e integrarse con marcos agénticos como OpenCode a través de MCP para obtener datos de Confluence y Jira. El usuario actualmente depende de Opus 3.6 a través de Kiro-cli pero requiere una solución que garantice la privacidad de los datos. Las restricciones técnicas clave incluyen la necesidad de al menos 256k de longitud de contexto y fuertes capacidades de razonamiento. El autor pregunta si es necesario hardware como cuatro GPUs RTX 3090 para lograr este nivel de rendimiento localmente.

media r/LocalLLaMA · hace 8 h

llama.cpp b9788 añade soporte para división de tensores SYCL en GPUs Intel

El proyecto llama.cpp ha lanzado la versión b9788, que introduce soporte para la opción --split-mode tensor dentro de su backend SYCL. Esta actualización se dirige específicamente a usuarios que ejecutan inferencia en unidades gráficas Intel. La función está implementada a través del pull request #24152 en el repositorio ggml-org. Permite dividir los tensores del modelo entre múltiples dispositivos en lugar de depender únicamente de la distribución basada en capas. Las notas de lanzamiento invitan explícitamente a usuarios con configuraciones de doble GPU Intel a probar esta nueva funcionalidad. Se anima a los contribuyentes a proporcionar benchmarks de rendimiento para validar las mejoras. Esta adición tiene como objetivo mejorar la utilización multi-GPU para configuraciones de hardware Intel compatibles.

media r/LocalLLaMA · hace 8 h

GLM 5.2 corre a 12t/s en hardware dual RTX 5090

Un usuario probó la versión cuantizada de unsloth de GLM 5.2 en una estación de trabajo de consumo de gama alta que cuenta con dos GPUs RTX 5090 y un procesador Zen5 Threadripper Pro. El sistema utilizaba 512GB de RAM DDR5 ECC y estaba configurado con banderas de compilación específicas de llama.cpp para habilitar optimizaciones CUDA y manejo de memoria unificada. Los pesos del modelo se cargaron desde la cuantización UD-Q5_K_S, que totalizó aproximadamente 492GB a través de múltiples archivos GGUF. Las pruebas de rendimiento implicaron ejecutar llama-server con un tamaño de contexto de 32768 tokens y parámetros de subprocesamiento específicos para aislamiento NUMA. Los resultados del benchmark mostraron consistentemente una velocidad de inferencia de 12 tokens por segundo durante interacciones de chat sin flujos de trabajo agénticos. Experimentos adicionales revelaron que omitir ciertas banderas de optimización, como flash attention o configuraciones NUMA, produjo cambios insignificantes en el rendimiento.

media r/LocalLLaMA · hace 8 h

Construyendo un REPL de Agente LLM basado en Bash con dependencias mínimas

Un desarrollador creó un bucle REPL de agente personalizado utilizando exclusivamente bloques de construcción estándar de la línea de comandos para minimizar las dependencias. El sistema se basa en tuberías, flujos de texto y registros solo de anexión, alineándose estrechamente con la filosofía clásica de Unix. Este enfoque permite la inyección flexible de herramientas para inspeccionar, filtrar, redirigir y auditar varias etapas del bucle del agente. Las características clave incluyen un backend plug-and-play acotado a una única herramienta de línea de comandos, garantizando la portabilidad entre diferentes proveedores de modelos. La memoria y el contexto del agente se almacenan en un archivo de historial solo de anexión, lo que permite una fácil introspección, modificación y rebobinado. Aunque se probó con un backend de Ollama, el diseño admite cualquier interfaz REST compatible con la API de OpenAI. El código fuente de este proyecto está disponible en GitHub bajo el nombre de repositorio llayer.