Todos los artículos
media r/LocalLLaMA · hace 3 h

LFM2.5 230M se ejecuta en el navegador a 1,400 tok/s mediante kernels WebGPU personalizados

El modelo LFM2.5-230M de LiquidAI ahora se ejecuta localmente en el navegador utilizando kernels WebGPU personalizados. Estos kernels especializados fueron desarrollados originalmente por Fable 5 antes de su cierre y Opus 4.8. La demostración fue grabada en un dispositivo M4 Max, alcanzando una velocidad de generación de 1,400 tokens por segundo. Todo el procesamiento ocurre completamente dentro del entorno del navegador del usuario sin dependencias de servidores externos. Una versión GGUF del modelo está disponible para descargar en Hugging Face junto con la checkpoint estándar. Los usuarios pueden interactuar con la demostración en vivo alojada por webml-community en Hugging Face Spaces.

media r/LocalLLaMA · hace 3 h

Apple omitirá los chips M6 Pro/Max y acelerará el M7 para IA local

Un informe reciente indica que Apple planea omitir el lanzamiento de los chips M6 Pro y M6 Max en su próxima gama. En cambio, la empresa tiene la intención de acelerar el desarrollo de la serie de chips M7 para apoyar mejor las cargas de trabajo de inteligencia artificial local. Este cambio estratégico sugiere una priorización de las capacidades de IA en el dispositivo sobre los incrementos tradicionales de rendimiento para la gama Pro. La decisión refleja el creciente énfasis de Apple en integrar características avanzadas de aprendizaje automático directamente en su arquitectura de hardware. Al acelerar el cronograma del M7, Apple busca proporcionar un rendimiento más robusto del motor neural para ejecutar modelos de lenguaje grandes localmente. Este movimiento señala un cambio significativo en la hoja de ruta de desarrollo de Apple Silicon hacia principios de diseño centrados en la IA.

media r/LocalLLaMA · hace 3 h

Publicación de Reddit: Capa de Memoria de Asistente de IA Totalmente Local

Un usuario de Reddit de la comunidad r/LocalLLaMA compartió una publicación titulada 'Después de 2.5 años de noches y fines de semana, mi asistente de IA totalmente local finalmente es utilizable.' La presentación se centra en explicar cómo funciona la capa de memoria de este sistema de IA personal. El contenido fue enviado por el usuario /u/PAiERAlabs al subreddit dedicado a modelos de lenguaje grandes locales. La publicación incluye un enlace a una galería que contiene detalles adicionales sobre el proyecto. Se dirige a los lectores a la sección de comentarios para más discusión e ideas técnicas. Esta entrada destaca un proyecto personal a largo plazo destinado a crear un asistente de IA funcional alojado localmente.

media r/LocalLLaMA · hace 3 h

Hugging Face bloquea descargas multihilo, afectando al ecosistema GGUF

Hugging Face ha implementado un cambio reciente que bloquea la aceleración de descargas multihilo, lo que resulta en errores 403 para todos los hilos excepto uno por conexión. Esta actualización afecta significativamente al ecosistema GGUF, donde son comunes los modelos grandes de archivo único y las velocidades de hilo único suelen estar limitadas a 40 MB/s. Anteriormente, herramientas como la CLI de Hugging Face aceleraban las descargas obteniendo múltiples archivos más pequeños en paralelo, un método ahora obstaculizado por esta restricción. El autor señala que descargar una rama completa de repositorios GGUF es ineficiente debido a la presencia de archivos grandes y múltiples cuantizaciones dentro de la misma rama. Sin una reversión de esta política, las velocidades de descarga seguirán siendo lentas a menos que los cargadores transiten a dividir los modelos en numerosos archivos más pequeños en diferentes ramas. Dicha solución requeriría que los usuarios fusionen manualmente los archivos, lo cual se considera menos deseable que la restauración por parte de Hugging Face de las capacidades de aceleración anteriores.

media r/LocalLLaMA · hace 3 h

Un desarrollador lleva los artefactos estilo Claude a modelos locales mediante TurboLLM

Un usuario de Reddit destaca la ausencia de artefactos renderizados en configuraciones de IA local en comparación con Claude de Anthropic. Aunque los modelos locales pueden generar código para paneles o diagramas, los usuarios generalmente deben copiar la salida en otro lugar para verla. Para abordar esta brecha, el desarrollador experimentó con la representación directa de HTML, SVG y código Mermaid generados dentro de la interfaz de chat. Los resultados demostraron que la limitación radica en la interfaz de usuario más que en las capacidades del modelo. Una captura de pantalla de la publicación muestra un panel renderizado por Gemma 4 26B a partir de un único prompt en un escritorio. La implementación se construyó utilizando TurboLLM, lo que permite esta visualización directa de las salidas de código. El autor invita a la comunidad a discutir sus flujos de trabajo y si extrañan la función de artefactos de Claude.

media r/LocalLLaMA · hace 3 h

Usuario de Reddit busca LLM local privado para documentación técnica

Un usuario de Reddit busca recomendaciones para un modelo de lenguaje grande local capaz de generar diseños de software de alto y bajo nivel. El flujo de trabajo implica usar plantillas existentes, cruzar referencias con el código e integrarse con marcos agénticos como OpenCode a través de MCP para obtener datos de Confluence y Jira. El usuario actualmente depende de Opus 3.6 a través de Kiro-cli pero requiere una solución que garantice la privacidad de los datos. Las restricciones técnicas clave incluyen la necesidad de al menos 256k de longitud de contexto y fuertes capacidades de razonamiento. El autor pregunta si es necesario hardware como cuatro GPUs RTX 3090 para lograr este nivel de rendimiento localmente.

media r/LocalLLaMA · hace 3 h

llama.cpp b9788 añade soporte para división de tensores SYCL en GPUs Intel

El proyecto llama.cpp ha lanzado la versión b9788, que introduce soporte para la opción --split-mode tensor dentro de su backend SYCL. Esta actualización se dirige específicamente a usuarios que ejecutan inferencia en unidades gráficas Intel. La función está implementada a través del pull request #24152 en el repositorio ggml-org. Permite dividir los tensores del modelo entre múltiples dispositivos en lugar de depender únicamente de la distribución basada en capas. Las notas de lanzamiento invitan explícitamente a usuarios con configuraciones de doble GPU Intel a probar esta nueva funcionalidad. Se anima a los contribuyentes a proporcionar benchmarks de rendimiento para validar las mejoras. Esta adición tiene como objetivo mejorar la utilización multi-GPU para configuraciones de hardware Intel compatibles.

media r/LocalLLaMA · hace 3 h

GLM 5.2 corre a 12t/s en hardware dual RTX 5090

Un usuario probó la versión cuantizada de unsloth de GLM 5.2 en una estación de trabajo de consumo de gama alta que cuenta con dos GPUs RTX 5090 y un procesador Zen5 Threadripper Pro. El sistema utilizaba 512GB de RAM DDR5 ECC y estaba configurado con banderas de compilación específicas de llama.cpp para habilitar optimizaciones CUDA y manejo de memoria unificada. Los pesos del modelo se cargaron desde la cuantización UD-Q5_K_S, que totalizó aproximadamente 492GB a través de múltiples archivos GGUF. Las pruebas de rendimiento implicaron ejecutar llama-server con un tamaño de contexto de 32768 tokens y parámetros de subprocesamiento específicos para aislamiento NUMA. Los resultados del benchmark mostraron consistentemente una velocidad de inferencia de 12 tokens por segundo durante interacciones de chat sin flujos de trabajo agénticos. Experimentos adicionales revelaron que omitir ciertas banderas de optimización, como flash attention o configuraciones NUMA, produjo cambios insignificantes en el rendimiento.

media r/LocalLLaMA · hace 3 h

Construyendo un REPL de Agente LLM basado en Bash con dependencias mínimas

Un desarrollador creó un bucle REPL de agente personalizado utilizando exclusivamente bloques de construcción estándar de la línea de comandos para minimizar las dependencias. El sistema se basa en tuberías, flujos de texto y registros solo de anexión, alineándose estrechamente con la filosofía clásica de Unix. Este enfoque permite la inyección flexible de herramientas para inspeccionar, filtrar, redirigir y auditar varias etapas del bucle del agente. Las características clave incluyen un backend plug-and-play acotado a una única herramienta de línea de comandos, garantizando la portabilidad entre diferentes proveedores de modelos. La memoria y el contexto del agente se almacenan en un archivo de historial solo de anexión, lo que permite una fácil introspección, modificación y rebobinado. Aunque se probó con un backend de Ollama, el diseño admite cualquier interfaz REST compatible con la API de OpenAI. El código fuente de este proyecto está disponible en GitHub bajo el nombre de repositorio llayer.

media r/LocalLLaMA · hace 3 h

Ornith-1.0 lanzado en Hugging Face con múltiples tamaños de modelo

DeepReinforce AI ha lanzado Ornith-1.0 en Hugging Face, que presenta una diversa gama de arquitecturas y tamaños de modelos. La colección incluye modelos densos de 9B y 31B junto con variantes de mezcla de expertos (MoE) de 35B y 397B. Las declaraciones del lanzamiento afirman un rendimiento de vanguardia en varios benchmarks, aunque la validez de estos resultados está por verse. Los usuarios pueden acceder a la colección completa a través del enlace oficial de Hugging Face proporcionado por los desarrolladores. Este lanzamiento amplía las opciones disponibles para la inferencia y el ajuste fino de modelos de lenguaje grandes.

media r/LocalLLaMA · hace 3 h

OpenAI y Broadcom anuncian el chip de inferencia Jalapeño

OpenAI ha anunciado una colaboración con Broadcom para desarrollar un chip de inferencia personalizado llamado Jalapeño. Este nuevo hardware está diseñado específicamente para acelerar el despliegue de modelos de lenguaje grandes. La asociación tiene como objetivo reducir la dependencia de aceleradores de terceros para las cargas de trabajo de inferencia de OpenAI. Al integrar silicio personalizado, OpenAI busca optimizar el rendimiento y la eficiencia para sus aplicaciones de IA. El anuncio destaca un movimiento estratégico hacia la integración vertical en la infraestructura de IA. No se proporcionaron detalles sobre especificaciones técnicas específicas o cronogramas de lanzamiento en el informe inicial.

media r/LocalLLaMA · hace 3 h

Consulta en Reddit: ¿Son los sistemas de memoria de terceros mejores que la memoria_wiki integrada de Openclaw?

Un usuario de Reddit pregunta si los sistemas de memoria de terceros ofrecen ventajas sobre el plugin memory_wiki integrado en Openclaw. El autor migró desde un repositorio de Obsidian a memory_wiki para reducir la complejidad de las herramientas y se cuestiona si los sistemas externos siguen siendo relevantes. Utiliza IA para investigación, desarrollo de software y gestión de computadoras locales, utilizando principalmente el modelo minimax-m3-nvfp4 en Linux. El usuario busca soluciones de memoria autoalojadas y completamente de código abierto que sean independientes del framework (harness-agnostic) para garantizar longevidad más allá de plataformas específicas como Openclaw o Hermes. Solicita sugerencias y casos de uso que justifiquen los compromisos de adoptar arquitecturas de memoria externas en lugar del plugin nativo.

media r/LocalLLaMA · hace 3 h

Apple aumenta los precios en toda su línea de productos, duplicando el costo de las actualizaciones de memoria

Apple ha aumentado los precios en toda su gama de productos desde esta mañana. Según un informe de Reuters, el costo de las actualizaciones de memoria para estos dispositivos se ha duplicado. El aumento de precios afecta a varios artículos, incluidos MacBooks y iPads. Algunos minoristas como Best Buy aún no han actualizado sus listados con los nuevos precios. Se aconseja a los consumidores realizar pedidos rápidamente antes de que los precios se ajusten en otras tiendas. Este desarrollo genera preocupaciones sobre la viabilidad futura de la IA local en el hardware de Apple.

media r/LocalLLaMA · hace 3 h

Usuarios reportan fuerte rendimiento del modelo siq1 en Kebab Bench

Un usuario de Reddit ha compartido resultados que indican que su modelo, denominado siq1, tiene un rendimiento muy bueno en la evaluación de Kebab Bench. La publicación destaca las capacidades del modelo a través de una demostración alojada en Hugging Face Spaces. Específicamente, el usuario señala un espacio titulado 'hermes-agent-zerogpu' creado por AlexWortega como evidencia de este rendimiento. Esta presentación fue realizada por el usuario de Reddit /u/Mysterious_Hearing14 dentro de la comunidad r/LocalLLaMA. La publicación original incluye un enlace a la interfaz de Hugging Face donde se puede probar el modelo. Además, hay una demostración en video disponible a través de un enlace V.redd.it proporcionado para mayor verificación.

media r/LocalLLaMA · hace 4 h

Consulta sobre la disponibilidad de modelos modernos no orientados a completado de chat

Un usuario del subreddit LocalLLaMA cuestionó si todos los modelos de lenguaje grandes modernos están exclusivamente ajustados para interacciones de chat. La consulta buscaba específicamente identificar cualquier modelo que admita completado de texto sin formato en lugar de formatos conversacionales. El autor señaló una dificultad para encontrar dichos modelos dentro del repositorio de Hugging Face. Esto destaca una brecha percibida en la disponibilidad de arquitecturas no orientadas a chat para usuarios que requieren capacidades de completado en bruto. La discusión refleja preocupaciones más amplias sobre el cambio de la industria hacia diseños de modelos ajustados por instrucciones y orientados al chat.

media r/LocalLLaMA · hace 4 h

El muestreador de retroceso y verificador mejoran drásticamente el rendimiento de codificación de modelos pequeños

Un nuevo muestreador de retroceso combinado con un modelo verificador mejora significativamente el rendimiento de codificación de modelos pequeños de 0.5B parámetros, potencialmente haciéndolos competitivos con modelos de la clase mayor de 2-4B sin cambios en los pesos. El enfoque aborda teóricamente los problemas de alucinación en modelos grandes corrigiendo errores durante la generación mediante remuestreo. Sin embargo, este método incurre en una penalización de velocidad de decodificación del 5-30% debido a la necesidad de pasadas hacia atrás y requiere entrenar un modelo verificador de tamaño similar al original. Este requisito duplica el uso de VRAM y aumenta las demandas de cómputo entre 1.5 y 3 veces en comparación con la inferencia estándar. A pesar de estos costos, el verificador se generaliza a través de modelos de clases de peso iguales o inferiores si se entrena con distribuciones de datos diversas. Entrenar el verificador es altamente eficiente, requiriendo solo aproximadamente el 0.01% del tamaño de tokens utilizado para el preentrenamiento completo.

media r/LocalLLaMA · hace 4 h

NVIDIA lanza Nemotron-TwoTower-30B-A3B, un modelo de lenguaje basado en difusión

NVIDIA ha lanzado el modelo Nemotron-TwoTower-30B-A3B-Base-BF16, que se basa en la arquitectura principal Nemotron 3 Nano 30B-A3B. Esta arquitectura difiere de los modelos autoregresivos estándar al utilizar una torre de contexto congelada junto con una torre de denoising por difusión. El sistema llena iterativamente bloques de tokens en paralelo en lugar de generarlos estrictamente uno a la vez. Según NVIDIA, esta configuración predeterminada de máscara-difusión conserva el 98.7% de la calidad agregada de las pruebas de referencia encontrada en la línea base autoregresiva. A pesar de mantener una alta calidad, el modelo logra 2.42 veces su rendimiento de generación en tiempo real. El lanzamiento destaca un enfoque novedoso para el modelado de lenguaje que combina técnicas de difusión con capacidades de lenguaje a gran escala.

media r/LocalLLaMA · hace 4 h

Implementación experimental de RDMA sobre USB4 demostrada en Strix Halo

Una entrada de blog de Hellas.ai detalla una implementación experimental de Acceso Directo a Memoria Remota (RDMA) a través de Thunderbolt. La demostración se realizó utilizando dos dispositivos equipados con procesadores AMD Strix Halo. Este enfoque permite capacidades de transferencia de datos de alta velocidad mediante el estándar USB4. El autor señala que esta tecnología podría ser significativa porque es compatible con cualquier host que admita USB4. El presentador no encontró discusión pública previa sobre esta implementación específica. El trabajo destaca el potencial de aprovechar las interfaces de hardware existentes para tareas de redes avanzadas.