Todos los artículos
media r/LocalLLaMA · hace 6 h

BatonBot: Flujo de trabajo Kanban local de código abierto para agentes de codificación con IA

El autor presenta BatonBot, una aplicación local-first de código abierto diseñada para optimizar los flujos de trabajo de codificación con IA al reducir la necesidad de supervisión constante por parte del usuario. La herramienta aborda la ineficiencia de las interacciones secuenciales de agentes permitiendo a los usuarios configurar tareas y rastrear el progreso visualmente en un tablero estilo Kanban.

media r/LocalLLaMA · hace 6 h

audio.cpp: 12 modelos de audio en un solo entorno de ejecución C++ con hasta 5x de mejora de velocidad

El proyecto de código abierto audio.cpp proporciona un marco de inferencia nativo en C++ para modelos de audio basados en ggml, que actualmente admite 12 familias de modelos lanzadas, incluyendo TTS, ASR y conversión de voz. Las pruebas de rendimiento en Ubuntu/CUDA demuestran que el rendimiento de texto a voz en este entorno de ejecución es hasta 5 veces más rápido que las implementaciones de referencia correspondientes en Python.

media r/LocalLLaMA · hace 6 h

JetSpec: El descodificado especulativo con redacción paralela de árboles permite una aceleración de inferencia LLM sin pérdidas de hasta 9.64x

JetSpec introduce un método de descodificación especulativa llamado redacción causal de árboles en paralelo que co-optimiza el costo y la calidad del borrador para reducir la latencia de generación de LLM. El enfoque logra una aceleración end-to-end de hasta 9.64x en MATH-500 y 4.58x en chat abierto mientras mantiene la precisión sin pérdidas.

media r/LocalLLaMA · hace 6 h

Los precios de las tarjetas gráficas se vuelven locos, ¿debería comprar una segunda tarjeta?

Un usuario en r/LocalLLaMA está considerando añadir una segunda GPU a su equipo para inferencia de LLM local, pero se ve disuadido por el fuerte aumento de los precios de las tarjetas AMD Radeon RX 7900 XTX y XT. El autor señala que, aunque los precios nuevos de la RX 7900 XTX han subido a 1200€, las unidades usadas están alrededor de 900€, y la RX 7900 XT económica comienza en 700€.

media r/LocalLLaMA · hace 6 h

Manejo del aislamiento por agente y del ciclo de vida del entorno en una biblioteca de orquestación

El autor detalla la arquitectura de una biblioteca de orquestación agnóstica al arnés, centrada en gestionar los entornos de los agentes mediante abstracciones distintas de espacio de trabajo y tiempo de ejecución. El sistema define cuatro estados secuenciales—no aprovisionado, aprovisionado, iniciado y retirado—para controlar el ciclo de vida de cada instancia de agente.

media r/LocalLLaMA · hace 6 h

Usuario de Reddit cuestiona el valor de la RTX 6000 Pro ante el aumento de precios

Un usuario de Reddit en la comunidad r/LocalLLaMA está buscando consejos sobre la compra de una GPU NVIDIA RTX 6000 Pro. El autor señala que el precio ha aumentado significativamente, pasando de aproximadamente $8,000 hace seis meses a alrededor de $13,000 actualmente. Está buscando comentarios de propietarios existentes sobre su satisfacción con el hardware. Específicamente, el usuario pregunta si la tarjeta vale la pena la inversión para ejecutar modelos como Qwen 2.5 7B. La publicación tiene como objetivo ayudar al comprador a justificar el gasto ante su esposa recopilando experiencias de uso en el mundo real.

media r/LocalLLaMA · hace 6 h

LFM2.5 230M se ejecuta en el navegador a 1,400 tok/s mediante kernels WebGPU personalizados

El modelo LFM2.5-230M de LiquidAI ahora se ejecuta localmente en el navegador utilizando kernels WebGPU personalizados. Estos kernels especializados fueron desarrollados originalmente por Fable 5 antes de su cierre y Opus 4.8. La demostración fue grabada en un dispositivo M4 Max, alcanzando una velocidad de generación de 1,400 tokens por segundo. Todo el procesamiento ocurre completamente dentro del entorno del navegador del usuario sin dependencias de servidores externos. Una versión GGUF del modelo está disponible para descargar en Hugging Face junto con la checkpoint estándar. Los usuarios pueden interactuar con la demostración en vivo alojada por webml-community en Hugging Face Spaces.

media r/LocalLLaMA · hace 6 h

Apple omitirá los chips M6 Pro/Max y acelerará el M7 para IA local

Un informe reciente indica que Apple planea omitir el lanzamiento de los chips M6 Pro y M6 Max en su próxima gama. En cambio, la empresa tiene la intención de acelerar el desarrollo de la serie de chips M7 para apoyar mejor las cargas de trabajo de inteligencia artificial local. Este cambio estratégico sugiere una priorización de las capacidades de IA en el dispositivo sobre los incrementos tradicionales de rendimiento para la gama Pro. La decisión refleja el creciente énfasis de Apple en integrar características avanzadas de aprendizaje automático directamente en su arquitectura de hardware. Al acelerar el cronograma del M7, Apple busca proporcionar un rendimiento más robusto del motor neural para ejecutar modelos de lenguaje grandes localmente. Este movimiento señala un cambio significativo en la hoja de ruta de desarrollo de Apple Silicon hacia principios de diseño centrados en la IA.

media r/LocalLLaMA · hace 6 h

Publicación de Reddit: Capa de Memoria de Asistente de IA Totalmente Local

Un usuario de Reddit de la comunidad r/LocalLLaMA compartió una publicación titulada 'Después de 2.5 años de noches y fines de semana, mi asistente de IA totalmente local finalmente es utilizable.' La presentación se centra en explicar cómo funciona la capa de memoria de este sistema de IA personal. El contenido fue enviado por el usuario /u/PAiERAlabs al subreddit dedicado a modelos de lenguaje grandes locales. La publicación incluye un enlace a una galería que contiene detalles adicionales sobre el proyecto. Se dirige a los lectores a la sección de comentarios para más discusión e ideas técnicas. Esta entrada destaca un proyecto personal a largo plazo destinado a crear un asistente de IA funcional alojado localmente.

media r/LocalLLaMA · hace 6 h

Hugging Face bloquea descargas multihilo, afectando al ecosistema GGUF

Hugging Face ha implementado un cambio reciente que bloquea la aceleración de descargas multihilo, lo que resulta en errores 403 para todos los hilos excepto uno por conexión. Esta actualización afecta significativamente al ecosistema GGUF, donde son comunes los modelos grandes de archivo único y las velocidades de hilo único suelen estar limitadas a 40 MB/s. Anteriormente, herramientas como la CLI de Hugging Face aceleraban las descargas obteniendo múltiples archivos más pequeños en paralelo, un método ahora obstaculizado por esta restricción. El autor señala que descargar una rama completa de repositorios GGUF es ineficiente debido a la presencia de archivos grandes y múltiples cuantizaciones dentro de la misma rama. Sin una reversión de esta política, las velocidades de descarga seguirán siendo lentas a menos que los cargadores transiten a dividir los modelos en numerosos archivos más pequeños en diferentes ramas. Dicha solución requeriría que los usuarios fusionen manualmente los archivos, lo cual se considera menos deseable que la restauración por parte de Hugging Face de las capacidades de aceleración anteriores.

media r/LocalLLaMA · hace 6 h

Un desarrollador lleva los artefactos estilo Claude a modelos locales mediante TurboLLM

Un usuario de Reddit destaca la ausencia de artefactos renderizados en configuraciones de IA local en comparación con Claude de Anthropic. Aunque los modelos locales pueden generar código para paneles o diagramas, los usuarios generalmente deben copiar la salida en otro lugar para verla. Para abordar esta brecha, el desarrollador experimentó con la representación directa de HTML, SVG y código Mermaid generados dentro de la interfaz de chat. Los resultados demostraron que la limitación radica en la interfaz de usuario más que en las capacidades del modelo. Una captura de pantalla de la publicación muestra un panel renderizado por Gemma 4 26B a partir de un único prompt en un escritorio. La implementación se construyó utilizando TurboLLM, lo que permite esta visualización directa de las salidas de código. El autor invita a la comunidad a discutir sus flujos de trabajo y si extrañan la función de artefactos de Claude.