Todos los artículos
media r/LocalLLaMA · hace 1 h En vivo

semantic-memory: base de conocimiento local-first con aristas de grafo tipadas

semantic-memory es una base de conocimiento local-first en Rust que combina búsqueda BM25, vectorial y fusión de rango recíproco con SQLite. Cuenta con aristas de grafo tipadas para relaciones causales, temporales y semánticas, rastreo de procedencia, almacenamiento bitemporal y enrutamiento adaptativo de consultas, soportando 18 herramientas MCP para agentes de IA. Todos los componentes se ejecutan localmente sin dependencias en la nube, claves de API ni telemetría.

media r/LocalLLaMA · hace 2 h

¿Qué sucede cuando las suscripciones a LLM dejan de estar subvencionadas?

Los proveedores de LLM actualmente subvencian el costoso uso de la API para construir ecosistemas, planeando aumentar los precios más adelante. A medida que disminuyen las subvenciones, los usuarios pueden enfrentar aumentos de precios pronunciados—como $2k por mes—haciendo el acceso costoso y amenazando la adopción generalizada, especialmente para individuos que dependen de hardware asequible para ejecutar modelos.

media r/LocalLLaMA · hace 2 h

Presentamos Noema Atlas: Distribución de modelos entre pares

Noema Atlas es una red peer-to-peer gratuita y de código abierto que permite la distribución descentralizada de modelos LLM locales utilizando Iroh y hash BLAKE3. Permite a los usuarios compartir y recuperar modelos directamente de otros pares en todo el mundo, con Hugging Face y espejos como alternativas de respaldo, y admite la recuperación de modelos eliminados de Hugging Face mediante compartición privada.

media r/LocalLLaMA · hace 2 h

Serie gratuita de 15 partes sobre los internals de LLM basada en Gemma 4 12B

Escribí una serie gratuita de 15 partes que detalla los internals de LLM, utilizando Gemma 4 12B como ejemplo principal. Cada parte cubre aspectos técnicos desde la tokenización hasta el servicio, con matemáticas reales, formas de tensores y restricciones de hardware. La serie incluye un Deep Dive complementario en vLLM y es completamente accesible sin muros de pago ni correo electrónico.

media r/LocalLLaMA · hace 2 h

Luchando por completar los créditos del plan de tokens Xiaomi Mimo-v2.5-pro antes de que venzan

Un usuario tiene 24B créditos de tokens de un concurso de planes de tokens de Xiaomi, valorados en $50 pero obtenidos gratis. Informa un alto consumo de tokens durante el uso, soporte limitado para herramientas y ahora está preocupado por desperdiciar los créditos debido a su expiración en cuatro días. El modelo es elogiado por su tasa de aciertos en caché del 90% y una reducción del 99% en el precio de los accesos a la caché, con el usuario señalando que funciona bien en tareas de codificación y planificación.