Todos los artículos
media r/LocalLLaMA · hace 2 h

Serie gratuita de 15 partes sobre los internals de LLM basada en Gemma 4 12B

Escribí una serie gratuita de 15 partes que detalla los internals de LLM, utilizando Gemma 4 12B como ejemplo principal. Cada parte cubre aspectos técnicos desde la tokenización hasta el servicio, con matemáticas reales, formas de tensores y restricciones de hardware. La serie incluye un Deep Dive complementario en vLLM y es completamente accesible sin muros de pago ni correo electrónico.

media r/LocalLLaMA · hace 2 h

Luchando por completar los créditos del plan de tokens Xiaomi Mimo-v2.5-pro antes de que venzan

Un usuario tiene 24B créditos de tokens de un concurso de planes de tokens de Xiaomi, valorados en $50 pero obtenidos gratis. Informa un alto consumo de tokens durante el uso, soporte limitado para herramientas y ahora está preocupado por desperdiciar los créditos debido a su expiración en cuatro días. El modelo es elogiado por su tasa de aciertos en caché del 90% y una reducción del 99% en el precio de los accesos a la caché, con el usuario señalando que funciona bien en tareas de codificación y planificación.

media r/LocalLLaMA · hace 2 h

Cálculos rápidos sobre los costos de alojamiento colectivo para diffusiongemma en 2026

Un análisis de costos estima que alojar diffusiongemma a diferentes niveles de tokens por usuario genera costos mensuales por usuario que oscilan entre 1,7€ y 122,8€. El estudio encuentra que el uso de IA agéntica es económicamente insostenible para el alojamiento colectivo, aunque los costos podrían disminuir con nuevas GPUs o ASICs y un período de depreciación de la GPU más corto.

media r/LocalLLaMA · hace 2 h

Dos documentos de Word chateando mediante LLMs locales — ¿Casos de uso reales?

Un prototipo demuestra dos documentos de Word intercambiando contenido utilizando LLMs locales, con iteraciones sucesivas a lo largo de múltiples turnos. Los posibles casos de uso prácticos incluyen un documento de borrador y un documento de crítica que iteran juntos, o un documento de especificación y un documento de implementación colaborando, aunque la viabilidad de dichos flujos de trabajo sigue siendo incierta.

media r/LocalLLaMA · hace 2 h

Proyecto de investigación: Inyección de intención táctica en lenguaje natural en políticas de agentes múltiples para fútbol

Un proyecto de investigación explora el uso de instrucciones tácticas en lenguaje natural proporcionadas por humanos para guiar agentes de IA autónomos en una simulación de fútbol. El sistema permite a los entrenadores humanos emitir directivas de alto nivel como 'presionar agresivamente' o 'explotar el lado izquierdo', que los agentes de IA adaptan en tiempo real dentro de un entorno dinámico y basado en equipos.

media r/LocalLLaMA · hace 2 h

Ayuda con un sistema RAG de documentos locales (almacenamiento + ingestión + consulta + resaltado)

Un usuario está diseñando una canalización local y sin conexión para recuperación de documentos y LLM, con funciones de almacenamiento, ingestión, consulta y resaltado. Busca consejos sobre bases de datos vectoriales (por ejemplo, pgvector en Postgres frente a Qdrant), viabilidad de GraphRAG sin conexión y herramientas de código abierto para el resaltado de documentos con citas.