Todos los artículos
media r/LocalLLaMA · hace 11 d

Serie gratuita de 15 partes sobre los internals de LLM basada en Gemma 4 12B

Escribí una serie gratuita de 15 partes que detalla los internals de LLM, utilizando Gemma 4 12B como ejemplo principal. Cada parte cubre aspectos técnicos desde la tokenización hasta el servicio, con matemáticas reales, formas de tensores y restricciones de hardware. La serie incluye un Deep Dive complementario en vLLM y es completamente accesible sin muros de pago ni correo electrónico.

media r/LocalLLaMA · hace 11 d

Luchando por completar los créditos del plan de tokens Xiaomi Mimo-v2.5-pro antes de que venzan

Un usuario tiene 24B créditos de tokens de un concurso de planes de tokens de Xiaomi, valorados en $50 pero obtenidos gratis. Informa un alto consumo de tokens durante el uso, soporte limitado para herramientas y ahora está preocupado por desperdiciar los créditos debido a su expiración en cuatro días. El modelo es elogiado por su tasa de aciertos en caché del 90% y una reducción del 99% en el precio de los accesos a la caché, con el usuario señalando que funciona bien en tareas de codificación y planificación.

media r/LocalLLaMA · hace 11 d

Cálculos rápidos sobre los costos de alojamiento colectivo para diffusiongemma en 2026

Un análisis de costos estima que alojar diffusiongemma a diferentes niveles de tokens por usuario genera costos mensuales por usuario que oscilan entre 1,7€ y 122,8€. El estudio encuentra que el uso de IA agéntica es económicamente insostenible para el alojamiento colectivo, aunque los costos podrían disminuir con nuevas GPUs o ASICs y un período de depreciación de la GPU más corto.

media r/LocalLLaMA · hace 11 d

Dos documentos de Word chateando mediante LLMs locales — ¿Casos de uso reales?

Un prototipo demuestra dos documentos de Word intercambiando contenido utilizando LLMs locales, con iteraciones sucesivas a lo largo de múltiples turnos. Los posibles casos de uso prácticos incluyen un documento de borrador y un documento de crítica que iteran juntos, o un documento de especificación y un documento de implementación colaborando, aunque la viabilidad de dichos flujos de trabajo sigue siendo incierta.