Todos los artículos
media r/LocalLLaMA · hace 2 h

Cálculos rápidos sobre los costos de alojamiento colectivo para diffusiongemma en 2026

Un análisis de costos estima que alojar diffusiongemma a diferentes niveles de tokens por usuario genera costos mensuales por usuario que oscilan entre 1,7€ y 122,8€. El estudio encuentra que el uso de IA agéntica es económicamente insostenible para el alojamiento colectivo, aunque los costos podrían disminuir con nuevas GPUs o ASICs y un período de depreciación de la GPU más corto.

media r/LocalLLaMA · hace 2 h

Dos documentos de Word chateando mediante LLMs locales — ¿Casos de uso reales?

Un prototipo demuestra dos documentos de Word intercambiando contenido utilizando LLMs locales, con iteraciones sucesivas a lo largo de múltiples turnos. Los posibles casos de uso prácticos incluyen un documento de borrador y un documento de crítica que iteran juntos, o un documento de especificación y un documento de implementación colaborando, aunque la viabilidad de dichos flujos de trabajo sigue siendo incierta.

media r/LocalLLaMA · hace 2 h

Proyecto de investigación: Inyección de intención táctica en lenguaje natural en políticas de agentes múltiples para fútbol

Un proyecto de investigación explora el uso de instrucciones tácticas en lenguaje natural proporcionadas por humanos para guiar agentes de IA autónomos en una simulación de fútbol. El sistema permite a los entrenadores humanos emitir directivas de alto nivel como 'presionar agresivamente' o 'explotar el lado izquierdo', que los agentes de IA adaptan en tiempo real dentro de un entorno dinámico y basado en equipos.

media r/LocalLLaMA · hace 2 h

Ayuda con un sistema RAG de documentos locales (almacenamiento + ingestión + consulta + resaltado)

Un usuario está diseñando una canalización local y sin conexión para recuperación de documentos y LLM, con funciones de almacenamiento, ingestión, consulta y resaltado. Busca consejos sobre bases de datos vectoriales (por ejemplo, pgvector en Postgres frente a Qdrant), viabilidad de GraphRAG sin conexión y herramientas de código abierto para el resaltado de documentos con citas.

media r/LocalLLaMA · hace 2 h

La 7900XTX con 24GB de VRAM ejecuta Qwen 3.6 27B con contexto de 131k

Un usuario informa haber ejecutado exitosamente un modelo Qwen 3.6 27B con cuantización Q6K+MTP y longitud de contexto de 131k en una 7900XTX con 24GB de VRAM. Esto se logra mediante la cuantización del kvcache (Q5_0/Q4_0), lo que reduce el uso de VRAM en un 12% en comparación con Q8, permitiendo que el modelo ejecute a 55-60 tokens por segundo con banderas de compilación específicas y argumentos de llama.cpp.