Todos los artículos
media r/LocalLLaMA · hace 12 d

Ayuda con un sistema RAG de documentos locales (almacenamiento + ingestión + consulta + resaltado)

Un usuario está diseñando una canalización local y sin conexión para recuperación de documentos y LLM, con funciones de almacenamiento, ingestión, consulta y resaltado. Busca consejos sobre bases de datos vectoriales (por ejemplo, pgvector en Postgres frente a Qdrant), viabilidad de GraphRAG sin conexión y herramientas de código abierto para el resaltado de documentos con citas.

media r/LocalLLaMA · hace 12 d

La 7900XTX con 24GB de VRAM ejecuta Qwen 3.6 27B con contexto de 131k

Un usuario informa haber ejecutado exitosamente un modelo Qwen 3.6 27B con cuantización Q6K+MTP y longitud de contexto de 131k en una 7900XTX con 24GB de VRAM. Esto se logra mediante la cuantización del kvcache (Q5_0/Q4_0), lo que reduce el uso de VRAM en un 12% en comparación con Q8, permitiendo que el modelo ejecute a 55-60 tokens por segundo con banderas de compilación específicas y argumentos de llama.cpp.

media r/LocalLLaMA · hace 12 d

GLM 5.2 alcanza el 98% de inteligencia máxima con menos de la mitad de tokens

GLM 5.2 demuestra el 98% de su inteligencia máxima en tareas de codificación utilizando menos de la mitad de su presupuesto total de tokens, según un informe técnico de z_ai. La eficiencia de razonamiento del modelo ha mejorado significativamente, con un aumento en el uso de tokens de 16.7k a 36.7k entre GLM 5.1 y GLM 5.2, aunque las configuraciones de alto nivel pueden sobrecargar el rendimiento del hardware local.

media r/LocalLLaMA · hace 12 d

Problema de llamada de herramientas en Qwen3.6 27B 8K de código abierto

Los usuarios informan que el modelo Qwen3.6 27B 8K a veces deja de procesar después de generar una llamada de herramienta, especialmente cuando el usuario se aleja. El problema se puede resolver pegando manualmente la llamada de herramienta de nuevo en el prompt, permitiendo que el modelo reanude la ejecución. La llamada de herramienta implica una función bash para encontrar pruebas que pasan en una base de código.

media r/LocalLLaMA · hace 12 d

¿Cuál es el mejor libro para aprender las matemáticas de ML/Aprendizaje Profundo?

Un usuario solicita recomendaciones de libros para construir una sólida base matemática que le permita comprender y contribuir al aprendizaje automático y al aprendizaje profundo, especialmente dada su interés en arquitecturas de IA y modelos de lenguaje grandes. Reconoce que la comprensión intuitiva es limitada sin una adecuada formación matemática y busca recursos estructurados que complementen su aprendizaje actual a través de canales como 3b1b.

media r/LocalLLaMA · hace 12 d

SupraLabs lanza supra-title-FFT-preview con 115K muestras

SupraLabs ha lanzado supra-title-FFT-preview, un modelo de generación de títulos para chat entrenado con 115K muestras de un conjunto de datos filtrado, ampliando la cobertura más allá de su anterior modelo de 12K muestras. El modelo utiliza ajuste fino completo en LiquidAI/LFM2.5-350M-Base con precisión BF16 y está diseñado para la generación única de títulos de chat, disponible a través de Hugging Face y compatible con carga directa o despliegue con vLLM.

media r/LocalLLaMA · hace 12 d

Álgebra de Atención — una gramática que traduce lenguaje natural a espectrogramas

Álgebra de Atención es un prototipo que traduce lenguaje natural a expresiones algebraicas, las mapea a dinámicas matemáticas y visualiza el resultado como un espectrograma. Trata el lenguaje como una proyección con pérdida de estados de alta dimensión, proponiendo que los patrones de atención crudos agrupados en funciones sirven como el 'ADN' del texto, permitiendo cadenas de razonamiento eficientes al reducir el uso de tokens de 20k a 4k.