¿Consejos? 2x 3090
Un usuario pide consejos sobre el uso de dos GPUs NVIDIA RTX 3090. La publicación incluye una imagen y enlaces a la presentación original en Reddit y los comentarios.
Un usuario pide consejos sobre el uso de dos GPUs NVIDIA RTX 3090. La publicación incluye una imagen y enlaces a la presentación original en Reddit y los comentarios.
Los usuarios ahora pueden convertir y ejecutar modelos cuantizados EXL3 en Mac con Apple Silicon y 64GB+ de RAM. Las pruebas muestran que modelos como MiniCPM5 y Qwen3.6-27B logran un rendimiento comparable o ligeramente inferior a las conversiones basadas en tarjetas RTX, con EXL3 ofreciendo una calidad de cuantización superior en comparación con MLX.
Un análisis de costos estima que alojar diffusiongemma a diferentes niveles de tokens por usuario genera costos mensuales por usuario que oscilan entre 1,7€ y 122,8€. El estudio encuentra que el uso de IA agéntica es económicamente insostenible para el alojamiento colectivo, aunque los costos podrían disminuir con nuevas GPUs o ASICs y un período de depreciación de la GPU más corto.
Un prototipo demuestra dos documentos de Word intercambiando contenido utilizando LLMs locales, con iteraciones sucesivas a lo largo de múltiples turnos. Los posibles casos de uso prácticos incluyen un documento de borrador y un documento de crítica que iteran juntos, o un documento de especificación y un documento de implementación colaborando, aunque la viabilidad de dichos flujos de trabajo sigue siendo incierta.
El usuario pregunta qué modelo —Qwen3.6-27B en precisión BF16 o Step3.7 con cuantización IQ4_XS— tomaría decisiones más sensatas y autónomas con menos necesidad de guía humana. La consulta compara un modelo denso de alta precisión con un modelo MoE más grande pero de menor precisión, señalando los compromisos entre memoria y rendimiento.
z.AI, que se clasifica como el número 2, ha elogiado públicamente al modelo de código abierto número 1. La publicación destaca la admiración por las capacidades del modelo, enfatizando su rendimiento y contribuciones a la comunidad.
Un proyecto de investigación explora el uso de instrucciones tácticas en lenguaje natural proporcionadas por humanos para guiar agentes de IA autónomos en una simulación de fútbol. El sistema permite a los entrenadores humanos emitir directivas de alto nivel como 'presionar agresivamente' o 'explotar el lado izquierdo', que los agentes de IA adaptan en tiempo real dentro de un entorno dinámico y basado en equipos.
Un usuario pregunta si alguien ha construido recientemente una configuración con dos RTX 5090, señalando que su sistema actual con dos RTX 3090 funciona bien para el desarrollo de software. Menciona que actualizar a dos RTX 5090 es costoso y considera que los enchufes de su dormitorio podrían ser una limitación.
Un usuario pregunta cuál es el LLM local que actualmente tiene mejor rendimiento al resumir historias largas en inglés. La consulta destaca la necesidad de LLMs locales precisos capaces de manejar narrativas de varias páginas en inglés.
Un usuario comparte una imagen generada por el modelo GLM 5.2 UD IQ2_M, calificándola como la mejor imagen SVG de pelícano que ha visto. A pesar de la baja cuantización, el modelo demuestra fuertes capacidades, con el usuario señalando su potencial para funcionar significativamente mejor en configuraciones futuras de hardware de gama alta.
SupraLabs ha lanzado un conjunto de datos curado de títulos de chat con 115K muestras, superando el récord anterior de 10K muestras. El conjunto filtrado está disponible como `SupraLabs/chat-titles-filtered-115K`, mientras que también se proporciona una versión sin filtrar con 150K muestras, junto con un conjunto de datos heredado de 12K.
Un usuario comparte configuraciones optimizadas para ejecutar Qwen 3.6 27B con cuantización Q8_0 en una configuración de RTX 4090 y RTX 3090 usando llama.cpp. La configuración incluye tensor split, 999 capas en GPU, contexto de 250k, decodificación especulativa y caché KV unificada, logrando un rendimiento de 75-100t/s con soporte para visión y MTP.
Un usuario está diseñando una canalización local y sin conexión para recuperación de documentos y LLM, con funciones de almacenamiento, ingestión, consulta y resaltado. Busca consejos sobre bases de datos vectoriales (por ejemplo, pgvector en Postgres frente a Qdrant), viabilidad de GraphRAG sin conexión y herramientas de código abierto para el resaltado de documentos con citas.
Un usuario informa haber ejecutado exitosamente un modelo Qwen 3.6 27B con cuantización Q6K+MTP y longitud de contexto de 131k en una 7900XTX con 24GB de VRAM. Esto se logra mediante la cuantización del kvcache (Q5_0/Q4_0), lo que reduce el uso de VRAM en un 12% en comparación con Q8, permitiendo que el modelo ejecute a 55-60 tokens por segundo con banderas de compilación específicas y argumentos de llama.cpp.
AMD ha anunciado próximas ofertas de GPU que podrían soportar despliegues locales de modelos de lenguaje grande (LLM). Estas GPUs están diseñadas con mayor ancho de banda de memoria y capacidades de cómputo, haciéndolas adecuadas para inferencia y entrenamiento eficiente de LLM en rigs locales dedicados.
Las pruebas muestran que llama.cpp B70 con el backend SYCL tiene un buen rendimiento en modelos como gemma4 12B y 26B, alcanzando un throughput de hasta 5662.45 t/s para el modelo E2B. El rendimiento cae significativamente en modo tg128, con qwen35 27B alcanzando solo 15.42 t/s, lo que indica margen para optimización.
Un usuario de Reddit pregunta qué agente de IA es mejor para manejar archivos de oficina locales como Excel, PDF, Word y JSON. La publicación busca experiencias de usuarios y flujos de trabajo implementados para este tipo de tareas.
Los usuarios informan que el modelo Qwen3.6 27B 8K a veces deja de procesar después de generar una llamada de herramienta, especialmente cuando el usuario se aleja. El problema se puede resolver pegando manualmente la llamada de herramienta de nuevo en el prompt, permitiendo que el modelo reanude la ejecución. La llamada de herramienta implica una función bash para encontrar pruebas que pasan en una base de código.
Un usuario solicita recomendaciones de libros para construir una sólida base matemática que le permita comprender y contribuir al aprendizaje automático y al aprendizaje profundo, especialmente dada su interés en arquitecturas de IA y modelos de lenguaje grandes. Reconoce que la comprensión intuitiva es limitada sin una adecuada formación matemática y busca recursos estructurados que complementen su aprendizaje actual a través de canales como 3b1b.
Un usuario reporta una generación lenta de tokens al ejecutar un agente local en una 4090 con 24GB de VRAM, a pesar de ajustar la configuración del contexto y el batching. Señala que Gemma4 es más rápida pero produce tokens incorrectos como <code></tool_call></code>, y busca configuraciones recomendadas y explicaciones para parámetros como top_p y top_k.