Fable vs GLM 5.2 vs KIMI K2.7 (Video de YouTube)
Un video de YouTube compara el rendimiento de Fable, GLM 5.2 y KIMI K2.7. El video se comparte en Reddit's r/LocalLLaMA e incluye un enlace al video y comentarios relacionados.
Un video de YouTube compara el rendimiento de Fable, GLM 5.2 y KIMI K2.7. El video se comparte en Reddit's r/LocalLLaMA e incluye un enlace al video y comentarios relacionados.
Guillermo Rauch, CEO de Vercel, declaró que está 'genuinamente impresionado, casi sorprendido' por el rendimiento de GLM-5.2 en tareas de codificación. Compartió esta opinión en una publicación en X, destacando las sólidas capacidades del modelo en la generación de código.
Tras la partida de Junyang Lin, Qwen ha dejado de publicar sus modelos como código abierto. A partir de junio de 2026, todos los principales laboratorios de IA chinos excepto Qwen han publicado modelos de código abierto más recientemente que Qwen 3.7, el cual permanece completamente cerrado.
Un modelo propuesto llamado 'modelo de sentimiento' está diseñado para pensar exclusivamente en emojis. La idea sugiere crear el primer modelo que se comunique completamente a través de expresiones emocionales con emojis.
Un usuario informa haber recibido un correo electrónico de Kimi.ai relacionado con uno de sus videos de YouTube. El mensaje fue compartido en Reddit dentro de la comunidad LocalLLaMA.
AllenAI ha lanzado dos modelos MolmoMotion que predicen trayectorias de puntos 3D basadas en historias de video cortas e instrucciones en lenguaje natural. Un modelo utiliza una historia de tres fotogramas, el otro una historia de un solo fotograma, lo que permite la predicción de movimiento futuro para objetos en el espacio 3D.
SupraLabs ha presentado el modelo Supra-A2A-Nano-Exp, un Transformer multimodal de 30M parámetros que unifica texto, imagen y video en un único flujo de tokens. El modelo trata todas las modalidades como tokens en una secuencia compartida, permitiendo modelado de lenguaje sobre un vocabulario combinado de 50,520 tokens sin codificadores de visión separados ni módulos de atención cruzada.
Una publicación de Reddit pide a los usuarios que sean honestos sobre las características o sistemas sobreingenierizados que nadie utilizará. La publicación fomenta la reflexión sobre la complejidad innecesaria en el desarrollo de software.
El usuario busca el mejor modelo de visión de código abierto actual que pueda ejecutarse en una RTX 6000 Pro para OCR y clasificación de documentos escaneados históricos. Señala que Gemma 4 31B funciona bien y es mejor que el codificador de visión de Qwen 3.6, pidiendo recomendaciones más allá de este modelo.
semantic-memory es una base de conocimiento local-first en Rust que combina búsqueda BM25, vectorial y fusión de rango recíproco con SQLite. Cuenta con aristas de grafo tipadas para relaciones causales, temporales y semánticas, rastreo de procedencia, almacenamiento bitemporal y enrutamiento adaptativo de consultas, soportando 18 herramientas MCP para agentes de IA. Todos los componentes se ejecutan localmente sin dependencias en la nube, claves de API ni telemetría.
Con una GPU Tesla V100 de 32GB y un sistema Dell PowerEdge 730 con doble Xeon que cuenta con 384GB de DDR4 y múltiples TB de almacenamiento, los usuarios pueden ejecutar modelos de lenguaje grandes (LLMs) locales para experimentación. La sustancial capacidad de memoria y almacenamiento del sistema admite la inferencia y el entrenamiento eficientes de modelos locales.
Un usuario pregunta sobre aplicaciones prácticas de modelos locales y qué herramientas son efectivas para tareas como la programación, particularmente como alternativas a interfaces basadas en web como Claude.ai. Menciona haber probado OpenWebUI pero lo encuentra insuficiente sin una personalización significativa.
Los proveedores de LLM actualmente subvencian el costoso uso de la API para construir ecosistemas, planeando aumentar los precios más adelante. A medida que disminuyen las subvenciones, los usuarios pueden enfrentar aumentos de precios pronunciados—como $2k por mes—haciendo el acceso costoso y amenazando la adopción generalizada, especialmente para individuos que dependen de hardware asequible para ejecutar modelos.
Un usuario pregunta si alguien está ejecutando MiniMax M3 usando pipenetwork con cuantización 3_6 en un sistema con solo 256GB de RAM unificada.
Noema Atlas es una red peer-to-peer gratuita y de código abierto que permite la distribución descentralizada de modelos LLM locales utilizando Iroh y hash BLAKE3. Permite a los usuarios compartir y recuperar modelos directamente de otros pares en todo el mundo, con Hugging Face y espejos como alternativas de respaldo, y admite la recuperación de modelos eliminados de Hugging Face mediante compartición privada.
Un usuario de Reddit compartió que hace seis meses rechazó una oferta de $8,165 por una GPU RTX 6000 PRO. El mismo vendedor ahora lista la misma GPU por $11,575, lo que ha llevado al usuario a reflexionar sobre su decisión con perspectiva retrospectiva.
Los usuarios que reportan velocidades de inferencia local de GLM 5.2 usando llama.cpp en 6x RTX 3090 con 128GB DDR5 y un i7-13700K logran 7.8 tokens/seg a un tamaño de contexto de 90K con cuantización Q8_0. El procesamiento del prompt ocurre a aproximadamente 40 tokens/seg.
Escribí una serie gratuita de 15 partes que detalla los internals de LLM, utilizando Gemma 4 12B como ejemplo principal. Cada parte cubre aspectos técnicos desde la tokenización hasta el servicio, con matemáticas reales, formas de tensores y restricciones de hardware. La serie incluye un Deep Dive complementario en vLLM y es completamente accesible sin muros de pago ni correo electrónico.
La extensión Qwen Code Companion para VSCode ya está disponible en el marketplace y se ha publicado como código abierto en https://github.com/QwenLM/qwen-code. Los usuarios reportan que funciona bien con modelos alojados en LM Studio, superando a otras herramientas de LLM locales como continue, kilo, cline y roo, con una configuración mínima necesaria.
Un usuario afirma que Gemma 4 26b a4b es el mejor modelo que ha probado para el aprendizaje de idiomas y consultas científicas, superando a Qwen 3.5/3.6 en estos dominios. El artículo destaca una brecha en los modelos MOE pequeños disponibles entre 20b y 30b, sugiriendo la necesidad de más opciones más allá de las tareas de codificación y agentes.