Kimi AI me acaba de enviar un correo
Un usuario informa haber recibido un correo electrónico de Kimi.ai relacionado con uno de sus videos de YouTube. El mensaje fue compartido en Reddit dentro de la comunidad LocalLLaMA.
Un usuario informa haber recibido un correo electrónico de Kimi.ai relacionado con uno de sus videos de YouTube. El mensaje fue compartido en Reddit dentro de la comunidad LocalLLaMA.
AllenAI ha lanzado dos modelos MolmoMotion que predicen trayectorias de puntos 3D basadas en historias de video cortas e instrucciones en lenguaje natural. Un modelo utiliza una historia de tres fotogramas, el otro una historia de un solo fotograma, lo que permite la predicción de movimiento futuro para objetos en el espacio 3D.
SupraLabs ha presentado el modelo Supra-A2A-Nano-Exp, un Transformer multimodal de 30M parámetros que unifica texto, imagen y video en un único flujo de tokens. El modelo trata todas las modalidades como tokens en una secuencia compartida, permitiendo modelado de lenguaje sobre un vocabulario combinado de 50,520 tokens sin codificadores de visión separados ni módulos de atención cruzada.
Una publicación de Reddit pide a los usuarios que sean honestos sobre las características o sistemas sobreingenierizados que nadie utilizará. La publicación fomenta la reflexión sobre la complejidad innecesaria en el desarrollo de software.
El usuario busca el mejor modelo de visión de código abierto actual que pueda ejecutarse en una RTX 6000 Pro para OCR y clasificación de documentos escaneados históricos. Señala que Gemma 4 31B funciona bien y es mejor que el codificador de visión de Qwen 3.6, pidiendo recomendaciones más allá de este modelo.
semantic-memory es una base de conocimiento local-first en Rust que combina búsqueda BM25, vectorial y fusión de rango recíproco con SQLite. Cuenta con aristas de grafo tipadas para relaciones causales, temporales y semánticas, rastreo de procedencia, almacenamiento bitemporal y enrutamiento adaptativo de consultas, soportando 18 herramientas MCP para agentes de IA. Todos los componentes se ejecutan localmente sin dependencias en la nube, claves de API ni telemetría.
Con una GPU Tesla V100 de 32GB y un sistema Dell PowerEdge 730 con doble Xeon que cuenta con 384GB de DDR4 y múltiples TB de almacenamiento, los usuarios pueden ejecutar modelos de lenguaje grandes (LLMs) locales para experimentación. La sustancial capacidad de memoria y almacenamiento del sistema admite la inferencia y el entrenamiento eficientes de modelos locales.
Un usuario pregunta sobre aplicaciones prácticas de modelos locales y qué herramientas son efectivas para tareas como la programación, particularmente como alternativas a interfaces basadas en web como Claude.ai. Menciona haber probado OpenWebUI pero lo encuentra insuficiente sin una personalización significativa.
Los proveedores de LLM actualmente subvencian el costoso uso de la API para construir ecosistemas, planeando aumentar los precios más adelante. A medida que disminuyen las subvenciones, los usuarios pueden enfrentar aumentos de precios pronunciados—como $2k por mes—haciendo el acceso costoso y amenazando la adopción generalizada, especialmente para individuos que dependen de hardware asequible para ejecutar modelos.
Un usuario pregunta si alguien está ejecutando MiniMax M3 usando pipenetwork con cuantización 3_6 en un sistema con solo 256GB de RAM unificada.
Noema Atlas es una red peer-to-peer gratuita y de código abierto que permite la distribución descentralizada de modelos LLM locales utilizando Iroh y hash BLAKE3. Permite a los usuarios compartir y recuperar modelos directamente de otros pares en todo el mundo, con Hugging Face y espejos como alternativas de respaldo, y admite la recuperación de modelos eliminados de Hugging Face mediante compartición privada.
Un usuario de Reddit compartió que hace seis meses rechazó una oferta de $8,165 por una GPU RTX 6000 PRO. El mismo vendedor ahora lista la misma GPU por $11,575, lo que ha llevado al usuario a reflexionar sobre su decisión con perspectiva retrospectiva.
Los usuarios que reportan velocidades de inferencia local de GLM 5.2 usando llama.cpp en 6x RTX 3090 con 128GB DDR5 y un i7-13700K logran 7.8 tokens/seg a un tamaño de contexto de 90K con cuantización Q8_0. El procesamiento del prompt ocurre a aproximadamente 40 tokens/seg.
Escribí una serie gratuita de 15 partes que detalla los internals de LLM, utilizando Gemma 4 12B como ejemplo principal. Cada parte cubre aspectos técnicos desde la tokenización hasta el servicio, con matemáticas reales, formas de tensores y restricciones de hardware. La serie incluye un Deep Dive complementario en vLLM y es completamente accesible sin muros de pago ni correo electrónico.
La extensión Qwen Code Companion para VSCode ya está disponible en el marketplace y se ha publicado como código abierto en https://github.com/QwenLM/qwen-code. Los usuarios reportan que funciona bien con modelos alojados en LM Studio, superando a otras herramientas de LLM locales como continue, kilo, cline y roo, con una configuración mínima necesaria.
Un usuario afirma que Gemma 4 26b a4b es el mejor modelo que ha probado para el aprendizaje de idiomas y consultas científicas, superando a Qwen 3.5/3.6 en estos dominios. El artículo destaca una brecha en los modelos MOE pequeños disponibles entre 20b y 30b, sugiriendo la necesidad de más opciones más allá de las tareas de codificación y agentes.
Un usuario tiene 24B créditos de tokens de un concurso de planes de tokens de Xiaomi, valorados en $50 pero obtenidos gratis. Informa un alto consumo de tokens durante el uso, soporte limitado para herramientas y ahora está preocupado por desperdiciar los créditos debido a su expiración en cuatro días. El modelo es elogiado por su tasa de aciertos en caché del 90% y una reducción del 99% en el precio de los accesos a la caché, con el usuario señalando que funciona bien en tareas de codificación y planificación.
Un proyecto llamado Jaz presenta un tablero donde cada casilla funciona como un agente independiente responsable de mantener su propio estado. El sistema es de código abierto y está disponible en GitHub, con una demostración en vivo en jaz.chat, que requiere un agente de codificación como Claude Code o Codex para operar.
Una red neuronal profunda que se ejecuta localmente puede convertir cualquier imagen en un juego jugable, utilizando un modelo pequeño similar a Transformer entrenado desde cero. El modelo, que se ejecuta en una RTX 5090, genera secuencias de juegos de forma autoregresiva con entrada de teclado en tiempo real, aunque actualmente sufre de problemas de movimiento y contexto.
Un usuario expresa su frustración con los precios de Nvidia, habiendo comprado dos tarjetas R9700 a pesar de los precios actuales de la RTX 5090 en $7,000 y la RTX 6000 Pro en $13,500. Cuestiona si la R9700 fue un error dados los importantes aumentos de precio de las nuevas GPU de Nvidia.