Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 41

El CEO de Vercel dice estar casi sorprendido por las capacidades de codificación de GLM-5.2

Guillermo Rauch, CEO de Vercel, declaró que está 'genuinamente impresionado, casi sorprendido' por el rendimiento de GLM-5.2 en tareas de codificación. Compartió esta opinión en una publicación en X, destacando las sólidas capacidades del modelo en la generación de código.

media r/LocalLLaMA · hace 1 h En vivo

Qwen 3.7 No Será de Código Abierto

Tras la partida de Junyang Lin, Qwen ha dejado de publicar sus modelos como código abierto. A partir de junio de 2026, todos los principales laboratorios de IA chinos excepto Qwen han publicado modelos de código abierto más recientemente que Qwen 3.7, el cual permanece completamente cerrado.

media r/LocalLLaMA · hace 1 h En vivo

Modelo de Sentimiento Propuesto Usa Solo Emojis

Un modelo propuesto llamado 'modelo de sentimiento' está diseñado para pensar exclusivamente en emojis. La idea sugiere crear el primer modelo que se comunique completamente a través de expresiones emocionales con emojis.

media r/LocalLLaMA · hace 1 h En vivo

Kimi AI me acaba de enviar un correo

Un usuario informa haber recibido un correo electrónico de Kimi.ai relacionado con uno de sus videos de YouTube. El mensaje fue compartido en Reddit dentro de la comunidad LocalLLaMA.

media r/LocalLLaMA · hace 1 h En vivo

AllenAI lanza los modelos de visión MolmoMotion para predicción de movimiento futuro

AllenAI ha lanzado dos modelos MolmoMotion que predicen trayectorias de puntos 3D basadas en historias de video cortas e instrucciones en lenguaje natural. Un modelo utiliza una historia de tres fotogramas, el otro una historia de un solo fotograma, lo que permite la predicción de movimiento futuro para objetos en el espacio 3D.

media r/LocalLLaMA · hace 1 h En vivo

SupraLansa la Familia de Modelos Any2Any

SupraLabs ha presentado el modelo Supra-A2A-Nano-Exp, un Transformer multimodal de 30M parámetros que unifica texto, imagen y video en un único flujo de tokens. El modelo trata todas las modalidades como tokens en una secuencia compartida, permitiendo modelado de lenguaje sobre un vocabulario combinado de 50,520 tokens sin codificadores de visión separados ni módulos de atención cruzada.

media r/LocalLLaMA · hace 1 h En vivo

¿Qué estás sobreingenierizando que nadie va a usar jamás? Sé honesto.

Una publicación de Reddit pide a los usuarios que sean honestos sobre las características o sistemas sobreingenierizados que nadie utilizará. La publicación fomenta la reflexión sobre la complejidad innecesaria en el desarrollo de software.

media r/LocalLLaMA · hace 1 h En vivo

Mejor modelo de visión de código abierto ejecutable en RTX 6000 Pro

El usuario busca el mejor modelo de visión de código abierto actual que pueda ejecutarse en una RTX 6000 Pro para OCR y clasificación de documentos escaneados históricos. Señala que Gemma 4 31B funciona bien y es mejor que el codificador de visión de Qwen 3.6, pidiendo recomendaciones más allá de este modelo.

media r/LocalLLaMA · hace 1 h En vivo

semantic-memory: base de conocimiento local-first con aristas de grafo tipadas

semantic-memory es una base de conocimiento local-first en Rust que combina búsqueda BM25, vectorial y fusión de rango recíproco con SQLite. Cuenta con aristas de grafo tipadas para relaciones causales, temporales y semánticas, rastreo de procedencia, almacenamiento bitemporal y enrutamiento adaptativo de consultas, soportando 18 herramientas MCP para agentes de IA. Todos los componentes se ejecutan localmente sin dependencias en la nube, claves de API ni telemetría.

media r/LocalLLaMA · hace 1 h En vivo

¿Qué puedo ejecutar en mi sistema Tesla V100 de 32GB?

Con una GPU Tesla V100 de 32GB y un sistema Dell PowerEdge 730 con doble Xeon que cuenta con 384GB de DDR4 y múltiples TB de almacenamiento, los usuarios pueden ejecutar modelos de lenguaje grandes (LLMs) locales para experimentación. La sustancial capacidad de memoria y almacenamiento del sistema admite la inferencia y el entrenamiento eficientes de modelos locales.

media r/LocalLLaMA · hace 1 h En vivo

¿Qué están haciendo las personas con sus modelos locales y qué herramientas utilizan?

Un usuario pregunta sobre aplicaciones prácticas de modelos locales y qué herramientas son efectivas para tareas como la programación, particularmente como alternativas a interfaces basadas en web como Claude.ai. Menciona haber probado OpenWebUI pero lo encuentra insuficiente sin una personalización significativa.

media r/LocalLLaMA · hace 2 h

¿Qué sucede cuando las suscripciones a LLM dejan de estar subvencionadas?

Los proveedores de LLM actualmente subvencian el costoso uso de la API para construir ecosistemas, planeando aumentar los precios más adelante. A medida que disminuyen las subvenciones, los usuarios pueden enfrentar aumentos de precios pronunciados—como $2k por mes—haciendo el acceso costoso y amenazando la adopción generalizada, especialmente para individuos que dependen de hardware asequible para ejecutar modelos.

media r/LocalLLaMA · hace 2 h

¿Alguien está ejecutando MiniMax M3 con pipenetwork Mixed 3_6 Quant?

Un usuario pregunta si alguien está ejecutando MiniMax M3 usando pipenetwork con cuantización 3_6 en un sistema con solo 256GB de RAM unificada.

media r/LocalLLaMA · hace 2 h

Presentamos Noema Atlas: Distribución de modelos entre pares

Noema Atlas es una red peer-to-peer gratuita y de código abierto que permite la distribución descentralizada de modelos LLM locales utilizando Iroh y hash BLAKE3. Permite a los usuarios compartir y recuperar modelos directamente de otros pares en todo el mundo, con Hugging Face y espejos como alternativas de respaldo, y admite la recuperación de modelos eliminados de Hugging Face mediante compartición privada.

media r/LocalLLaMA · hace 2 h

Hace seis meses rechazé $8,165 por una RTX 6000 PRO

Un usuario de Reddit compartió que hace seis meses rechazó una oferta de $8,165 por una GPU RTX 6000 PRO. El mismo vendedor ahora lista la misma GPU por $11,575, lo que ha llevado al usuario a reflexionar sobre su decisión con perspectiva retrospectiva.

media r/LocalLLaMA · hace 2 h

Informe de Velocidades de Inferencia Local de GLM 5.2

Los usuarios que reportan velocidades de inferencia local de GLM 5.2 usando llama.cpp en 6x RTX 3090 con 128GB DDR5 y un i7-13700K logran 7.8 tokens/seg a un tamaño de contexto de 90K con cuantización Q8_0. El procesamiento del prompt ocurre a aproximadamente 40 tokens/seg.

media r/LocalLLaMA · hace 2 h

Serie gratuita de 15 partes sobre los internals de LLM basada en Gemma 4 12B

Escribí una serie gratuita de 15 partes que detalla los internals de LLM, utilizando Gemma 4 12B como ejemplo principal. Cada parte cubre aspectos técnicos desde la tokenización hasta el servicio, con matemáticas reales, formas de tensores y restricciones de hardware. La serie incluye un Deep Dive complementario en vLLM y es completamente accesible sin muros de pago ni correo electrónico.

media r/LocalLLaMA · hace 2 h

La extensión Qwen Code Companion ahora es de código abierto

La extensión Qwen Code Companion para VSCode ya está disponible en el marketplace y se ha publicado como código abierto en https://github.com/QwenLM/qwen-code. Los usuarios reportan que funciona bien con modelos alojados en LM Studio, superando a otras herramientas de LLM locales como continue, kilo, cline y roo, con una configuración mínima necesaria.

media r/LocalLLaMA · hace 2 h

Gemma 4 26b a4b destaca en consultas lingüísticas y científicas

Un usuario afirma que Gemma 4 26b a4b es el mejor modelo que ha probado para el aprendizaje de idiomas y consultas científicas, superando a Qwen 3.5/3.6 en estos dominios. El artículo destaca una brecha en los modelos MOE pequeños disponibles entre 20b y 30b, sugiriendo la necesidad de más opciones más allá de las tareas de codificación y agentes.

media r/LocalLLaMA · hace 2 h

Luchando por completar los créditos del plan de tokens Xiaomi Mimo-v2.5-pro antes de que venzan

Un usuario tiene 24B créditos de tokens de un concurso de planes de tokens de Xiaomi, valorados en $50 pero obtenidos gratis. Informa un alto consumo de tokens durante el uso, soporte limitado para herramientas y ahora está preocupado por desperdiciar los créditos debido a su expiración en cuatro días. El modelo es elogiado por su tasa de aciertos en caché del 90% y una reducción del 99% en el precio de los accesos a la caché, con el usuario señalando que funciona bien en tareas de codificación y planificación.