Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 129

Mejor lugar para vender una RTX PRO 6000 Blackwell Max-Q apenas usada

Un usuario pregunta dónde vender una RTX PRO 6000 Blackwell Max-Q apenas usada, comprada para inferencia de IA local con uso mínimo. Considera r/hardwareswap, eBay o mercados profesionales/de estaciones de trabajo de nicho, buscando consejos sobre precios realistas y expectativas del comprador como la transferencia de garantía o factura.

media r/LocalLLaMA · hace 13 d

¿SLMs y Difusión: El Futuro de Modelos Pequeños y Especializados?

Los usuarios debaten si los modelos de lenguaje pequeños específicos para tareas (SLMs) pueden superar a los modelos más grandes en tareas concretas, citando benchmarks donde los modelos de 9B igualan o superan a los más grandes. Proponen un flujo de trabajo agencial secuencial que utiliza múltiples modelos especializados, con uno coordinando y otros verificando las respuestas, sugiriendo que los modelos de difusión podrían acelerar dichos flujos de trabajo a pesar de una inteligencia reducida.

media r/LocalLLaMA · hace 13 d

La cuantización del caché KV NVFP4 en sm120 hará que los sistemas de 32GB VRAM sean muy capaces

Qwen3.6-27B funciona a ~60 tokens/seg en 32GB VRAM con cuantización KV FP8. La cuantización del caché KV NVFP4 en SM120 podría mejorar significativamente el rendimiento en estos sistemas, aunque la implementación actual aún no está disponible.

media r/LocalLLaMA · hace 13 d

El poder de la inteligencia está mejor en manos del pueblo que en las salas de juntas de los magnates

El proyecto PearlOS ha lanzado una plataforma de inteligencia enjambre de código abierto que utiliza modelos locales para manejar tareas multimodales. Selecciona y cambia automáticamente entre los mejores modelos según benchmarks, asegurando que los usuarios siempre accedan a los modelos más recientes y capaces sin depender de sistemas de código cerrado ni suscripciones.

media r/LocalLLaMA · hace 13 d

¿El fundador de GLM dice que habrá un GLM-fable antes de fin de año?

El fundador de GLM ha declarado en Reddit que podría lanzarse un GLM-fable antes de fin de año. La publicación proviene de una discusión de usuarios en el subreddit LocalLLaMA, donde la afirmación se presenta sin confirmación ni anuncio oficial.

github llama.cpp · hace 13 d

llama.cpp libera b9701: nuevo preprocesador y binarios multiplataforma

La versión b9701 de llama.cpp introduce un preprocesor refactorizado con una nueva característica mtmd_image_preproc_out y documentación actualizada para desarrolladores. La liberación incluye binarios para macOS, Linux, Android, Windows y openEuler en múltiples arquitecturas y opciones de aceleración por hardware, incluyendo Vulkan, CUDA, OpenVINO y SYCL.

media r/LocalLLaMA · hace 13 d

Los modelos OSS superaron decisivamente a los modelos propietarios en cuota de mercado

Basado en los últimos tres meses de datos de OpenRouter, los modelos de código abierto han superado a los modelos propietarios en cuota de mercado. El análisis destaca un cambio significativo hacia los modelos de lenguaje de código abierto en el panorama general de la IA.

media r/LocalLLaMA · hace 13 d

Discrepancia entre el rendimiento de Llama Bench y el del mundo real

El usuario reporta una brecha significativa entre los resultados de las pruebas de Llama y el rendimiento real del modelo. Las pruebas muestran 754 tk/s de prefill y 36 tk/s de generación, pero el uso real revela solo 7.98 tokens por segundo, con alta latencia y bajo throughput. La discrepancia se atribuye a las condiciones de uso en el mundo real, no a la configuración de las pruebas, lo que sugiere que el rendimiento real del modelo está muy por debajo de la velocidad medida en las pruebas.

media r/LocalLLaMA · hace 13 d

Agente LLM Local Ahora Genera Imágenes y Video Sin Conexión

Un usuario compartió que su agente LLM local fue equipado con herramientas MCP para generar imágenes y videos directamente. El sistema opera completamente sin conexión y es gratuito, con detalles y código fuente disponibles en los comentarios.

github llama.cpp · hace 13 d

llama.cpp libera b9700: nuevos binarios y actualizaciones de la API SYCL

La versión b9700 de llama.cpp introduce soporte SYCL actualizado con banderas de API renombradas: GGML_SYCL_SUPPORT_LEVEL_ZERO se ha renombrado a GGML_SYCL_SUPPORT_LEVEL_ZERO_API y GGML_SYCL_ENABLE_LEVEL_ZERO se ha renombrado a GGML_SYCL_USE_LEVEL_ZERO_API. La versión incluye binarios para macOS, Linux, Android, Windows y openEuler en múltiples arquitecturas y opciones de aceleración por hardware, incluyendo Vulkan, ROCm, OpenVINO y SYCL.

media r/LocalLLaMA · hace 13 d

Disponibilidad de la versión local de Le Chaton Fat Flash

Los usuarios muestran interés en una versión local "flash" de Le Chaton Fat por privacidad y soberanía. La comunidad está pidiendo actualizaciones sobre cuándo estará disponible dicha versión ligera local.

github llama.cpp · hace 13 d

LLaMA.cpp Release b9698 Adds Self-Update Support and Multiple Platform Binaries

La versión b9698 de LLaMA.cpp habilita las actualizaciones automáticas únicamente cuando se compila con llama-install.sh. La versión incluye binarios para macOS, Linux, Android, Windows y openEuler en múltiples arquitecturas y opciones de aceleración de hardware, incluyendo Vulkan, CUDA, OpenVINO y SYCL.

github llama.cpp · hace 13 d

llama.cpp Release b9699 Adds SYCL Support and Multiple Platform Binaries

La versión b9699 de llama.cpp introduce soporte para las operaciones MUL_MAT y OUT_PROD con precisión Q1_0 a través del PR #24721. El lanzamiento incluye binarios precompilados para macOS, Linux, Android, Windows y openEuler en múltiples arquitecturas y marcos de aceleración, incluyendo SYCL (FP32 y FP16), Vulkan, CUDA, ROCm y OpenVINO.

media r/LocalLLaMA · hace 13 d

Modelos de ML recomendados para MacBook Pro con chip M5 Max y 128GB de RAM

El usuario solicita recomendaciones de modelos para su MacBook Pro de 16 pulgadas con chip M5 Max y 128GB de RAM. Actualmente ejecuta Qwen 3.6 35B a3b a través del agente Hermes y LM Studio, señalando la idoneidad de los modelos MLX en Apple Silicon.

media r/LocalLLaMA · hace 13 d

Keye-VL-2.0-30B-A3B se lanza con capacidades avanzadas de comprensión de video y agente

Keye-VL-2.0-30B-A3B es un modelo multimodal de 30B de parámetros diseñado para la comprensión de videos largos y funcionalidad de agente. Supera a los rivales de código abierto y iguala a Gemini-3-Flash en anclaje temporal, admite hasta 256K de contexto con razonamiento casi sin pérdida, e incluye capacidades integradas para flujos de trabajo de agentes de código, herramientas y búsqueda web.

github llama.cpp · hace 13 d

LLaMA.cpp lanza b9697: nuevos binarios y actualizaciones

LLaMA.cpp publica la versión b9697 con binarios actualizados para macOS, Linux, Android, Windows y openEuler. La publicación incluye soporte para ARM64, x64, Vulkan, CUDA 12 y 13, OpenVINO, SYCL y ROCm, junto con la corrección de un problema de análisis de mensajes en las comprobaciones de lanzamiento.

media r/LocalLLaMA · hace 13 d

Fecha de lanzamiento de GLM-5.2 Flash (broma)

Un usuario de Reddit bromea sobre la apertura del código de GLM-5.2 por parte de Z.ai, expresando entusiasmo por un sucesor de GLM-4.7-flash. La publicación sugiere humorísticamente que un modelo en el rango de 27-120B parámetros sería ideal, aunque se presenta como una broma.

github AutoGPT · hace 13 d

autogpt-platform-beta-v0.6.64 lanzado

La versión autogpt-platform-beta-v0.6.64, fechada el 18 de junio de 2026, introduce nuevas características como el Panel de Contexto de AutoPilot y Búsqueda Global, junto con mejoras en el guardado de gráficos, caché y rendimiento del constructor. También incluye endurecimiento de seguridad, corrección de errores relacionados con proveedores de LLM y mejoras en la interfaz de usuario, como un icono táctil de alta resolución.

github CrewAI · hace 13 d

CrewAI v1.14.8a lanza nuevas funciones de FlowDefinition

CrewAI v1.14.8a introduce acciones de script y tripulación en FlowDefinition, añade soporte para modo DMN y permite la ejecución de flujos sin código Python. También incluye soporte experimental para tripulaciones JSON-first y fallback de despliegue ZIP, junto con una mejor reinicialización de memoria y seguimiento del uso de tokens.

media r/LocalLLaMA · hace 13 d

¿Alguien tiene suficiente capacidad de cómputo para crear un conjunto de datos de destilación a partir de GLM5.2?

Un usuario pregunta si alguien con recursos informáticos suficientes puede crear un gran conjunto de datos de destilación de 70-1 millones de ejemplos a partir de GLM5.2. El objetivo es permitir un mejor entrenamiento de modelos más pequeños como Qwen3.5, beneficiando a la comunidad en general.