Todos los artículos
media r/LocalLLaMA · hace 13 d

¿SLMs y Difusión: El Futuro de Modelos Pequeños y Especializados?

Los usuarios debaten si los modelos de lenguaje pequeños específicos para tareas (SLMs) pueden superar a los modelos más grandes en tareas concretas, citando benchmarks donde los modelos de 9B igualan o superan a los más grandes. Proponen un flujo de trabajo agencial secuencial que utiliza múltiples modelos especializados, con uno coordinando y otros verificando las respuestas, sugiriendo que los modelos de difusión podrían acelerar dichos flujos de trabajo a pesar de una inteligencia reducida.

media r/LocalLLaMA · hace 13 d

El poder de la inteligencia está mejor en manos del pueblo que en las salas de juntas de los magnates

El proyecto PearlOS ha lanzado una plataforma de inteligencia enjambre de código abierto que utiliza modelos locales para manejar tareas multimodales. Selecciona y cambia automáticamente entre los mejores modelos según benchmarks, asegurando que los usuarios siempre accedan a los modelos más recientes y capaces sin depender de sistemas de código cerrado ni suscripciones.

media r/LocalLLaMA · hace 13 d

Discrepancia entre el rendimiento de Llama Bench y el del mundo real

El usuario reporta una brecha significativa entre los resultados de las pruebas de Llama y el rendimiento real del modelo. Las pruebas muestran 754 tk/s de prefill y 36 tk/s de generación, pero el uso real revela solo 7.98 tokens por segundo, con alta latencia y bajo throughput. La discrepancia se atribuye a las condiciones de uso en el mundo real, no a la configuración de las pruebas, lo que sugiere que el rendimiento real del modelo está muy por debajo de la velocidad medida en las pruebas.

github llama.cpp · hace 13 d

llama.cpp libera b9700: nuevos binarios y actualizaciones de la API SYCL

La versión b9700 de llama.cpp introduce soporte SYCL actualizado con banderas de API renombradas: GGML_SYCL_SUPPORT_LEVEL_ZERO se ha renombrado a GGML_SYCL_SUPPORT_LEVEL_ZERO_API y GGML_SYCL_ENABLE_LEVEL_ZERO se ha renombrado a GGML_SYCL_USE_LEVEL_ZERO_API. La versión incluye binarios para macOS, Linux, Android, Windows y openEuler en múltiples arquitecturas y opciones de aceleración por hardware, incluyendo Vulkan, ROCm, OpenVINO y SYCL.

media r/LocalLLaMA · hace 13 d

Keye-VL-2.0-30B-A3B se lanza con capacidades avanzadas de comprensión de video y agente

Keye-VL-2.0-30B-A3B es un modelo multimodal de 30B de parámetros diseñado para la comprensión de videos largos y funcionalidad de agente. Supera a los rivales de código abierto y iguala a Gemini-3-Flash en anclaje temporal, admite hasta 256K de contexto con razonamiento casi sin pérdida, e incluye capacidades integradas para flujos de trabajo de agentes de código, herramientas y búsqueda web.

github AutoGPT · hace 13 d

autogpt-platform-beta-v0.6.64 lanzado

La versión autogpt-platform-beta-v0.6.64, fechada el 18 de junio de 2026, introduce nuevas características como el Panel de Contexto de AutoPilot y Búsqueda Global, junto con mejoras en el guardado de gráficos, caché y rendimiento del constructor. También incluye endurecimiento de seguridad, corrección de errores relacionados con proveedores de LLM y mejoras en la interfaz de usuario, como un icono táctil de alta resolución.