Todos los artículos
media r/LocalLLaMA · hace 13 d

¿SLMs y Difusión: El Futuro de Modelos Pequeños y Especializados?

Los usuarios debaten si los modelos de lenguaje pequeños específicos para tareas (SLMs) pueden superar a los modelos más grandes en tareas concretas, citando benchmarks donde los modelos de 9B igualan o superan a los más grandes. Proponen un flujo de trabajo agencial secuencial que utiliza múltiples modelos especializados, con uno coordinando y otros verificando las respuestas, sugiriendo que los modelos de difusión podrían acelerar dichos flujos de trabajo a pesar de una inteligencia reducida.

media r/LocalLLaMA · hace 13 d

El poder de la inteligencia está mejor en manos del pueblo que en las salas de juntas de los magnates

El proyecto PearlOS ha lanzado una plataforma de inteligencia enjambre de código abierto que utiliza modelos locales para manejar tareas multimodales. Selecciona y cambia automáticamente entre los mejores modelos según benchmarks, asegurando que los usuarios siempre accedan a los modelos más recientes y capaces sin depender de sistemas de código cerrado ni suscripciones.

media r/LocalLLaMA · hace 13 d

Discrepancia entre el rendimiento de Llama Bench y el del mundo real

El usuario reporta una brecha significativa entre los resultados de las pruebas de Llama y el rendimiento real del modelo. Las pruebas muestran 754 tk/s de prefill y 36 tk/s de generación, pero el uso real revela solo 7.98 tokens por segundo, con alta latencia y bajo throughput. La discrepancia se atribuye a las condiciones de uso en el mundo real, no a la configuración de las pruebas, lo que sugiere que el rendimiento real del modelo está muy por debajo de la velocidad medida en las pruebas.

github llama.cpp · hace 13 d

llama.cpp libera b9700: nuevos binarios y actualizaciones de la API SYCL

La versión b9700 de llama.cpp introduce soporte SYCL actualizado con banderas de API renombradas: GGML_SYCL_SUPPORT_LEVEL_ZERO se ha renombrado a GGML_SYCL_SUPPORT_LEVEL_ZERO_API y GGML_SYCL_ENABLE_LEVEL_ZERO se ha renombrado a GGML_SYCL_USE_LEVEL_ZERO_API. La versión incluye binarios para macOS, Linux, Android, Windows y openEuler en múltiples arquitecturas y opciones de aceleración por hardware, incluyendo Vulkan, ROCm, OpenVINO y SYCL.