Todos los artículos
media r/LocalLLaMA · hace 1 h En vivo

El agente Hermes se ve feo y tiene una mala experiencia de usuario

Un usuario expresa decepción con la interfaz web de Hermes Agent, citando fuentes y gráficos feos, así como una experiencia de usuario lenta tanto en las interfaces web como de terminal. A pesar de su promesa de funciones integradas y facilidad de uso, el usuario lo encuentra significativamente más lento y menos intuitivo que Pi Mono Agent, especialmente cuando se usa con los modelos Qwen3.6-35B y Gemma4-26B.

blog Simon Willison · hace 1 h En vivo

sqlite-utils 4.0rc1 añade migraciones y transacciones anidadas

sqlite-utils 4.0rc1 introduce migraciones de base de datos y db.atomic() para transacciones anidadas. Las migraciones admiten cambios de esquema basados en scripts mediante una API simplificada, mientras que db.atomic() permite transacciones anidadas a través de puntos de guardado, mejorando el manejo de errores y la integridad de los datos. La versión incluye cambios incompatibles con versiones anteriores, como un comportamiento actualizado de upsert y la eliminación del soporte para Python 3.8, con opciones para mantener comportamientos antiguos.

media r/LocalLLaMA · hace 1 h En vivo

Qwen 27B para planificación, Qwen 35B-A3B para ejecución

Un usuario explora el uso de Qwen 27B para la planificación de tareas a largo plazo y Qwen 35B-A3B para una ejecución rápida, señalando que el modelo de 27B funciona a 7-10 tokens por segundo y el de 35B-A3B a ~18 tokens por segundo. El usuario considera alternar entre modelos para aprovechar sus diferentes fortalezas, aunque actualmente usa exclusivamente el 35B-A3B y cuestiona si la brecha de inteligencia entre los modelos es significativa.

media r/LocalLLaMA · hace 1 h En vivo

Resultados actualizados del benchmark de modelos de visión y recomendaciones

Un benchmark revisado de modelos de lenguaje visual locales evalúa 23 modelos en 30 imágenes con 3 pruebas cada una, totalizando 2.070 pruebas y entre 60 y 70 horas de inferencia. El modelo con mejor rendimiento es Qwen3.6 27B (nothink) en Q4 con una puntuación de 79.6, seguido por Qwen3.5 4B (nothink) en Q4, y Qwen3-VL 8B en Q8. Los hallazgos clave incluyen que el modo de pensamiento degrada el rendimiento visual, los modelos MoE tienen un rendimiento inferior en comparación con los modelos densos, y la cuantización Q8 no mejora universalmente los resultados.