Todos los artículos
media r/LocalLLaMA · hace 14 d

Hardware más económico para Qwen 3.6: modelos de 27B y 35B-A3B

Una publicación en Reddit analiza la configuración de hardware rentable para ejecutar los modelos Qwen 3.6, tanto el de 27B como el de 35B-A3B, señalando que la RTX 3090 de 24GB ofrece mejor valor a largo plazo frente a la Tesla V100 debido a su descontinuación y las alternativas chinas próximas. La configuración propuesta suma $1,995.65, incluyendo un Ryzen 5 5600X, una RTX 3090 de 24GB y componentes esenciales, siendo el precio total una preocupación clave para los usuarios que buscan asequibilidad.

lab Claude Code Releases · hace 14 d

Notas de la versión de Claude v2.1.178

Claude v2.1.178 introduce nuevas reglas de permisos utilizando la sintaxis Tool(param:value), mejora la carga de flujos de trabajo y habilidades en directorios anidados, y optimiza el modo automático y los mensajes de error. Corrige problemas críticos como bloqueos, errores de autenticación y comportamiento de la interfaz de usuario en Chrome y VSCode, mientras refina las indicaciones de las herramientas y la funcionalidad de deshacer.

media r/LocalLLaMA · hace 14 d

Benchmark para LLMs pequeños en búsqueda de archivos con lenguaje natural

Un benchmark evalúa LLMs pequeños (0.3B–3B parámetros) en la conversión de consultas en lenguaje natural a JSON estructurado, centrándose en el tipo de archivo, contexto temporal, especificidad y consultas combinadas. Los resultados muestran que los modelos con 0.8B–1.5B parámetros superan a los de menos de 0.5B, con el proyecto teniendo como objetivo ampliar el conjunto de pruebas y explorar el ajuste fino para mejorar el rendimiento.

media r/LocalLLaMA · hace 14 d

Hilo de construcción comunitaria de modelos: el entrenamiento colaborativo es viable

Un modelo comunitario puede construirse mediante computación crowdsourced utilizando un enfoque 'Branch-Train-Stitch'. Los participantes entrenan un modelo prototipo en su hardware, envían submodelos de dominio estrecho y los organizadores los ensamblan en un gran modelo Mixture-of-Experts (MoE), con decisiones clave que incluyen el tamaño del prototipo, las definiciones de alcance y los protocolos de entrenamiento.