Todos los artículos
media r/LocalLLaMA · hace 9 d

Idea para ejecutar GLM2 con una cuantización decente en configuración de GPU y DDR3

El usuario propone utilizar cuatro GPUs 5060 Ti con 64GB de VRAM en total, funcionando a PCIe Gen 3, para ejecutar GLM2 a un nivel de cuantización razonable. Sugiere añadir 512GB de RAM DDR3 en un servidor con 16 carriles PCIe y bifurcación 4x4 para descargar el almacenamiento del KV cache, buscando una inferencia eficiente sin depender de clústeres de memoria unificada. Se estima que la configuración costará alrededor de $1700 en total, con viabilidad potencial para GLM2 a un nivel de cuantización decente.

media r/LocalLLaMA · hace 9 d

MacBook Pro M5 Pro 64GB para inferencia de IA local

Un usuario está evaluando un MacBook Pro con el chip M5 Pro y 64GB de memoria unificada para ejecutar grandes modelos de IA locales como Qwen 35B A3B o modelos de 8B en marcos de agentes de IA como Opencode o Pi. Está preocupado por la longitud del contexto, el rendimiento, la multitarea con aplicaciones como IDEs y Chromium, y el posible sobrecalentamiento, buscando comentarios de otros con configuraciones similares.

media Hugging Face Forums · hace 9 d

El proxy de Hugging Face Spaces elimina el encabezado de credenciales CORS en la preflight OPTIONS

Los usuarios informan que el proxy de borde de Hugging Face Spaces ahora está eliminando el encabezado Access-Control-Allow-Credentials de las solicitudes de preflight OPTIONS, incluso cuando se configura explícitamente en el middleware de Express. El encabezado falta en las respuestas a pesar del código que lo establece e incluye un middleware comodín para las solicitudes OPTIONS, lo que sugiere que el proxy intercepta y modifica la respuesta antes de que llegue al contenedor backend.

media Hugging Face Forums · hace 9 d

BenchHub lanza una actualización importante al espacio de tablas de clasificación abiertas

BenchHub ha lanzado una actualización importante a su plataforma de tablas de clasificación abiertas, que ahora cubre tareas de visión, audio y PLN con métricas consistentes y puntuaciones reproducibles. La plataforma cuenta con 95 tablas, más de 700 presentaciones de modelos y permite la participación gratuita mediante inicio de sesión con GitHub, Google o Hugging Face, con exploración completa y comparaciones de muestras disponibles en runbenchhub.com.

media r/LocalLLaMA · hace 9 d

Top-N-Sigma: Eliminar softmax+sort incondicional

El muestreador Top-N-Sigma actualmente realiza una operación de softmax y ordenamiento incondicional al final, lo cual es inútil cuando va seguido de Dist. Este PR elimina ese paso, mejorando el rendimiento en un 50% en un MacBook Pro M3 Max para el modelo google_gemma-4-E4B-it-Q8_0, reduciendo el tiempo por token en 10ms. El cambio puede afectar las cadenas del muestreado y aún no se ha verificado para todos los backends y modelos.