Todos los artículos
media r/LocalLLaMA · hace 3 h

Grandes noticias para los propietarios de AMD Strix Halo+: la NPU ya es utilizable

La NPU de AMD ahora es completamente utilizable, lo que permite modelos de IA híbridos en dispositivos Strix Halo+. Los usuarios pueden aprovechar el modo híbrido para combinar el rendimiento de la NPU y la iGPU, con herramientas como Lemonade y documentación oficial que facilitan las pruebas tempranas. La comunidad ahora está solicitando modelos híbridos compatibles con MTP para impulsar aún más el rendimiento.

media r/LocalLLaMA · hace 3 h

Mi micro-benchmark: ¿qué tan buenos son los LLM para simular el comportamiento de humedecimiento?

El autor evalúa a los LLM en la simulación del comportamiento de humedecimiento utilizando Surface Evolver, una herramienta de 1992 para modelar superficies líquidas. Los LLM se evalúan objetivamente comparando sus archivos generados contra implementaciones de referencia, con resultados que muestran el conteo de aprobaciones y los costos de tokens para cada modelo.

media r/LocalLLaMA · hace 3 h

Los hacks de modelos aumentan la velocidad de GLM5.2 de 2.5 a más de 50 tok/s

Un usuario logró más de 50 tokens por segundo para GLM5.2 en su sistema GH200 combinando el cabezal MTP del repositorio FP8 de zai con el modelo cuantizado AWQ-INT4 de CyanKiwi. Este enfoque híbrido, implementado mediante un script de fusión y vLLM parcheado, alcanzó un mejor caso de ~55 tok/s con concurrencia 4x y ~45 tok/s para inferencia única, con transmisión desde RAM a VRAM.

media r/LocalLLaMA · hace 3 h

Informe del Banco de Corea: El uso de IA ahorra 1 hora semanal pero sin ganancia real de productividad

El Banco de Corea informa que el uso de IA reduce la carga laboral semanal en un 3,8%, equivalente a una hora por semana. Sin embargo, no encuentra conexión entre el tiempo ahorrado y el aumento de la productividad, ya que la IA genera más informes y no hay pago adicional por tareas extra. Incluso en condiciones ideales, el crecimiento real de la productividad es como máximo del 1%.

media r/LocalLLaMA · hace 3 h

Verificación de sentido común con GPU dual: ¿Es una compra inteligente?

Un usuario pregunta si vale la pena agregar una GTX 5060 Ti 16GB a su configuración existente de RTX 5090 para tener más VRAM y ejecutar LLMs más grandes y extender la generación de video en ComfyUI. La actualización permitiría usar Qwen 3.6 con contexto de 256K y mejorar la generación de video en 1440p, aunque las ganancias de rendimiento en ComfyUI son limitadas debido a las restricciones actuales del software.

media r/LocalLLaMA · hace 3 h

la interfaz web de llama.cpp añade ejecución opcional de JavaScript mediante Web Workers

La interfaz web de llama.cpp ahora admite la ejecución de JavaScript generado por modelos de lenguaje en el navegador utilizando Web Workers, habilitado a través de una configuración opcional. El código se ejecuta en un iframe aislado con restricciones de seguridad, aunque las solicitudes de red parecen estar deshabilitadas y las capacidades del sandbox permitidas carecen de documentación clara.

media r/LocalLLaMA · hace 3 h

¿Qué herramientas utilizan las personas para estimar la VRAM y RAM para LLMs locales?

Los usuarios comparten que hf-accelerate's model-memory-usage y el calculador de VRAM de LLM de NyxKrage son herramientas comunes para estimar las necesidades de VRAM y RAM. La herramienta de NyxKrage se destaca por ser consciente del KV-cache y configurable con ajustes de cuantización y longitud de contexto, aunque los resultados pueden variar entre modelos y motores como llama.cpp o vLLM debido a los comportamientos de cuantización y caché.

media r/LocalLLaMA · hace 3 h

Unlimited-OCR de Baidu transcribe docenas de páginas en un solo pase hacia adelante

Baidu ha lanzado Unlimited-OCR, un modelo que transcribe docenas de páginas en un único pase hacia adelante utilizando Atención de Ventana Deslizante de Referencia (R-SWA). Se basa en DeepSeek-OCR, heredando su codificador, compresión de imágenes y arquitectura MoE, con solo 500M de parámetros activos por token. El modelo alcanza una precisión del 93.92% en OmniDocBench v1.6, superando el 87.01% de DeepSeek-OCR en v1.5, aunque los resultados reportados por el fabricante requieren validación independiente.

media r/LocalLLaMA · hace 3 h

Qwen3.6 27B más tonto en vLLM comparado con llama.cpp

Un usuario informa que Qwen3.6-27B se ejecuta significativamente menos de manera inteligente en vLLM que en llama.cpp, presentando problemas como ignorar mensajes, alucinar llamadas a herramientas y no reconocer el contexto de conversaciones previas. A pesar de la configuración adecuada y las plantillas de prompt, el modelo parece perder coherencia e interpretar mal su propio uso de herramientas, con errores que ocurren de manera consistente en lugar de esporádica.

media r/LocalLLaMA · hace 3 h

KaLM-Reranker-V1: Reordenamiento rápido y eficiente de documentos

KaLM-Reranker-V1 es un reordenador rápido, pero no de interacción tardía, que desacopla el cálculo de la consulta y del pasaje mientras mantiene una fuerte modelación de relevancia a través de cross-attention. Alcanza rendimiento de vanguardia en BEIR, supera a modelos industriales como Qwen3-Reranker, y muestra excelentes resultados en MIRACL y LMEB, con el modelo Nano de 0.27B manteniéndose competitivo frente a modelos de 7-12B.

media r/LocalLLaMA · hace 3 h

actualizaciones de llama.cpp: modelos Granite-Speech, LFM2.5-ColBERT, mejoras en el backend Vulkan

llama.cpp ahora soporta los modelos granite-speech-4.1-2b-plus y LFM2.5-ColBERT/Embedding-350M. Las actualizaciones del backend Vulkan incluyen soporte para convoluciones 3D, operaciones alineadas, GET_ROWS_BACK y estabilidad numérica mejorada en las capas feedforward. Las mejoras adicionales cubren mejoras en la interfaz de usuario y cobertura de pruebas del backend.