Todos los artículos — korshunov.ai

Todos los artículos Página 82 / 130

Maximizando el rendimiento de 2x3090 con NVLink

Un usuario reporta lograr solo 60 tokens por segundo en ráfagas cortas y un promedio de 40-45 TPS al ejecutar Qwen 3.6 27B con cuantización Q8_0 en dos GPUs GeForce 3090 conectadas mediante NVLink. La configuración incluye Ubuntu 24.04, Ryzen 7950x3D y 64GB DDR5, con la salida de pantalla dirigida a través de una eGPU.

media r/LocalLLaMA · hace 12 d

SupraLabs lanza el modelo de visión y lenguaje SupraVL-Nano-900k

SupraLabs ha lanzado SupraVL-Nano-900k, un modelo de visión y lenguaje con 900k parámetros, completamente transparente, entrenado desde cero en Flickr8k. Cuenta con un codificador visual CNN, un decodificador estilo GPT-2 y fusión por concatenación de prefijos, con todos los componentes documentados abiertamente y diseñados para claridad educativa.

media r/LocalLLaMA · hace 12 d

Cómo configurar los parámetros óptimos de llama.cpp para GPU AMD

Los usuarios que buscan configuraciones óptimas de llama.cpp para modelos gemma 4 en una GPU AMD con 16GB de VRAM preguntan si es necesario el ensayo y error. Hacen referencia a la configuración predeterminada de Google para temperatura, top-p y top-k, pero notan resultados inconsistentes, lo que indica una necesidad de orientación más específica más allá de la documentación oficial.

media r/LocalLLaMA · hace 12 d

Solución al descenso abrupto de decodificación de contexto largo en Radeon R9700 con vLLM 0.22.1

Un descenso abrupto en el rendimiento de decodificación de contexto largo en AMD Radeon AI PRO R9700 (RDNA4) fue resuelto habilitando AITER Unified Attention en vLLM 0.22.1. La corrección implica relajar un gate CDNA para incluir RDNA4, deshabilitar otros backends de atención y usar caché KV bf16, lo que resulta en aceleraciones significativas en todas las longitudes de contexto. FP8 KV es ineficaz en este hardware, y el contexto nativo del modelo de 262K se logra completamente con bf16, ofreciendo ~2.9× concurrencia sin necesidad de FP8.

media r/LocalLLaMA · hace 12 d

Cómo configurar la búsqueda con modelos de IA

Un usuario pregunta cómo integrar Gemma 4 12B con capacidades de búsqueda utilizando modelos de IA autoalojados. Mencionan que han intentado usar openwebui, el cual tiene problemas con motores de búsqueda como DDG, y buscan alternativas que eviten el uso de claves API de Brave o Google.

github llama.cpp · hace 12 d

LLaMA.cpp Release b9728 Adds Comment Line Support and Multiple Platform Binaries

La versión b9728 de LLaMA.cpp introduce soporte para líneas de comentario en la configuración --api-key-file. El lanzamiento incluye binarios precompilados para macOS, Linux, Android, Windows y openEuler a través de múltiples arquitecturas y opciones de aceleración por hardware, incluyendo Vulkan, CUDA, OpenVINO y SYCL.

media r/LocalLLaMA · hace 12 d

Modelos GLM-5.2-REAP50-GGUF disponibles en Hugging Face

Los modelos GLM-5.2-REAP50-GGUF están disponibles en Hugging Face, ofreciendo dos versiones cuantizadas: Q3_K_M (182 GB) y Q2_K (139 GB). Los modelos se comparan en un post de Reddit con Qwen 3.6 27b, aunque no se proporciona una evaluación directa del rendimiento.

media r/LocalLLaMA · hace 12 d

¿Puedes usar un SSD para ampliar la memoria sin SWAP en Mac Mini M4?

Un usuario pregunta si se puede usar un SSD para ampliar la memoria y ejecutar grandes modelos de IA en un Mac Mini con chip M4 y 24 GB de memoria unificada. Informa que, aunque GPT-120B se ejecuta correctamente, consume 50 GB de volumen SWAP y apenas utiliza su SSD de 330 GB para los slots KV y archivos GGUF, a pesar de esperar que mmap permita la extensión de memoria mediante SSD.

media r/LocalLLaMA · hace 12 d

La Comisión selecciona al consorcio EUROPA como ganador del Gran Desafío de IA de Frontera

La Comisión Europea ha elegido al consorcio EUROPA, liderado por Domyn, para desarrollar un modelo de IA de frontera de código abierto en los 24 idiomas de la UE. El proyecto, lanzado en febrero de 2026, tiene como objetivo crear un modelo con más de 400 mil millones de parámetros, demostrando la capacidad de Europa para construir IA avanzada con su propia infraestructura.

media r/LocalLLaMA · hace 12 d

Mejorando modelos locales con un agente consultor basado en API

Un usuario pregunta si añadir un potente agente 'consultor' basado en API, como GLM 5.2, podría mejorar los flujos de trabajo de IA local al refinar planes y procesos de aprendizaje. El artículo explora los beneficios potenciales de dicho agente para mejorar el rendimiento del modelo local mediante consulta externa.

github llama.cpp · hace 12 d

llama.cpp release b9726 añade el argumento --agent y nuevos binarios para plataformas

La versión b9726 de llama.cpp introduce un nuevo argumento --agent y elimina la compatibilidad redundante con la nomenclatura de webui. El lanzamiento incluye binarios precompilados para macOS, Linux, Android, Windows y openEuler en múltiples arquitecturas y opciones de aceleración por hardware.

github llama.cpp · hace 12 d

llama.cpp Release b9727: Actualización a cpp-httplib 0.48.0

La versión b9727 de llama.cpp actualiza cpp-httplib a la versión 0.48.0. El lanzamiento incluye binarios para macOS, Linux, Android, Windows y openEuler en múltiples arquitecturas y opciones de aceleración de hardware, incluyendo Vulkan, CUDA, OpenVINO y SYCL.

media r/LocalLLaMA · hace 12 d

La economía de la IA está comenzando a favorecer a los modelos abiertos

Los recientes lanzamientos de modelos de IA muestran que los modelos de alta inteligencia y bajo costo están cada vez más dominados por modelos de peso abierto como DeepSeek, Qwen, GLM, Kimi y MiniMax. Para la mayoría de las aplicaciones del mundo real, la brecha de rendimiento entre los modelos cerrados de vanguardia y los fuertes modelos abiertos se está reduciendo más rápido que las diferencias de costo, haciendo que los modelos abiertos sean competitivos en términos de capacidad y precio.

media r/LocalLLaMA · hace 12 d

Traducción al inglés de LQ50-24 disponible

Se ha compartido una traducción completa al inglés de LQ50-24 utilizando Google Translate. La publicación fue enviada por el usuario /u/MundanePercentage674 en la comunidad LocalLLaMA de Reddit.

media r/LocalLLaMA · hace 12 d

¿Benchmarking o benchmarketing?

El benchmarking de LLM se ve cada vez más como marketing en lugar de medición objetiva. Los usuarios cuestionan qué benchmarks son genuinamente significativos para modelos locales, en lugar de afirmaciones superficiales basadas en puntuaciones.

github llama.cpp · hace 12 d

Docker: Compilar la interfaz de usuario (#24794)

El proyecto Docker ha añadido soporte para compilar el componente de la interfaz de usuario. Esta actualización también incluye el uso de APP_VERSION existente en la configuración del contenedor.

media r/LocalLLaMA · hace 12 d

Añadir una segunda GPU a la placa base X670E para LLMs locales

Un usuario quiere añadir una segunda GPU de 16 GB de VRAM (5060 Ti o 5070 Ti) a su placa base MSI X670E Tomahawk WiFi para ejecutar grandes LLMs locales como Qwen 3.6 27B. La configuración actual carece de espacio para una segunda GPU debido a que la 5070 Ti principal ocupa la segunda ranura PCIe, dejando solo la tercera ranura parcialmente disponible. El usuario busca consejos sobre opciones viables, como usar la cuarta ranura PCIe o un adaptador (riser), considerando refrigeración, estabilidad y ajuste físico, especialmente con un montaje horizontal de GPU como el Lian Li VG4v4.

media r/LocalLLaMA · hace 12 d

Mejor arnés para búsqueda web

Los usuarios informan que herramientas como LM Studio y Odysseus están limitadas por los límites de solicitudes del motor de búsqueda, a menudo 10 por día o hora, sin acceso a la API. Sugieren crear cuentas de la API de DuckDuckGo para obtener un mejor acceso a las búsquedas, pero señalan que los frontends rara vez solicitan esto. La publicación pregunta si Hermes o Pi ofrecen soluciones mejoradas.

media r/LocalLLaMA · hace 12 d

¿Qué es más impresionante, GLM 5.1 a 5.2 o Qwen 3.5 a 3.6?

Una publicación de Reddit compara las mejoras de rendimiento de GLM 5.1 a 5.2 y Qwen 3.5 a 3.6. La publicación señala que mencionar 'Döner' activa los pesos específicos para alemán de GLM 5.2, mientras que Qwen 3.6 se evalúa con 35B parámetros utilizando cuantización Unsloth Q8 K XL a través de llama.cpp.

media Interconnects · hace 12 d

Prohibir la IA de código abierto sería un error

El artículo argumenta que prohibir la IA de código abierto sería un grave error, ya que es segura, protege la seguridad y impulsa la innovación, la educación y la competencia. El código abierto ha impulsado durante mucho tiempo el progreso tecnológico y sirve como un contrapeso vital frente a los modelos de IA monopolísticos, garantizando un acceso más amplio y una innovación democrática sin comprometer la seguridad ni la protección.