Todos los artículos
media r/LocalLLaMA · hace 12 d

Ayuda para ejecutar el agente Hermes local con llama-cpp

Un usuario reporta problemas al ejecutar un agente de IA Hermes local en una configuración de alto rendimiento utilizando llama-cpp compilado por sí mismo. La configuración experimenta un reprocesamiento frecuente del caché KV cada 5 mensajes y un razonamiento lento, con el agente pausándose repetidamente para informar el progreso en lugar de continuar de forma autónoma. El usuario busca orientación sobre si los parámetros de su llama-cpp son incorrectos o qué ajustes pueden mejorar el rendimiento del agente y el razonamiento sostenido sin interrupciones.

media r/LocalLLaMA · hace 12 d

Solución al descenso abrupto de decodificación de contexto largo en Radeon R9700 con vLLM 0.22.1

Un descenso abrupto en el rendimiento de decodificación de contexto largo en AMD Radeon AI PRO R9700 (RDNA4) fue resuelto habilitando AITER Unified Attention en vLLM 0.22.1. La corrección implica relajar un gate CDNA para incluir RDNA4, deshabilitar otros backends de atención y usar caché KV bf16, lo que resulta en aceleraciones significativas en todas las longitudes de contexto. FP8 KV es ineficaz en este hardware, y el contexto nativo del modelo de 262K se logra completamente con bf16, ofreciendo ~2.9× concurrencia sin necesidad de FP8.

media r/LocalLLaMA · hace 12 d

La Comisión selecciona al consorcio EUROPA como ganador del Gran Desafío de IA de Frontera

La Comisión Europea ha elegido al consorcio EUROPA, liderado por Domyn, para desarrollar un modelo de IA de frontera de código abierto en los 24 idiomas de la UE. El proyecto, lanzado en febrero de 2026, tiene como objetivo crear un modelo con más de 400 mil millones de parámetros, demostrando la capacidad de Europa para construir IA avanzada con su propia infraestructura.

media r/LocalLLaMA · hace 12 d

La economía de la IA está comenzando a favorecer a los modelos abiertos

Los recientes lanzamientos de modelos de IA muestran que los modelos de alta inteligencia y bajo costo están cada vez más dominados por modelos de peso abierto como DeepSeek, Qwen, GLM, Kimi y MiniMax. Para la mayoría de las aplicaciones del mundo real, la brecha de rendimiento entre los modelos cerrados de vanguardia y los fuertes modelos abiertos se está reduciendo más rápido que las diferencias de costo, haciendo que los modelos abiertos sean competitivos en términos de capacidad y precio.