Todos los artículos
media r/LocalLLaMA · hace 1 h En vivo

Mejores Agentes Locales - Jun 2026

Un hilo de discusión identifica los mejores agentes de IA locales disponibles hoy en día, haciendo hincapié en modelos de peso abierto y ejecución en hardware local. El post define 'agentes' como software autónomo que determina sus propias acciones sin programación previa, distinguiéndolos de herramientas como IFTTT o Accesos directos de Apple, y establece reglas que requieren implementación local y software de agente de código abierto como enfoque principal.

media r/LocalLLaMA · hace 1 h En vivo

Ayuda para ejecutar el agente Hermes local con llama-cpp

Un usuario reporta problemas al ejecutar un agente de IA Hermes local en una configuración de alto rendimiento utilizando llama-cpp compilado por sí mismo. La configuración experimenta un reprocesamiento frecuente del caché KV cada 5 mensajes y un razonamiento lento, con el agente pausándose repetidamente para informar el progreso en lugar de continuar de forma autónoma. El usuario busca orientación sobre si los parámetros de su llama-cpp son incorrectos o qué ajustes pueden mejorar el rendimiento del agente y el razonamiento sostenido sin interrupciones.

media r/LocalLLaMA · hace 1 h En vivo

Cómo configurar los parámetros óptimos de llama.cpp para GPU AMD

Los usuarios que buscan configuraciones óptimas de llama.cpp para modelos gemma 4 en una GPU AMD con 16GB de VRAM preguntan si es necesario el ensayo y error. Hacen referencia a la configuración predeterminada de Google para temperatura, top-p y top-k, pero notan resultados inconsistentes, lo que indica una necesidad de orientación más específica más allá de la documentación oficial.

media r/LocalLLaMA · hace 1 h En vivo

Solución al descenso abrupto de decodificación de contexto largo en Radeon R9700 con vLLM 0.22.1

Un descenso abrupto en el rendimiento de decodificación de contexto largo en AMD Radeon AI PRO R9700 (RDNA4) fue resuelto habilitando AITER Unified Attention en vLLM 0.22.1. La corrección implica relajar un gate CDNA para incluir RDNA4, deshabilitar otros backends de atención y usar caché KV bf16, lo que resulta en aceleraciones significativas en todas las longitudes de contexto. FP8 KV es ineficaz en este hardware, y el contexto nativo del modelo de 262K se logra completamente con bf16, ofreciendo ~2.9× concurrencia sin necesidad de FP8.

media r/LocalLLaMA · hace 1 h En vivo

La Comisión selecciona al consorcio EUROPA como ganador del Gran Desafío de IA de Frontera

La Comisión Europea ha elegido al consorcio EUROPA, liderado por Domyn, para desarrollar un modelo de IA de frontera de código abierto en los 24 idiomas de la UE. El proyecto, lanzado en febrero de 2026, tiene como objetivo crear un modelo con más de 400 mil millones de parámetros, demostrando la capacidad de Europa para construir IA avanzada con su propia infraestructura.

media r/LocalLLaMA · hace 1 h En vivo

La economía de la IA está comenzando a favorecer a los modelos abiertos

Los recientes lanzamientos de modelos de IA muestran que los modelos de alta inteligencia y bajo costo están cada vez más dominados por modelos de peso abierto como DeepSeek, Qwen, GLM, Kimi y MiniMax. Para la mayoría de las aplicaciones del mundo real, la brecha de rendimiento entre los modelos cerrados de vanguardia y los fuertes modelos abiertos se está reduciendo más rápido que las diferencias de costo, haciendo que los modelos abiertos sean competitivos en términos de capacidad y precio.

media r/LocalLLaMA · hace 1 h En vivo

Añadir una segunda GPU a la placa base X670E para LLMs locales

Un usuario quiere añadir una segunda GPU de 16 GB de VRAM (5060 Ti o 5070 Ti) a su placa base MSI X670E Tomahawk WiFi para ejecutar grandes LLMs locales como Qwen 3.6 27B. La configuración actual carece de espacio para una segunda GPU debido a que la 5070 Ti principal ocupa la segunda ranura PCIe, dejando solo la tercera ranura parcialmente disponible. El usuario busca consejos sobre opciones viables, como usar la cuarta ranura PCIe o un adaptador (riser), considerando refrigeración, estabilidad y ajuste físico, especialmente con un montaje horizontal de GPU como el Lian Li VG4v4.

media Interconnects · hace 1 h En vivo

Prohibir la IA de código abierto sería un error

El artículo argumenta que prohibir la IA de código abierto sería un grave error, ya que es segura, protege la seguridad y impulsa la innovación, la educación y la competencia. El código abierto ha impulsado durante mucho tiempo el progreso tecnológico y sirve como un contrapeso vital frente a los modelos de IA monopolísticos, garantizando un acceso más amplio y una innovación democrática sin comprometer la seguridad ni la protección.

media r/LocalLLaMA · hace 1 h En vivo

Observando cómo un asistente de voz local con IA se vuelve menos inteligente

Una prueba en una RTX 5060 Ti mostró que reducir el tamaño del modelo de un asistente de voz local con IA de 9B a 0.8B provoca un descenso pronunciado en la capacidad. El modelo de 9B maneja bien la orquestación de herramientas, mientras que los modelos más pequeños muestran fallos crecientes: el modelo de 4B omite las llamadas a herramientas y adivina hechos, el modelo de 2B sufre deriva semántica, y el modelo de 0.8B falla en operar funciones de agente, activando APIs incorrectas o bucles infinitos.

arxiv arXiv cs.CL · hace 1 h En vivo

Credence: Métricas semánticas y análisis de convergencia para la descomposición de afirmaciones

Credence introduce Semantic-F1, una métrica de similitud cosina BGE-large que mejora la precisión de la descomposición de afirmaciones en 15-32 puntos porcentuales respecto a Jaccard. Establece teoremas de convergencia para la reparación basada en reglas y LLM, mostrando que la reparación basada en reglas es finitamente terminante y monótona, mientras que la reparación basada en LLM requiere guardias de salida anticipada. Las evaluaciones en dominios de redes sociales, enciclopédicos y de noticias muestran EPR de 0.94 a 1.00, con la reparación basada en reglas reduciendo las violaciones de atomicidad entre 47-100% sin pérdida de fidelidad.