Todos los artículos
media r/LocalLLaMA · hace 11 d

SupraLabs lanza supra-title-FFT-preview con 115K muestras

SupraLabs ha lanzado supra-title-FFT-preview, un modelo de generación de títulos para chat entrenado con 115K muestras de un conjunto de datos filtrado, ampliando la cobertura más allá de su anterior modelo de 12K muestras. El modelo utiliza ajuste fino completo en LiquidAI/LFM2.5-350M-Base con precisión BF16 y está diseñado para la generación única de títulos de chat, disponible a través de Hugging Face y compatible con carga directa o despliegue con vLLM.

media r/LocalLLaMA · hace 11 d

Álgebra de Atención — una gramática que traduce lenguaje natural a espectrogramas

Álgebra de Atención es un prototipo que traduce lenguaje natural a expresiones algebraicas, las mapea a dinámicas matemáticas y visualiza el resultado como un espectrograma. Trata el lenguaje como una proyección con pérdida de estados de alta dimensión, proponiendo que los patrones de atención crudos agrupados en funciones sirven como el 'ADN' del texto, permitiendo cadenas de razonamiento eficientes al reducir el uso de tokens de 20k a 4k.

github llama.cpp · hace 11 d

llama.cpp Release b9731: Optimización de rendimiento y binarios multiplataforma

La versión b9731 de llama.cpp introduce una optimización que utiliza std::partial_sort para reducir la sobrecarga del ordenamiento de tokens, mejorando el rendimiento de 8.555ms a 0.704ms para la selección de top-n tokens. El lanzamiento incluye binarios precompilados para macOS, Linux, Android, Windows y openEuler en múltiples arquitecturas y opciones de aceleración por hardware.

media r/LocalLLaMA · hace 11 d

Mejores Agentes Locales - Jun 2026

Un hilo de discusión identifica los mejores agentes de IA locales disponibles hoy en día, haciendo hincapié en modelos de peso abierto y ejecución en hardware local. El post define 'agentes' como software autónomo que determina sus propias acciones sin programación previa, distinguiéndolos de herramientas como IFTTT o Accesos directos de Apple, y establece reglas que requieren implementación local y software de agente de código abierto como enfoque principal.

media r/LocalLLaMA · hace 11 d

Ayuda para ejecutar el agente Hermes local con llama-cpp

Un usuario reporta problemas al ejecutar un agente de IA Hermes local en una configuración de alto rendimiento utilizando llama-cpp compilado por sí mismo. La configuración experimenta un reprocesamiento frecuente del caché KV cada 5 mensajes y un razonamiento lento, con el agente pausándose repetidamente para informar el progreso en lugar de continuar de forma autónoma. El usuario busca orientación sobre si los parámetros de su llama-cpp son incorrectos o qué ajustes pueden mejorar el rendimiento del agente y el razonamiento sostenido sin interrupciones.

media r/LocalLLaMA · hace 11 d

Solución al descenso abrupto de decodificación de contexto largo en Radeon R9700 con vLLM 0.22.1

Un descenso abrupto en el rendimiento de decodificación de contexto largo en AMD Radeon AI PRO R9700 (RDNA4) fue resuelto habilitando AITER Unified Attention en vLLM 0.22.1. La corrección implica relajar un gate CDNA para incluir RDNA4, deshabilitar otros backends de atención y usar caché KV bf16, lo que resulta en aceleraciones significativas en todas las longitudes de contexto. FP8 KV es ineficaz en este hardware, y el contexto nativo del modelo de 262K se logra completamente con bf16, ofreciendo ~2.9× concurrencia sin necesidad de FP8.