Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 129

SupraLabs lanza supra-title-FFT-preview con 115K muestras

SupraLabs ha lanzado supra-title-FFT-preview, un modelo de generación de títulos para chat entrenado con 115K muestras de un conjunto de datos filtrado, ampliando la cobertura más allá de su anterior modelo de 12K muestras. El modelo utiliza ajuste fino completo en LiquidAI/LFM2.5-350M-Base con precisión BF16 y está diseñado para la generación única de títulos de chat, disponible a través de Hugging Face y compatible con carga directa o despliegue con vLLM.

media r/LocalLLaMA · hace 11 d

Consumo de energía y advertencia de cable de la RTX 5090 MSI

La RTX 5090 MSI consume entre 475 y 500W durante la inferencia o el entrenamiento por difusión. El usuario informa que no hay problemas con el cable de alimentación, enfatizando que no debe doblarse para garantizar un funcionamiento seguro y estable.

media r/LocalLLaMA · hace 11 d

Álgebra de Atención — una gramática que traduce lenguaje natural a espectrogramas

Álgebra de Atención es un prototipo que traduce lenguaje natural a expresiones algebraicas, las mapea a dinámicas matemáticas y visualiza el resultado como un espectrograma. Trata el lenguaje como una proyección con pérdida de estados de alta dimensión, proponiendo que los patrones de atención crudos agrupados en funciones sirven como el 'ADN' del texto, permitiendo cadenas de razonamiento eficientes al reducir el uso de tokens de 20k a 4k.

github llama.cpp · hace 11 d

LLaMA.cpp lanza b9732: nuevos binarios y actualizaciones

LLaMA.cpp publica la versión b9732 con binarios actualizados para macOS, Linux, Android, Windows y openEuler. La publicación incluye comunicación refactorizada entre hijo y enrutador, correcciones al manejo de despertar, mejoras en update_status() y documentación.

media r/LocalLLaMA · hace 11 d

Hice benchmark de 'C++ rápido' de Claude. No fue más rápido

Un usuario probó la implementación supuestamente 'rápida en C++' de Claude y encontró que no superaba al C++ estándar en los benchmarks. La publicación incluye un enlace a un artículo de Substack que detalla el proceso de prueba y los resultados.

github llama.cpp · hace 11 d

ggml-webgpu añade interruptores de adaptador F16 para Vulkan y NVIDIA

El proyecto ggml-webgpu ha añadido interruptores de adaptador para el soporte de precisión media (F16) en GPUs Vulkan y NVIDIA. Esta actualización permite un mejor rendimiento en hardware compatible a través de múltiples plataformas, incluyendo macOS, Linux, Android, Windows y openEuler, con compilaciones específicas disponibles para las arquitecturas ARM y x64.

media r/LocalLLaMA · hace 11 d

El costo de $1800 en GPU ejecuta Qwen3.6-27B con contexto de 262K y 55 tok/s

Una configuración con cuatro GPUs 5060 Ti (totalizando $1800) logra 55 tokens por segundo con Qwen3.6-27B-FP8, soportando una longitud de contexto de 262K y caché KV bfloat16. La configuración utiliza P2P y FlashInfer, con resultados de benchmark que muestran un rendimiento de salida de 55.67 tokens y una tasa de aceptación de decodificación especulativa del 65.25%.

blog Simon Willison · hace 11 d

Sean Lynch sobre el aislamiento del flujo de autenticación de MCP

Sean Lynch destaca que el Protocolo de Contexto del Modelo (MCP) ofrece una ventaja clave al aislar los flujos de autenticación fuera de la ventana de contexto del agente. Sugiere que la forma ideal de MCP podría ser una puerta de enlace de autenticación simple para APIs, lo cual seguiría representar una mejora significativa.

github llama.cpp · hace 11 d

llama.cpp Release b9731: Optimización de rendimiento y binarios multiplataforma

La versión b9731 de llama.cpp introduce una optimización que utiliza std::partial_sort para reducir la sobrecarga del ordenamiento de tokens, mejorando el rendimiento de 8.555ms a 0.704ms para la selección de top-n tokens. El lanzamiento incluye binarios precompilados para macOS, Linux, Android, Windows y openEuler en múltiples arquitecturas y opciones de aceleración por hardware.

github llama.cpp · hace 11 d

llama.cpp libera b9730: correcciones y nuevos binarios

La versión b9730 de llama.cpp incluye correcciones para el manejo de UTF-8 en Windows y mejoras en ggml_fopen y la CLI. El lanzamiento proporciona binarios para macOS, Linux, Android, Windows y openEuler a través de múltiples arquitecturas y opciones de aceleración de hardware, incluyendo Vulkan, CUDA, OpenVINO y SYCL.

media r/LocalLLaMA · hace 11 d

Mejores Agentes Locales - Jun 2026

Un hilo de discusión identifica los mejores agentes de IA locales disponibles hoy en día, haciendo hincapié en modelos de peso abierto y ejecución en hardware local. El post define 'agentes' como software autónomo que determina sus propias acciones sin programación previa, distinguiéndolos de herramientas como IFTTT o Accesos directos de Apple, y establece reglas que requieren implementación local y software de agente de código abierto como enfoque principal.

github Open Interpreter · hace 11 d

Lanzamiento de Rust 0.0.12

Se ha lanzado la versión 0.0.12 de Rust. Esta versión temprana forma parte de la fase inicial de desarrollo de Rust e incluye características fundamentales para el lenguaje.

github Open Interpreter · hace 11 d

Rust Release 0.0.13

Se ha lanzado la versión 0.0.13 de Rust. Esta versión temprana forma parte de la fase inicial de desarrollo de Rust e incluye características fundamentales del lenguaje.

github Open Interpreter · hace 11 d

Lanzamiento de Rust 0.0.14

Se ha lanzado la versión 0.0.14 de Rust. Esta versión temprana forma parte de la fase inicial de desarrollo de Rust e incluye características fundamentales para el lenguaje.

media r/LocalLLaMA · hace 11 d

Ayuda para ejecutar el agente Hermes local con llama-cpp

Un usuario reporta problemas al ejecutar un agente de IA Hermes local en una configuración de alto rendimiento utilizando llama-cpp compilado por sí mismo. La configuración experimenta un reprocesamiento frecuente del caché KV cada 5 mensajes y un razonamiento lento, con el agente pausándose repetidamente para informar el progreso en lugar de continuar de forma autónoma. El usuario busca orientación sobre si los parámetros de su llama-cpp son incorrectos o qué ajustes pueden mejorar el rendimiento del agente y el razonamiento sostenido sin interrupciones.

media r/LocalLLaMA · hace 11 d

Maximizando el rendimiento de 2x3090 con NVLink

Un usuario reporta lograr solo 60 tokens por segundo en ráfagas cortas y un promedio de 40-45 TPS al ejecutar Qwen 3.6 27B con cuantización Q8_0 en dos GPUs GeForce 3090 conectadas mediante NVLink. La configuración incluye Ubuntu 24.04, Ryzen 7950x3D y 64GB DDR5, con la salida de pantalla dirigida a través de una eGPU.

github llama.cpp · hace 11 d

LLaMA.cpp lanza b9729: nuevos binarios y soporte de plataformas

LLaMA.cpp publica la versión b9729 con binarios para macOS, Linux, Android, Windows y openEuler en múltiples arquitecturas. La publicación incluye soporte para CPU, Vulkan, OpenVINO, SYCL y ROCm, junto con un nuevo paquete de interfaz de usuario. Se han eliminado las referencias internas a 'webui'.

media r/LocalLLaMA · hace 11 d

SupraLabs lanza el modelo de visión y lenguaje SupraVL-Nano-900k

SupraLabs ha lanzado SupraVL-Nano-900k, un modelo de visión y lenguaje con 900k parámetros, completamente transparente, entrenado desde cero en Flickr8k. Cuenta con un codificador visual CNN, un decodificador estilo GPT-2 y fusión por concatenación de prefijos, con todos los componentes documentados abiertamente y diseñados para claridad educativa.

media r/LocalLLaMA · hace 11 d

Cómo configurar los parámetros óptimos de llama.cpp para GPU AMD

Los usuarios que buscan configuraciones óptimas de llama.cpp para modelos gemma 4 en una GPU AMD con 16GB de VRAM preguntan si es necesario el ensayo y error. Hacen referencia a la configuración predeterminada de Google para temperatura, top-p y top-k, pero notan resultados inconsistentes, lo que indica una necesidad de orientación más específica más allá de la documentación oficial.

media r/LocalLLaMA · hace 11 d

Solución al descenso abrupto de decodificación de contexto largo en Radeon R9700 con vLLM 0.22.1

Un descenso abrupto en el rendimiento de decodificación de contexto largo en AMD Radeon AI PRO R9700 (RDNA4) fue resuelto habilitando AITER Unified Attention en vLLM 0.22.1. La corrección implica relajar un gate CDNA para incluir RDNA4, deshabilitar otros backends de atención y usar caché KV bf16, lo que resulta en aceleraciones significativas en todas las longitudes de contexto. FP8 KV es ineficaz en este hardware, y el contexto nativo del modelo de 262K se logra completamente con bf16, ofreciendo ~2.9× concurrencia sin necesidad de FP8.