Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 79

Lanzamiento b9828 de llama.cpp: mejoras en Flash Attention para OpenCL y nuevos binarios

El lanzamiento b9828 de llama.cpp introduce mejoras significativas en OpenCL, específicamente reestructurando los kernels de Flash Attention para precisión f16 y f32. Esta actualización incluye nuevos kernels de prefill prepass y soporte para formatos de cuantización q4_0 y q8_0.

media r/LocalLLaMA · hace 9 h

El usuario pregunta cuándo llegará el soporte combinado de DeepSeek V4 Flash y MiniMax M3 a llama.cpp

Un usuario de Reddit solicita una línea de tiempo estimada para la fusión oficial del soporte de los modelos DeepSeek V4 Flash y MiniMax M3 en el repositorio principal de llama.cpp.

media r/LocalLLaMA · hace 9 h

STT que puede desafiar a Dragon Professional en Windows

Un usuario de Reddit busca soluciones locales de habla a texto basadas en LLM para Windows que puedan rivalizar con Dragon Professional, específicamente en cuanto a la capacidad de editar texto pegado y cargar palabras durante la grabación.

media r/LocalLLaMA · hace 9 h

Ornith-1.0-35B Q3_K_M: ~17 GB VRAM, verificado con KLD frente a BF16

El autor cuantificó el modelo deepreinforce-ai/Ornith-1.0-35B al formato Q3_K_M, reduciendo su tamaño a aproximadamente 17 GB de VRAM mientras mantenía la validez conductual mediante comprobaciones de divergencia KL.

media r/LocalLLaMA · hace 9 h

ContextForge: SDK local para memoria a largo plazo que realmente se mantiene en ejecuciones prolongadas

ContextForge es un nuevo SDK diseñado para proporcionar un contexto efectivamente ilimitado para LLMs sin sobrecargar la ventana de prompt. Aborda el problema común de los sistemas de memoria a largo plazo que fallan durante ejecuciones extendidas al tratar la ventana de contexto como un conjunto de trabajo dinámico en lugar de almacenamiento permanente.

media r/LocalLLaMA · hace 9 h

Solución de problemas de P2P en bifurcación 4x5060 Ti

Un ingeniero de sistemas en la nube informa que usar una sola tarjeta PCIe x16 con bifurcación 4x4 para conectar cuatro GPUs crea un cuello de botella de ancho de banda para la comunicación peer-to-peer (P2P). Este cuello de botella satura el tejido que conecta las tarjetas, dando como resultado un rendimiento peor que ejecutar con P2P deshabilitado.

media r/LocalLLaMA · hace 9 h

Usuario pregunta sobre la destilación de modelos para demostración de teoremas con agentes

Un usuario en r/LocalLLaMA está considerando autoalojar modelos para demostración de teoremas con agentes con el fin de reducir costos, ya que tiene financiación de hardware pero no créditos de LLM. Propone destilar capacidades de un modelo más grande en uno más pequeño adecuado para casos de uso específicos como Rocq, señalando la falta de modelos existentes para este lenguaje específico.

blog Simon Willison · hace 9 h

Dean W. Ball sobre la dinámica de la industria de IA y los mercados globales

Dean W. Ball destaca dinámicas críticas de la industria donde los altos costos de entrenamiento de modelos de vanguardia se recuperan únicamente durante una estrecha ventana posterior al lanzamiento antes de que la competencia comprima los márgenes.

media r/LocalLLaMA · hace 9 h

Un usuario compra un Minisforum MS-S1 Max usado para cargas de trabajo de LLM locales

Un usuario comparte su decisión de comprar un Minisforum MS-S1 Max ligeramente usado con 128GB de memoria por aproximadamente US$2800, citando el aumento de costos del hardware de Apple y los servicios de modelos cerrados como principales motivadores. El autor compara esta compra favorablemente frente al nuevo Geekom A9 Mega, destacando las ventajas específicas del MS-S1, incluyendo red 10Gbe, USB4v2 de 80Gbps, una ranura PCIe y una fuente de alimentación interna.

media r/LocalLLaMA · hace 9 h

Mejoras de Kokoro porteadas para proyectos web y Python

El autor ha lanzado versiones web y de Python de las mejoras en los controles de voz de Kokoro, diseñadas para ser fácilmente porteadas a otros proyectos. Ambas implementaciones son completamente del lado del cliente, con la versión web logrando aproximadamente 40ms por generación cuando la aceleración por hardware está habilitada mediante WebGPU.

media r/LocalLLaMA · hace 9 h

Nemotron-3-Super-120B-A12B logra recuperación perfecta de agujas hasta 504K tokens en 4×3090

Un usuario probó el modelo Nemotron-3-Super-120B-A12B de NVIDIA, que combina arquitecturas híbridas Mamba y MoE, logrando recuperación exacta en pruebas de aguja en un pajar hasta 504.482 tokens. El modelo se ejecutó completamente en GPU a través de cuatro RTX 3090 usando la cuantización i1-Q4_K_S, demostrando que sus capas Mamba mantienen un estado recurrente de tamaño constante en lugar de una KV cache en crecimiento.

media r/LocalLLaMA · hace 10 h

Pruebas de Qwen3.6-35B-A3B en RTX 3060 para extracción de recibos a JSON

Un usuario reemplazó Google Vision en una canalización de procesamiento de recibos con el modelo local Qwen3.6-35B-A3B ejecutándose en una GPU RTX 3060. El experimento demostró que la configuración local podía analizar correctamente los campos clave de recibos japoneses en formato JSON.

blog Simon Willison · hace 10 h

Timothy B. Lee sobre los LLM y las curvas de aprendizaje

Timothy B. Lee critica la noción de que el uso de modelos de lenguaje grandes no requiere habilidad ni curva de aprendizaje.

media r/LocalLLaMA · hace 10 h

Configuración para la versión beta diaria de llama.cpp con Vulkan en 7900xtx/ubuntu

Un usuario comparte un script de configuración bash para ejecutar el modelo Qwen3.6-35B-A3B IQ4_XS utilizando el backend de Vulkan en llama.cpp en una GPU AMD 7900 XTX con Ubuntu.

media r/LocalLLaMA · hace 10 h

Actualicé mi configuración económica a multi-GPU para inferencia

Un usuario actualizó una PC económica con dos RTX 3090 y una Intel Arc A770 para probar el rendimiento de inferencia multi-GPU usando llama.cpp. El hallazgo principal es que el backend de Vulkan causa una sobrecarga excesiva de memoria en comparación con CUDA, lo que lo hace inadecuado para configuraciones de proveedores mixtos.

media r/LocalLLaMA · hace 10 h

vulkan: hacer viable la TP por pwilkin · Pull Request #25051

Un pull request enviado al repositorio ggml-org/llama.cpp tiene como objetivo mejorar la viabilidad del Tensor Parallelism de Vulkan. El contribuidor, identificado como Piotr, ha implementado cambios destinados a hacer esta función más utilizable.

media r/LocalLLaMA · hace 10 h

Desarrollador construye un entorno de trabajo LLM local-first y busca retroalimentación de la comunidad

Un desarrollador con 45 años de experiencia en software está completando un entorno de trabajo local-first para ejecutar modelos locales y de API, con lógica alrededor de múltiples agentes. El autor ha pasado seis meses construyendo herramientas para mejorar el flujo de trabajo de LLM local y ahora le pide a la comunidad qué características mejorarían su experiencia.

media r/LocalLLaMA · hace 10 h

¿Por qué la gente sigue invirtiendo en Intel para IA?

El artículo cuestiona la justificación detrás de la clasificación de Wall Street de Intel como una inversión de "picks and shovels" de IA, preguntando quién está realmente comprando hardware de Intel para centros de datos de IA.

media r/LocalLLaMA · hace 11 h

Usuario de Reddit busca consejo sobre backends multi-modelo e intercambio de configuración

Un usuario de Reddit está planeando desplegar una máquina con múltiples GPUs para servir modelos de codificación y Hermes, buscando soluciones que permitan un intercambio flexible de configuración sin intervención manual.

media r/LocalLLaMA · hace 11 h

Considera el post-entrenamiento en lugar de la evaluación para nuevo hardware

El autor argumenta que la adquisición de nuevo hardware debería utilizarse para el ajuste fino supervisado (SFT) y el ajuste fino por refuerzo (RFT) en lugar de la evaluación estándar de modelos. Este enfoque ofrece una vía viable de monetización al aprovechar modelos de código abierto, especialmente a medida que las APIs propietarias se vuelven menos accesibles o más costosas.