Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 104

Configuración de un agente de codificación local con herramientas de código abierto

Este artículo proporciona un tutorial sobre la configuración de una pila de agentes de codificación completamente local y lista para producción, utilizando herramientas de código abierto y modelos de lenguaje grandes de pesos abiertos. Detalla cómo combinar un LLM servido localmente con un entorno de codificación capaz de leer archivos, realizar ediciones, ejecutar comandos y verificar cambios.

media r/LocalLLaMA · hace 19 h

Cabeza de difusión Orthrus entrenada en modelos Qwen 3.5/3.6 y Gemma 4 que se lanzarán pronto

El proyecto Orthrus está preparando el lanzamiento del soporte para los modelos Qwen 3.5, Qwen 3.6 y Gemma 4 utilizando un enfoque de cabeza de difusión. El equipo ha finalizado las pruebas y actualmente está configurando la canalización de lanzamiento.

media r/LocalLLaMA · hace 19 h

Un usuario de Reddit detecta un nuevo modo de visión en la aplicación de DeepSeek

Un usuario de Reddit observó un nuevo modo de visión dentro de la aplicación de DeepSeek, lo que generó especulaciones sobre el lanzamiento inminente de un modelo de visión. El usuario aclaró que la función no es una herramienta de OCR, ya que describió con éxito imágenes que no contenían texto.

media r/LocalLLaMA · hace 19 h

Informes de RTX 5090 con 96GB VRAM en Huaqiangbei de Shenzhen

Los visitantes del mercado electrónico Huaqiangbei de Shenzhen han encontrado informes y ofertas potenciales de tarjetas gráficas Nvidia RTX 5090 modificadas equipadas con 96 gigabytes de RAM de video. Un vendedor indicó que una RTX 6000 Blackwell modificada costaría aproximadamente $8,200, compuestos por 36,000 yuanes por la tarjeta base y 20,000 yuanes adicionales por la actualización de memoria.

media r/LocalLLaMA · hace 19 h

Usuario pide mejores modelos de codificación para un solo DGX Spark

Un usuario de Reddit con un único DGX Spark que cuenta con 128 GB de memoria unificada busca recomendaciones para mejorar los modelos de codificación; actualmente utiliza StepFun step-3.7-flash y variantes de Qwen 3.6.

media r/LocalLLaMA · hace 19 h

Discusión en Reddit sobre el rendimiento del ajuste fino de Qwen

Un usuario de Reddit observa que, aunque el ajuste fino de los modelos Qwen es una práctica popular, hay una notable falta de comentarios positivos sobre su rendimiento. El usuario cuestiona si algún ajuste fino de Qwen ha superado genuinamente las capacidades del modelo base.

media r/LocalLLaMA · hace 19 h

Modelo y artículo DeepSeek-V4-Pro-DSpark publicados

DeepSeek ha publicado el modelo DeepSeek-V4-Pro-DSpark en Hugging Face, junto con su artículo técnico asociado.

media r/LocalLLaMA · hace 19 h

Ajuste fino del LFM2.5-230M de LiquidAI con trazas de codificación de Fable-5

Un usuario ha realizado un ajuste fino del modelo LFM2.5-230M de LiquidAI con las trazas de codificación de Fable-5 y lo ha publicado como un archivo GGUF para uso local.

media r/LocalLLaMA · hace 19 h

PR #20793 de llama.cpp: reintroducción de menos sincronizaciones durante el cálculo dividido

La solicitud de extracción #20793 reintroduce una reducción en la sincronización durante las operaciones de cálculo dividido en llama.cpp, dirigida principalmente a mejoras de rendimiento en CUDA. Los cambios implican intercambiar copias sincrónicas por copias asíncronas y relajar los requisitos de sincronización entre las copias de entrada en backends compatibles.

github llama.cpp · hace 19 h

Lanzamiento b9828 de llama.cpp: mejoras en Flash Attention para OpenCL y nuevos binarios

El lanzamiento b9828 de llama.cpp introduce mejoras significativas en OpenCL, específicamente reestructurando los kernels de Flash Attention para precisión f16 y f32. Esta actualización incluye nuevos kernels de prefill prepass y soporte para formatos de cuantización q4_0 y q8_0.

media r/LocalLLaMA · hace 20 h

El usuario pregunta cuándo llegará el soporte combinado de DeepSeek V4 Flash y MiniMax M3 a llama.cpp

Un usuario de Reddit solicita una línea de tiempo estimada para la fusión oficial del soporte de los modelos DeepSeek V4 Flash y MiniMax M3 en el repositorio principal de llama.cpp.

media r/LocalLLaMA · hace 20 h

STT que puede desafiar a Dragon Professional en Windows

Un usuario de Reddit busca soluciones locales de habla a texto basadas en LLM para Windows que puedan rivalizar con Dragon Professional, específicamente en cuanto a la capacidad de editar texto pegado y cargar palabras durante la grabación.

media r/LocalLLaMA · hace 20 h

Ornith-1.0-35B Q3_K_M: ~17 GB VRAM, verificado con KLD frente a BF16

El autor cuantificó el modelo deepreinforce-ai/Ornith-1.0-35B al formato Q3_K_M, reduciendo su tamaño a aproximadamente 17 GB de VRAM mientras mantenía la validez conductual mediante comprobaciones de divergencia KL.

media r/LocalLLaMA · hace 20 h

ContextForge: SDK local para memoria a largo plazo que realmente se mantiene en ejecuciones prolongadas

ContextForge es un nuevo SDK diseñado para proporcionar un contexto efectivamente ilimitado para LLMs sin sobrecargar la ventana de prompt. Aborda el problema común de los sistemas de memoria a largo plazo que fallan durante ejecuciones extendidas al tratar la ventana de contexto como un conjunto de trabajo dinámico en lugar de almacenamiento permanente.

media r/LocalLLaMA · hace 20 h

Solución de problemas de P2P en bifurcación 4x5060 Ti

Un ingeniero de sistemas en la nube informa que usar una sola tarjeta PCIe x16 con bifurcación 4x4 para conectar cuatro GPUs crea un cuello de botella de ancho de banda para la comunicación peer-to-peer (P2P). Este cuello de botella satura el tejido que conecta las tarjetas, dando como resultado un rendimiento peor que ejecutar con P2P deshabilitado.

media r/LocalLLaMA · hace 20 h

Usuario pregunta sobre la destilación de modelos para demostración de teoremas con agentes

Un usuario en r/LocalLLaMA está considerando autoalojar modelos para demostración de teoremas con agentes con el fin de reducir costos, ya que tiene financiación de hardware pero no créditos de LLM. Propone destilar capacidades de un modelo más grande en uno más pequeño adecuado para casos de uso específicos como Rocq, señalando la falta de modelos existentes para este lenguaje específico.

blog Simon Willison · hace 20 h

Dean W. Ball sobre la dinámica de la industria de IA y los mercados globales

Dean W. Ball destaca dinámicas críticas de la industria donde los altos costos de entrenamiento de modelos de vanguardia se recuperan únicamente durante una estrecha ventana posterior al lanzamiento antes de que la competencia comprima los márgenes.

media r/LocalLLaMA · hace 20 h

Un usuario compra un Minisforum MS-S1 Max usado para cargas de trabajo de LLM locales

Un usuario comparte su decisión de comprar un Minisforum MS-S1 Max ligeramente usado con 128GB de memoria por aproximadamente US$2800, citando el aumento de costos del hardware de Apple y los servicios de modelos cerrados como principales motivadores. El autor compara esta compra favorablemente frente al nuevo Geekom A9 Mega, destacando las ventajas específicas del MS-S1, incluyendo red 10Gbe, USB4v2 de 80Gbps, una ranura PCIe y una fuente de alimentación interna.

media r/LocalLLaMA · hace 20 h

Mejoras de Kokoro porteadas para proyectos web y Python

El autor ha lanzado versiones web y de Python de las mejoras en los controles de voz de Kokoro, diseñadas para ser fácilmente porteadas a otros proyectos. Ambas implementaciones son completamente del lado del cliente, con la versión web logrando aproximadamente 40ms por generación cuando la aceleración por hardware está habilitada mediante WebGPU.

media r/LocalLLaMA · hace 20 h

Nemotron-3-Super-120B-A12B logra recuperación perfecta de agujas hasta 504K tokens en 4×3090

Un usuario probó el modelo Nemotron-3-Super-120B-A12B de NVIDIA, que combina arquitecturas híbridas Mamba y MoE, logrando recuperación exacta en pruebas de aguja en un pajar hasta 504.482 tokens. El modelo se ejecutó completamente en GPU a través de cuatro RTX 3090 usando la cuantización i1-Q4_K_S, demostrando que sus capas Mamba mantienen un estado recurrente de tamaño constante en lugar de una KV cache en crecimiento.