Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 76

El selector de compilaciones GPU offline estima el ajuste y la velocidad del modelo local

Un desarrollador ha lanzado una herramienta HTML offline de un solo archivo que estima qué modelos de lenguaje grandes locales se ajustarán a una configuración de GPU específica y predice su velocidad de generación de tokens. La herramienta está diseñada para responder a la pregunta común sobre si una compilación personalizada de PC puede ejecutar los modelos deseados de manera efectiva, sin requerir un backend ni cuenta de usuario.

media r/LocalLLaMA · hace 6 h

Usuario de Reddit solicita actualizaciones sobre frameworks de uso de navegador por agentes y capacidades de modelos locales

Un usuario de Reddit consulta sobre el estado actual de los frameworks de uso de navegador por agentes, preguntando específicamente si se han realizado mejoras para manejar flujos de trabajo largos en comparación con experiencias anteriores.

media r/LocalLLaMA · hace 6 h

Usuario busca consejos para ejecutar LLMs locales en hardware de bajas especificaciones

Un usuario de Reddit está pidiendo recomendaciones para ejecutar pequeños modelos de lenguaje locales y potencialmente tareas agénticas como Hermes en un MacBook Pro antiguo con recursos limitados.

media r/LocalLLaMA · hace 6 h

SpectralQuant Qwen3.5 0.8B Q4_K_M recupera el 96,5 % de la brecha de BF16

Spectral Labs ha publicado una candidata a lanzamiento para una cuantización Q4_K_M consciente de la calibración del modelo Qwen3.5 0.8B, utilizando un nuevo método llamado SpectralQuant. Este enfoque busca que las huellas estándar de Q4_K_M se comporten más como formatos de cuantización mayores mientras mantiene la compatibilidad con llama.cpp.

media Ahead of AI · hace 7 h

Configuración de un agente de codificación local con herramientas de código abierto

Este artículo proporciona un tutorial sobre la configuración de una pila de agentes de codificación completamente local y lista para producción, utilizando herramientas de código abierto y modelos de lenguaje grandes de pesos abiertos. Detalla cómo combinar un LLM servido localmente con un entorno de codificación capaz de leer archivos, realizar ediciones, ejecutar comandos y verificar cambios.

media r/LocalLLaMA · hace 7 h

Cabeza de difusión Orthrus entrenada en modelos Qwen 3.5/3.6 y Gemma 4 que se lanzarán pronto

El proyecto Orthrus está preparando el lanzamiento del soporte para los modelos Qwen 3.5, Qwen 3.6 y Gemma 4 utilizando un enfoque de cabeza de difusión. El equipo ha finalizado las pruebas y actualmente está configurando la canalización de lanzamiento.

media r/LocalLLaMA · hace 7 h

Un usuario de Reddit detecta un nuevo modo de visión en la aplicación de DeepSeek

Un usuario de Reddit observó un nuevo modo de visión dentro de la aplicación de DeepSeek, lo que generó especulaciones sobre el lanzamiento inminente de un modelo de visión. El usuario aclaró que la función no es una herramienta de OCR, ya que describió con éxito imágenes que no contenían texto.

media r/LocalLLaMA · hace 7 h

Informes de RTX 5090 con 96GB VRAM en Huaqiangbei de Shenzhen

Los visitantes del mercado electrónico Huaqiangbei de Shenzhen han encontrado informes y ofertas potenciales de tarjetas gráficas Nvidia RTX 5090 modificadas equipadas con 96 gigabytes de RAM de video. Un vendedor indicó que una RTX 6000 Blackwell modificada costaría aproximadamente $8,200, compuestos por 36,000 yuanes por la tarjeta base y 20,000 yuanes adicionales por la actualización de memoria.

media r/LocalLLaMA · hace 7 h

Usuario pide mejores modelos de codificación para un solo DGX Spark

Un usuario de Reddit con un único DGX Spark que cuenta con 128 GB de memoria unificada busca recomendaciones para mejorar los modelos de codificación; actualmente utiliza StepFun step-3.7-flash y variantes de Qwen 3.6.

media r/LocalLLaMA · hace 7 h

Discusión en Reddit sobre el rendimiento del ajuste fino de Qwen

Un usuario de Reddit observa que, aunque el ajuste fino de los modelos Qwen es una práctica popular, hay una notable falta de comentarios positivos sobre su rendimiento. El usuario cuestiona si algún ajuste fino de Qwen ha superado genuinamente las capacidades del modelo base.

media r/LocalLLaMA · hace 7 h

Modelo y artículo DeepSeek-V4-Pro-DSpark publicados

DeepSeek ha publicado el modelo DeepSeek-V4-Pro-DSpark en Hugging Face, junto con su artículo técnico asociado.

media r/LocalLLaMA · hace 7 h

Ajuste fino del LFM2.5-230M de LiquidAI con trazas de codificación de Fable-5

Un usuario ha realizado un ajuste fino del modelo LFM2.5-230M de LiquidAI con las trazas de codificación de Fable-5 y lo ha publicado como un archivo GGUF para uso local.

media r/LocalLLaMA · hace 7 h

PR #20793 de llama.cpp: reintroducción de menos sincronizaciones durante el cálculo dividido

La solicitud de extracción #20793 reintroduce una reducción en la sincronización durante las operaciones de cálculo dividido en llama.cpp, dirigida principalmente a mejoras de rendimiento en CUDA. Los cambios implican intercambiar copias sincrónicas por copias asíncronas y relajar los requisitos de sincronización entre las copias de entrada en backends compatibles.

github llama.cpp · hace 7 h

Lanzamiento b9828 de llama.cpp: mejoras en Flash Attention para OpenCL y nuevos binarios

El lanzamiento b9828 de llama.cpp introduce mejoras significativas en OpenCL, específicamente reestructurando los kernels de Flash Attention para precisión f16 y f32. Esta actualización incluye nuevos kernels de prefill prepass y soporte para formatos de cuantización q4_0 y q8_0.

media r/LocalLLaMA · hace 8 h

El usuario pregunta cuándo llegará el soporte combinado de DeepSeek V4 Flash y MiniMax M3 a llama.cpp

Un usuario de Reddit solicita una línea de tiempo estimada para la fusión oficial del soporte de los modelos DeepSeek V4 Flash y MiniMax M3 en el repositorio principal de llama.cpp.

media r/LocalLLaMA · hace 8 h

STT que puede desafiar a Dragon Professional en Windows

Un usuario de Reddit busca soluciones locales de habla a texto basadas en LLM para Windows que puedan rivalizar con Dragon Professional, específicamente en cuanto a la capacidad de editar texto pegado y cargar palabras durante la grabación.

media r/LocalLLaMA · hace 8 h

Ornith-1.0-35B Q3_K_M: ~17 GB VRAM, verificado con KLD frente a BF16

El autor cuantificó el modelo deepreinforce-ai/Ornith-1.0-35B al formato Q3_K_M, reduciendo su tamaño a aproximadamente 17 GB de VRAM mientras mantenía la validez conductual mediante comprobaciones de divergencia KL.

media r/LocalLLaMA · hace 8 h

ContextForge: SDK local para memoria a largo plazo que realmente se mantiene en ejecuciones prolongadas

ContextForge es un nuevo SDK diseñado para proporcionar un contexto efectivamente ilimitado para LLMs sin sobrecargar la ventana de prompt. Aborda el problema común de los sistemas de memoria a largo plazo que fallan durante ejecuciones extendidas al tratar la ventana de contexto como un conjunto de trabajo dinámico en lugar de almacenamiento permanente.

media r/LocalLLaMA · hace 8 h

Solución de problemas de P2P en bifurcación 4x5060 Ti

Un ingeniero de sistemas en la nube informa que usar una sola tarjeta PCIe x16 con bifurcación 4x4 para conectar cuatro GPUs crea un cuello de botella de ancho de banda para la comunicación peer-to-peer (P2P). Este cuello de botella satura el tejido que conecta las tarjetas, dando como resultado un rendimiento peor que ejecutar con P2P deshabilitado.

media r/LocalLLaMA · hace 8 h

Usuario pregunta sobre la destilación de modelos para demostración de teoremas con agentes

Un usuario en r/LocalLLaMA está considerando autoalojar modelos para demostración de teoremas con agentes con el fin de reducir costos, ya que tiene financiación de hardware pero no créditos de LLM. Propone destilar capacidades de un modelo más grande en uno más pequeño adecuado para casos de uso específicos como Rocq, señalando la falta de modelos existentes para este lenguaje específico.