Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 41

Qwen 27B para planificación, Qwen 35B-A3B para ejecución

Un usuario explora el uso de Qwen 27B para la planificación de tareas a largo plazo y Qwen 35B-A3B para una ejecución rápida, señalando que el modelo de 27B funciona a 7-10 tokens por segundo y el de 35B-A3B a ~18 tokens por segundo. El usuario considera alternar entre modelos para aprovechar sus diferentes fortalezas, aunque actualmente usa exclusivamente el 35B-A3B y cuestiona si la brecha de inteligencia entre los modelos es significativa.

media r/LocalLLaMA · hace 1 h En vivo

Resultados actualizados del benchmark de modelos de visión y recomendaciones

Un benchmark revisado de modelos de lenguaje visual locales evalúa 23 modelos en 30 imágenes con 3 pruebas cada una, totalizando 2.070 pruebas y entre 60 y 70 horas de inferencia. El modelo con mejor rendimiento es Qwen3.6 27B (nothink) en Q4 con una puntuación de 79.6, seguido por Qwen3.5 4B (nothink) en Q4, y Qwen3-VL 8B en Q8. Los hallazgos clave incluyen que el modo de pensamiento degrada el rendimiento visual, los modelos MoE tienen un rendimiento inferior en comparación con los modelos densos, y la cuantización Q8 no mejora universalmente los resultados.

media r/LocalLLaMA · hace 1 h En vivo

Qwen 3.6 27B Apostate lanzado con seguridad eliminada

El modelo Qwen 3.6 27B ha sido modificado usando Apostate para eliminar la alineación de seguridad, reduciendo su tasa de rechazo del 92% al 7.6%. Este cambio tiene un impacto mínimo en las capacidades del modelo, con una divergencia KL de 0.120.

media r/LocalLLaMA · hace 1 h En vivo

Hice un fork de ik_llama.cpp y añadí el modo espejo --numa

Un nuevo fork de ik_llama.cpp añade un modo espejo --numa que duplica los pesos del modelo y la caché KV entre los sockets de CPU, permitiendo una utilización completa de los sistemas multi-socket. Esto reduce las penalizaciones por acceso a memoria remota y mejora el throughput de inferencia hasta 1.6x en los modelos probados, aunque requiere el doble de RAM.

media r/LocalLLaMA · hace 1 h En vivo

Preentrené y postentrené un LLM de 500M parámetros y un generador de imágenes de 330M parámetros desde cero

El autor preentrenó un modelo de lenguaje de 500M parámetros y un generador de imágenes de 330M parámetros desde cero utilizando 40B tokens de fineweb. El generador de imágenes se inspiró en la arquitectura DreamLite de ByteDance y se entrenó con una mezcla de conjuntos de datos de MidJourney, Flux y CCW3.

media r/LocalLLaMA · hace 1 h En vivo

¿Cuál es tu alternativa local a Haiku?

Un usuario busca una alternativa local confiable y rápida a Haiku para resumir contenido técnico como documentación de código y descripciones arquitectónicas. Pide sugerencias sobre herramientas o modelos adecuados en este ámbito.

media r/LocalLLaMA · hace 1 h En vivo

2× Radeon R9700 con Qwen 3.6 27B Q8 MTP en llama.cpp

Un usuario informa ejecutando el modelo Qwen 3.6 27B MTP en dos GPUs Radeon R9700 a través de llama.cpp con ROCm 7.2.1. Las pruebas muestran velocidades de decodificación estables (40–67 t/s) y rendimiento de prefill (hasta 1,500 t/s para prompts menores de 10k tokens), con tasas de aceptación de borrador MTP entre 0.33 y 0.61.

media r/LocalLLaMA · hace 1 h En vivo

Publicación sobre Tokenomics en Reddit de LocalLLaMA

Una publicación titulada 'Tokenomics' fue enviada por /u/HOLUPREDICTIONS en el subreddit de LocalLLaMA. Incluye un diagrama visual de la distribución de tokens y modelo económico, con un enlace a la imagen y sección de comentarios.

media r/LocalLLaMA · hace 1 h En vivo

¿Puedo obtener resultados cercanos a las capacidades de Claude/Codex de forma local?

Un usuario con un sistema de 32GB pregunta si los modelos de peso abierto pueden igualar el contexto de 1M y el rendimiento de codificación de Opus 4.8 en hardware local. Señala que los cuellos de botella actuales son la longitud del contexto y las preocupaciones de privacidad, y cuestiona si modelos de gama alta como GLM 5.2 o Qwen3.7 son viables dentro de un presupuesto de $3.5K, enfatizando que ejecutar modelos de 70-80B ofrece ganancias marginales en el mundo real sobre modelos de 27B con contexto de 256K.

media r/LocalLLaMA · hace 1 h En vivo

Rendimiento de ROCm vs Vulkan vs vLLM en dos R9700

Las pruebas muestran que vLLM alcanza velocidades de generación significativamente mayores en los modelos Qwen3.6, con 35B-A3B alcanzando 156 t/s usando ROCm y AITER. ROCm supera a Vulkan tanto en los modelos de 35B como de 27B, con velocidades de ~106 t/s y ~44 t/s respectivamente, mientras que Vulkan alcanza ~87 t/s y ~41 t/s.

media r/LocalLLaMA · hace 1 h En vivo

Aislamiento de la ejecución de código para agentes de IA

Una discusión sobre métodos efectivos de aislamiento para agentes de IA que ejecutan código arbitrario, evaluando contenedores Docker, microVMs, WASM y ejecución a nivel de host. El artículo destaca los requisitos de aislamiento, inicio rápido, control de acceso de red y soporte de sistema de archivos persistente entre ejecuciones, mientras solicita implementaciones compartidas y compensaciones aceptadas.

media r/LocalLLaMA · hace 1 h En vivo

Ejecutando MiMo-2.5 en dos Halo Strix

Un usuario informa que ejecuta MiMo-2.5 en dos máquinas de 128GB con procesadores Intel 8060, utilizando contenedores Proxmox y USB4Net para conectividad. La configuración logra un rendimiento de 356pp y 15tg a 1% o con una longitud de contexto de 10k, aunque el usuario cuestiona si esto es viable o de nivel élite. También señala dificultades al compilar vLLM y sglang para hardware de consumo, afirmando que vLLM es poco fiable y sglang está diseñado para centros de datos, no para sistemas personales.

media r/LocalLLaMA · hace 1 h En vivo

8-16 MI50s Minimax M3 @19 tps TG (pico)

Un LLM local ejecutado en 8-16 GPUs MI50 alcanza hasta 19 tokens por segundo (TPS) de rendimiento pico para el modelo Minimax M3. El rendimiento está limitado por las salidas de razonamiento largo y la calidad del código, con decodificación especulativa mostrando una tasa de aceptación del 50% y alta latencia, lo que indica desafíos de usabilidad para tareas de codificación agéntica.

media r/LocalLLaMA · hace 1 h En vivo

Bucle infinito de pensamiento en OpenCode con modelo local

Un usuario informa que OpenCode entra en un 'bucle de pensamiento' infinito al usar modelos locales, auto-generando respuestas continuamente sin terminar. El problema ocurre en múltiples modelos y configuraciones, incluyendo Qwen y GPT-OSS, y persiste tanto en entornos llama.cpp como LMStudio, aunque la ventana de chat en LMStudio funciona normalmente.

media r/LocalLLaMA · hace 1 h En vivo

GLM 5.2 alcanza el 98% de inteligencia máxima con menos de la mitad de tokens

GLM 5.2 demuestra el 98% de su inteligencia máxima en tareas de codificación utilizando menos de la mitad de su presupuesto total de tokens, según un informe técnico de z_ai. La eficiencia de razonamiento del modelo ha mejorado significativamente, con un aumento en el uso de tokens de 16.7k a 36.7k entre GLM 5.1 y GLM 5.2, aunque las configuraciones de alto nivel pueden sobrecargar el rendimiento del hardware local.

media r/LocalLLaMA · hace 2 h

Problemas de rendimiento de la GPU R9700 con vLLM y configuración multi-GPU

Un usuario reporta graves problemas de rendimiento con sus dos GPUs AMD R9700, que no logran ejecutar vLLM con paralelismo de tensor (tp=2) debido a errores de NCCL. La inferencia con una sola tarjeta muestra un throughput extremadamente bajo: 30 tps para Qwen 0.6B y solo 5 tps para un modelo INT4 AWQ de 27B, a pesar de la correcta instalación de ROCm y la configuración del sistema.

media r/LocalLLaMA · hace 2 h

Claude pronto requerirá verificación de identidad

Anthropic pronto exigirá a los usuarios verificar su identidad para acceder a Claude. El cambio tiene como objetivo mejorar la seguridad y garantizar el uso responsable de la plataforma.

media r/LocalLLaMA · hace 2 h

Mapeé cada archivo de configuración de agente y etiqueté la adopción real

Una guía enumera 21 convenciones de configuración de agentes en 11 categorías, etiquetadas como adoptadas, emergentes o propuestas. La guía incluye ejemplos reales de repositorios públicos y señala explícitamente el hype, como que llms.txt esté ampliamente publicado pero no confirmado por los principales proveedores.

media r/LocalLLaMA · hace 2 h

Propuesta para dividir modelos base y evitar el reentrenamiento

Una propuesta sugiere dividir la arquitectura del modelo en un modelo base estable y modelos de trabajo ligeros e intercambiables. El modelo base maneja el razonamiento central y actúa como plataforma, mientras que los modelos de trabajo proporcionan conocimiento específico del dominio mediante hot-plugging en tiempo de ejecución, similar a LoRA pero para conocimiento en lugar de comportamiento.

media r/LocalLLaMA · hace 2 h

¿Por qué AutoRound está siendo tan ignorado?

AutoRound supera significativamente a AWQ estándar y RTN en perplexity y precisión, especialmente para razonamiento complejo y contextos largos. Exporta nativamente a GGUF, evitando problemas de conversión, y se ejecuta en cualquier configuración de PyTorch, pero sigue siendo poco utilizado a pesar de estas ventajas.