Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 129

OpenAI lanza controles de gasto y análisis de uso para ChatGPT Enterprise

OpenAI ha introducido nuevos controles de gasto y análisis de uso para ChatGPT Enterprise. Estas características ayudan a las empresas a gestionar los costos y tomar decisiones informadas a medida que escalan el uso de IA.

media r/LocalLLaMA · hace 10 d

2× Radeon R9700 con Qwen 3.6 27B Q8 MTP en llama.cpp

Un usuario informa ejecutando el modelo Qwen 3.6 27B MTP en dos GPUs Radeon R9700 a través de llama.cpp con ROCm 7.2.1. Las pruebas muestran velocidades de decodificación estables (40–67 t/s) y rendimiento de prefill (hasta 1,500 t/s para prompts menores de 10k tokens), con tasas de aceptación de borrador MTP entre 0.33 y 0.61.

media r/LocalLLaMA · hace 10 d

Publicación sobre Tokenomics en Reddit de LocalLLaMA

Una publicación titulada 'Tokenomics' fue enviada por /u/HOLUPREDICTIONS en el subreddit de LocalLLaMA. Incluye un diagrama visual de la distribución de tokens y modelo económico, con un enlace a la imagen y sección de comentarios.

media r/LocalLLaMA · hace 10 d

¿Puedo obtener resultados cercanos a las capacidades de Claude/Codex de forma local?

Un usuario con un sistema de 32GB pregunta si los modelos de peso abierto pueden igualar el contexto de 1M y el rendimiento de codificación de Opus 4.8 en hardware local. Señala que los cuellos de botella actuales son la longitud del contexto y las preocupaciones de privacidad, y cuestiona si modelos de gama alta como GLM 5.2 o Qwen3.7 son viables dentro de un presupuesto de $3.5K, enfatizando que ejecutar modelos de 70-80B ofrece ganancias marginales en el mundo real sobre modelos de 27B con contexto de 256K.

media r/LocalLLaMA · hace 10 d

Rendimiento de ROCm vs Vulkan vs vLLM en dos R9700

Las pruebas muestran que vLLM alcanza velocidades de generación significativamente mayores en los modelos Qwen3.6, con 35B-A3B alcanzando 156 t/s usando ROCm y AITER. ROCm supera a Vulkan tanto en los modelos de 35B como de 27B, con velocidades de ~106 t/s y ~44 t/s respectivamente, mientras que Vulkan alcanza ~87 t/s y ~41 t/s.

github llama.cpp · hace 10 d

llama.cpp versión b9747 añade seguimiento en tiempo real de la carga del modelo y nuevos binarios para plataformas

llama.cpp versión b9747 introduce el seguimiento en tiempo real del progreso de carga del modelo a través de puntos finales SSE. El lanzamiento incluye binarios para macOS, Linux, Android, Windows y openEuler, compatibles con varias arquitecturas y tecnologías de aceleración como Vulkan, CUDA, OpenVINO y SYCL.

media r/LocalLLaMA · hace 10 d

Aislamiento de la ejecución de código para agentes de IA

Una discusión sobre métodos efectivos de aislamiento para agentes de IA que ejecutan código arbitrario, evaluando contenedores Docker, microVMs, WASM y ejecución a nivel de host. El artículo destaca los requisitos de aislamiento, inicio rápido, control de acceso de red y soporte de sistema de archivos persistente entre ejecuciones, mientras solicita implementaciones compartidas y compensaciones aceptadas.

github llama.cpp · hace 10 d

llama.cpp versión b9745 añade soporte para MTP3 y binarios multiplataforma

La versión b9745 de llama.cpp introduce soporte para MTP3 flash Step3.5/3.7, incluyendo nuevas APIs para los indicadores de desplazamiento de capa y nextn. El lanzamiento proporciona binarios precompilados para macOS, Linux, Android, Windows y openEuler, con opciones de aceleración para CPU, Vulkan, CUDA, OpenVINO y SYCL.

media r/LocalLLaMA · hace 10 d

Ejecutando MiMo-2.5 en dos Halo Strix

Un usuario informa que ejecuta MiMo-2.5 en dos máquinas de 128GB con procesadores Intel 8060, utilizando contenedores Proxmox y USB4Net para conectividad. La configuración logra un rendimiento de 356pp y 15tg a 1% o con una longitud de contexto de 10k, aunque el usuario cuestiona si esto es viable o de nivel élite. También señala dificultades al compilar vLLM y sglang para hardware de consumo, afirmando que vLLM es poco fiable y sglang está diseñado para centros de datos, no para sistemas personales.

media r/LocalLLaMA · hace 10 d

8-16 MI50s Minimax M3 @19 tps TG (pico)

Un LLM local ejecutado en 8-16 GPUs MI50 alcanza hasta 19 tokens por segundo (TPS) de rendimiento pico para el modelo Minimax M3. El rendimiento está limitado por las salidas de razonamiento largo y la calidad del código, con decodificación especulativa mostrando una tasa de aceptación del 50% y alta latencia, lo que indica desafíos de usabilidad para tareas de codificación agéntica.

media r/LocalLLaMA · hace 10 d

Bucle infinito de pensamiento en OpenCode con modelo local

Un usuario informa que OpenCode entra en un 'bucle de pensamiento' infinito al usar modelos locales, auto-generando respuestas continuamente sin terminar. El problema ocurre en múltiples modelos y configuraciones, incluyendo Qwen y GPT-OSS, y persiste tanto en entornos llama.cpp como LMStudio, aunque la ventana de chat en LMStudio funciona normalmente.

media r/LocalLLaMA · hace 10 d

Claude pronto requerirá verificación de identidad

Anthropic pronto exigirá a los usuarios verificar su identidad para acceder a Claude. El cambio tiene como objetivo mejorar la seguridad y garantizar el uso responsable de la plataforma.

media r/LocalLLaMA · hace 10 d

Problemas de rendimiento de la GPU R9700 con vLLM y configuración multi-GPU

Un usuario reporta graves problemas de rendimiento con sus dos GPUs AMD R9700, que no logran ejecutar vLLM con paralelismo de tensor (tp=2) debido a errores de NCCL. La inferencia con una sola tarjeta muestra un throughput extremadamente bajo: 30 tps para Qwen 0.6B y solo 5 tps para un modelo INT4 AWQ de 27B, a pesar de la correcta instalación de ROCm y la configuración del sistema.

media r/LocalLLaMA · hace 10 d

¿Por qué AutoRound está siendo tan ignorado?

AutoRound supera significativamente a AWQ estándar y RTN en perplexity y precisión, especialmente para razonamiento complejo y contextos largos. Exporta nativamente a GGUF, evitando problemas de conversión, y se ejecuta en cualquier configuración de PyTorch, pero sigue siendo poco utilizado a pesar de estas ventajas.

media r/LocalLLaMA · hace 10 d

Mapeé cada archivo de configuración de agente y etiqueté la adopción real

Una guía enumera 21 convenciones de configuración de agentes en 11 categorías, etiquetadas como adoptadas, emergentes o propuestas. La guía incluye ejemplos reales de repositorios públicos y señala explícitamente el hype, como que llms.txt esté ampliamente publicado pero no confirmado por los principales proveedores.

media r/LocalLLaMA · hace 10 d

Propuesta para dividir modelos base y evitar el reentrenamiento

Una propuesta sugiere dividir la arquitectura del modelo en un modelo base estable y modelos de trabajo ligeros e intercambiables. El modelo base maneja el razonamiento central y actúa como plataforma, mientras que los modelos de trabajo proporcionan conocimiento específico del dominio mediante hot-plugging en tiempo de ejecución, similar a LoRA pero para conocimiento en lugar de comportamiento.

media r/LocalLLaMA · hace 10 d

Observa cómo los LLM locales escapan de las habitaciones que diseñas

Una nueva herramienta permite a los usuarios diseñar entornos estilo sala de escape y observar cómo los LLM locales navegan y escapan utilizando acciones simples. El proyecto, creado para el hackathon 'Build Small' de Hugging Face x Gradio, admite cinco configuraciones preestablecidas de modelos y permite la creación de mapas personalizados con visuales basados en fuentes e importación/exportación JSON. Utiliza un marco 'Pensar luego Actuar' para permitir que los modelos pequeños funcionen de manera confiable en entornos de juegos estructurados.

media r/LocalLLaMA · hace 10 d

GLM-5.2 supera a Gemini y GPT-5.4 en programación, pero es ineficiente

GLM-5.2 supera a GPT-5.4 y a toda la línea de Gemini en rendimiento de codificación en el benchmark DeepSWE. Sin embargo, requiere significativamente más tokens de salida, lo que lo hace sustancialmente menos eficiente en términos de costo por tarea en comparación con modelos como GPT-5.5 y Claude Opus 4.8.

media r/LocalLLaMA · hace 10 d

Gemma 4 QAT responde mejor a la cuantización de la caché KV

Un post en Reddit informa que Gemma 4 QAT muestra una mejora significativa en el rendimiento al utilizar la cuantización de la caché KV, según lo medido en el conjunto de datos wikitext con un contexto de 16k. El usuario señala que sus límites de hardware limitan las pruebas a modelos de 31B e invita a otros a explorar los resultados.

media r/LocalLLaMA · hace 10 d

Fable vs GLM 5.2 vs KIMI K2.7 (Video de YouTube)

Un video de YouTube compara el rendimiento de Fable, GLM 5.2 y KIMI K2.7. El video se comparte en Reddit's r/LocalLLaMA e incluye un enlace al video y comentarios relacionados.