Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 61

GLM 5.2 corre a 12t/s en hardware dual RTX 5090

Un usuario probó la versión cuantizada de unsloth de GLM 5.2 en una estación de trabajo de consumo de gama alta que cuenta con dos GPUs RTX 5090 y un procesador Zen5 Threadripper Pro. El sistema utilizaba 512GB de RAM DDR5 ECC y estaba configurado con banderas de compilación específicas de llama.cpp para habilitar optimizaciones CUDA y manejo de memoria unificada. Los pesos del modelo se cargaron desde la cuantización UD-Q5_K_S, que totalizó aproximadamente 492GB a través de múltiples archivos GGUF. Las pruebas de rendimiento implicaron ejecutar llama-server con un tamaño de contexto de 32768 tokens y parámetros de subprocesamiento específicos para aislamiento NUMA. Los resultados del benchmark mostraron consistentemente una velocidad de inferencia de 12 tokens por segundo durante interacciones de chat sin flujos de trabajo agénticos. Experimentos adicionales revelaron que omitir ciertas banderas de optimización, como flash attention o configuraciones NUMA, produjo cambios insignificantes en el rendimiento.

media r/LocalLLaMA · hace 5 h

Construyendo un REPL de Agente LLM basado en Bash con dependencias mínimas

Un desarrollador creó un bucle REPL de agente personalizado utilizando exclusivamente bloques de construcción estándar de la línea de comandos para minimizar las dependencias. El sistema se basa en tuberías, flujos de texto y registros solo de anexión, alineándose estrechamente con la filosofía clásica de Unix. Este enfoque permite la inyección flexible de herramientas para inspeccionar, filtrar, redirigir y auditar varias etapas del bucle del agente. Las características clave incluyen un backend plug-and-play acotado a una única herramienta de línea de comandos, garantizando la portabilidad entre diferentes proveedores de modelos. La memoria y el contexto del agente se almacenan en un archivo de historial solo de anexión, lo que permite una fácil introspección, modificación y rebobinado. Aunque se probó con un backend de Ollama, el diseño admite cualquier interfaz REST compatible con la API de OpenAI. El código fuente de este proyecto está disponible en GitHub bajo el nombre de repositorio llayer.

media r/LocalLLaMA · hace 5 h

Ornith-1.0 lanzado en Hugging Face con múltiples tamaños de modelo

DeepReinforce AI ha lanzado Ornith-1.0 en Hugging Face, que presenta una diversa gama de arquitecturas y tamaños de modelos. La colección incluye modelos densos de 9B y 31B junto con variantes de mezcla de expertos (MoE) de 35B y 397B. Las declaraciones del lanzamiento afirman un rendimiento de vanguardia en varios benchmarks, aunque la validez de estos resultados está por verse. Los usuarios pueden acceder a la colección completa a través del enlace oficial de Hugging Face proporcionado por los desarrolladores. Este lanzamiento amplía las opciones disponibles para la inferencia y el ajuste fino de modelos de lenguaje grandes.

media r/LocalLLaMA · hace 5 h

OpenAI y Broadcom anuncian el chip de inferencia Jalapeño

OpenAI ha anunciado una colaboración con Broadcom para desarrollar un chip de inferencia personalizado llamado Jalapeño. Este nuevo hardware está diseñado específicamente para acelerar el despliegue de modelos de lenguaje grandes. La asociación tiene como objetivo reducir la dependencia de aceleradores de terceros para las cargas de trabajo de inferencia de OpenAI. Al integrar silicio personalizado, OpenAI busca optimizar el rendimiento y la eficiencia para sus aplicaciones de IA. El anuncio destaca un movimiento estratégico hacia la integración vertical en la infraestructura de IA. No se proporcionaron detalles sobre especificaciones técnicas específicas o cronogramas de lanzamiento en el informe inicial.

media r/LocalLLaMA · hace 5 h

Consulta en Reddit: ¿Son los sistemas de memoria de terceros mejores que la memoria_wiki integrada de Openclaw?

Un usuario de Reddit pregunta si los sistemas de memoria de terceros ofrecen ventajas sobre el plugin memory_wiki integrado en Openclaw. El autor migró desde un repositorio de Obsidian a memory_wiki para reducir la complejidad de las herramientas y se cuestiona si los sistemas externos siguen siendo relevantes. Utiliza IA para investigación, desarrollo de software y gestión de computadoras locales, utilizando principalmente el modelo minimax-m3-nvfp4 en Linux. El usuario busca soluciones de memoria autoalojadas y completamente de código abierto que sean independientes del framework (harness-agnostic) para garantizar longevidad más allá de plataformas específicas como Openclaw o Hermes. Solicita sugerencias y casos de uso que justifiquen los compromisos de adoptar arquitecturas de memoria externas en lugar del plugin nativo.

media r/LocalLLaMA · hace 5 h

Apple aumenta los precios en toda su línea de productos, duplicando el costo de las actualizaciones de memoria

Apple ha aumentado los precios en toda su gama de productos desde esta mañana. Según un informe de Reuters, el costo de las actualizaciones de memoria para estos dispositivos se ha duplicado. El aumento de precios afecta a varios artículos, incluidos MacBooks y iPads. Algunos minoristas como Best Buy aún no han actualizado sus listados con los nuevos precios. Se aconseja a los consumidores realizar pedidos rápidamente antes de que los precios se ajusten en otras tiendas. Este desarrollo genera preocupaciones sobre la viabilidad futura de la IA local en el hardware de Apple.

media r/LocalLLaMA · hace 5 h

Usuarios reportan fuerte rendimiento del modelo siq1 en Kebab Bench

Un usuario de Reddit ha compartido resultados que indican que su modelo, denominado siq1, tiene un rendimiento muy bueno en la evaluación de Kebab Bench. La publicación destaca las capacidades del modelo a través de una demostración alojada en Hugging Face Spaces. Específicamente, el usuario señala un espacio titulado 'hermes-agent-zerogpu' creado por AlexWortega como evidencia de este rendimiento. Esta presentación fue realizada por el usuario de Reddit /u/Mysterious_Hearing14 dentro de la comunidad r/LocalLLaMA. La publicación original incluye un enlace a la interfaz de Hugging Face donde se puede probar el modelo. Además, hay una demostración en video disponible a través de un enlace V.redd.it proporcionado para mayor verificación.

media r/LocalLLaMA · hace 5 h

Consulta sobre la disponibilidad de modelos modernos no orientados a completado de chat

Un usuario del subreddit LocalLLaMA cuestionó si todos los modelos de lenguaje grandes modernos están exclusivamente ajustados para interacciones de chat. La consulta buscaba específicamente identificar cualquier modelo que admita completado de texto sin formato en lugar de formatos conversacionales. El autor señaló una dificultad para encontrar dichos modelos dentro del repositorio de Hugging Face. Esto destaca una brecha percibida en la disponibilidad de arquitecturas no orientadas a chat para usuarios que requieren capacidades de completado en bruto. La discusión refleja preocupaciones más amplias sobre el cambio de la industria hacia diseños de modelos ajustados por instrucciones y orientados al chat.

media r/LocalLLaMA · hace 5 h

El muestreador de retroceso y verificador mejoran drásticamente el rendimiento de codificación de modelos pequeños

Un nuevo muestreador de retroceso combinado con un modelo verificador mejora significativamente el rendimiento de codificación de modelos pequeños de 0.5B parámetros, potencialmente haciéndolos competitivos con modelos de la clase mayor de 2-4B sin cambios en los pesos. El enfoque aborda teóricamente los problemas de alucinación en modelos grandes corrigiendo errores durante la generación mediante remuestreo. Sin embargo, este método incurre en una penalización de velocidad de decodificación del 5-30% debido a la necesidad de pasadas hacia atrás y requiere entrenar un modelo verificador de tamaño similar al original. Este requisito duplica el uso de VRAM y aumenta las demandas de cómputo entre 1.5 y 3 veces en comparación con la inferencia estándar. A pesar de estos costos, el verificador se generaliza a través de modelos de clases de peso iguales o inferiores si se entrena con distribuciones de datos diversas. Entrenar el verificador es altamente eficiente, requiriendo solo aproximadamente el 0.01% del tamaño de tokens utilizado para el preentrenamiento completo.

media r/LocalLLaMA · hace 5 h

NVIDIA lanza Nemotron-TwoTower-30B-A3B, un modelo de lenguaje basado en difusión

NVIDIA ha lanzado el modelo Nemotron-TwoTower-30B-A3B-Base-BF16, que se basa en la arquitectura principal Nemotron 3 Nano 30B-A3B. Esta arquitectura difiere de los modelos autoregresivos estándar al utilizar una torre de contexto congelada junto con una torre de denoising por difusión. El sistema llena iterativamente bloques de tokens en paralelo en lugar de generarlos estrictamente uno a la vez. Según NVIDIA, esta configuración predeterminada de máscara-difusión conserva el 98.7% de la calidad agregada de las pruebas de referencia encontrada en la línea base autoregresiva. A pesar de mantener una alta calidad, el modelo logra 2.42 veces su rendimiento de generación en tiempo real. El lanzamiento destaca un enfoque novedoso para el modelado de lenguaje que combina técnicas de difusión con capacidades de lenguaje a gran escala.

media r/LocalLLaMA · hace 5 h

Implementación experimental de RDMA sobre USB4 demostrada en Strix Halo

Una entrada de blog de Hellas.ai detalla una implementación experimental de Acceso Directo a Memoria Remota (RDMA) a través de Thunderbolt. La demostración se realizó utilizando dos dispositivos equipados con procesadores AMD Strix Halo. Este enfoque permite capacidades de transferencia de datos de alta velocidad mediante el estándar USB4. El autor señala que esta tecnología podría ser significativa porque es compatible con cualquier host que admita USB4. El presentador no encontró discusión pública previa sobre esta implementación específica. El trabajo destaca el potencial de aprovechar las interfaces de hardware existentes para tareas de redes avanzadas.

media r/LocalLLaMA · hace 5 h

GLM 5.2 en Dual Strix Halo (256GB): ¿Vale la pena?

Un usuario de Reddit llamado Intrepid_Rub_3566 ha compartido una reseña en video que evalúa el rendimiento de GLM 5.2 ejecutándose en una configuración dual AMD Strix Halo con 256GB de RAM. La discusión se centra en si esta configuración específica de hardware proporciona suficiente valor para la inferencia de modelos de lenguaje grandes locales. El contenido destaca la viabilidad técnica de desplegar GLM 5.2 en dicho entorno, enfocándose en la utilización de recursos y velocidad. Los espectadores son dirigidos a un enlace de YouTube para obtener benchmarks detallados y métricas de rendimiento. La discusión también incluye comentarios de la comunidad sobre la practicidad y rentabilidad de este enfoque con doble GPU.

media r/LocalLLaMA · hace 5 h

Consulta de Reddit sobre el uso de modelos locales para auto-hacking

Un usuario del subreddit r/LocalLLaMA preguntó si alguien ha intentado obtener acceso root a su propio sistema utilizando un modelo de lenguaje grande local. Esta consulta fue motivada por discusiones recientes sobre la supuesta capacidad de Mythos de hackear sistemas del gobierno de EE. UU. La publicación busca experiencias prácticas de la comunidad sobre la viabilidad de tales acciones. Se centra específicamente en la aplicación de modelos locales para pruebas de penetración no autorizadas o acceso sin permiso. La pregunta destaca las preocupaciones sobre las implicaciones de seguridad de herramientas potentes de IA en manos de individuos.

media r/LocalLLaMA · hace 5 h

Usuarios reportan calidad y eficiencia inferiores con modelos MTP en Qwen 3.6 y Gemma 4

Un usuario que prueba los modelos autoalojados Qwen 3.6 27B y Gemma 4 en cuatro tarjetas RTX 5070 Ti informa que la Predicción Multi-Tokens (MTP) degrada la calidad de salida en comparación con las variantes no-MTP. En tareas de revisión de código, el modelo no-MTP produjo hallazgos más detallados con sugerencias de corrección mientras consumía menos tokens que su contraparte MTP. Las métricas de rendimiento mostraron que la configuración no-MTP logró aproximadamente 2000 tokens de procesamiento de prompts por segundo y una velocidad de generación de 50-60 tokens. Por el contrario, la configuración MTP arrojó velocidades de generación más altas de 100-120 tg/s pero tasas de procesamiento de prompts más bajas alrededor de 1300 pp/s. A pesar del mayor rendimiento de generación, los tiempos de finalización de tareas de agentes en el mundo real fueron solo aproximadamente un 20% más rápidos con MTP debido al mayor consumo de contexto. El usuario utilizó llama.cpp con archivos GGUF específicos de Unsloth y notó experiencias negativas similares al probar Gemma 4.

media Hugging Face Forums · hace 5 h

La lista de verificación que obligas a la IA a detenerse

Este artículo sostiene que los agentes de IA suelen ejecutar acciones basándose en instrucciones incompletas al adivinar información faltante, un problema denominado "fallo de confirmación pre-ejecución". Propone una estructura aplicada en tiempo de ejecución que requiere verificar lo conocido y lo desconocido antes de tomar cualquier acción.

github CrewAI · hace 5 h

Notas de la versión 1.15.1 de crewAI

La actualización de crewAI versión 1.15.1 introduce nuevas características para la inicialización y el despliegue de proyectos, junto con varias correcciones de errores y mejoras en la documentación.

github llama.cpp · hace 5 h

Lanzamiento b9822 de llama.cpp con binarios para macOS, Linux y Windows

El proyecto llama.cpp ha publicado la versión b9822, proporcionando binarios precompilados para macOS, iOS, Linux, Android y Windows. Esta actualización incluye una corrección para la opción --no-common de test-chat-template y distribuye compilaciones en varias arquitecturas de hardware y aceleradores.

media r/LocalLLaMA · hace 6 h

Desarrollador solicita pruebas para soporte de MTP en GLM-4.7-Flash mediante llama.cpp

Un desarrollador busca asistencia de la comunidad para probar el soporte de Predicción Multi-Tokens (MTP) para el modelo GLM-4.7-Flash dentro del marco de trabajo llama.cpp. El autor reconoce que modelos anteriores como GLM Air y GLM Flash están desactualizados, pero expresa un interés personal en habilitar MTP para ellos. La solicitud se dirige específicamente a usuarios que poseen el hardware necesario para ejecutar GLM-4.7-Flash y tienen la capacidad técnica de compilar llama.cpp desde el código fuente. Se pide a los participantes que evalúen la funcionalidad del modelo GGUF proporcionado e informen cualquier problema encontrado. Además, se solicita a los probadores medir y compartir las ganancias de velocidad de rendimiento logradas mediante la implementación de MTP. El desarrollador ha cargado el modelo de prueba en un repositorio de Hugging Face para acceso inmediato. Los usuarios que requieran opciones de cuantización más pequeñas están invitados a contactar al autor directamente para obtener versiones alternativas.

media r/LocalLLaMA · hace 6 h

Pregunta sobre por qué las pilas de ROCm e Intel van detrás de CUDA en la madurez del ecosistema de software

El autor cuestiona por qué los ecosistemas de software para ROCm de AMD e Intel han fallado al mejorar rápidamente para igualar a CUDA de NVIDIA. Se argumenta que hasta que el software de los proveedores competidores se ponga al día, NVIDIA continuará cobrando una prima masiva por sus productos convenientes. El autor se identifica como usuario tanto de hardware NVIDIA como de Apple Silicon para desarrollo de IA. Expresa un deseo de precios más asequibles dentro del mercado. El argumento sugiere que las reducciones de precio solo ocurrirán cuando exista competencia genuina. Esta perspectiva destaca la dominancia actual de CUDA en el panorama del hardware de IA.

media r/LocalLLaMA · hace 6 h

Debate comunitario sobre ejecutar DeepSeek V4 Flash con descarga de MoE

Un usuario de Reddit preguntó sobre la viabilidad de ejecutar el modelo DeepSeek V4 Flash utilizando técnicas de descarga de Mezcla de Expertos. El autor señaló que los intentos anteriores para ajustar el modelo deseado y su caché KV en VRAM requerían un margen adicional de memoria de 5-10 GB. Destacó varios recursos comunitarios, incluida una versión GGUF del modelo disponible en Hugging Face del equipo huihui-ai. Además, el usuario señaló una bifurcación del repositorio de antirez que introduce paralelismo de tensor y mejoras de socket para un mejor rendimiento. El debate también hizo referencia a la implementación específica de Fringe diseñada para el soporte CUDA de DeepSeek V4 Flash. En consecuencia, el usuario consideró compilar el modelo y descargar el archivo de casi 100 GB para probar estas capacidades de descarga.