Todos los artículos — korshunov.ai — noticias de ML

Todos los artículos Página 1 / 129

media r/LocalLLaMA · hace 12 d

SupraLabs lanza el modelo de visión y lenguaje SupraVL-Nano-900k

SupraLabs ha lanzado SupraVL-Nano-900k, un modelo de visión y lenguaje con 900k parámetros, completamente transparente, entrenado desde cero en Flickr8k. Cuenta con un codificador visual CNN, un decodificador estilo GPT-2 y fusión por concatenación de prefijos, con todos los componentes documentados abiertamente y diseñados para claridad educativa.

media r/LocalLLaMA · hace 12 d

Añadir una segunda GPU a la placa base X670E para LLMs locales

Un usuario quiere añadir una segunda GPU de 16 GB de VRAM (5060 Ti o 5070 Ti) a su placa base MSI X670E Tomahawk WiFi para ejecutar grandes LLMs locales como Qwen 3.6 27B. La configuración actual carece de espacio para una segunda GPU debido a que la 5070 Ti principal ocupa la segunda ranura PCIe, dejando solo la tercera ranura parcialmente disponible. El usuario busca consejos sobre opciones viables, como usar la cuarta ranura PCIe o un adaptador (riser), considerando refrigeración, estabilidad y ajuste físico, especialmente con un montaje horizontal de GPU como el Lian Li VG4v4.

media r/LocalLLaMA · hace 12 d

Mejor arnés para búsqueda web

Los usuarios informan que herramientas como LM Studio y Odysseus están limitadas por los límites de solicitudes del motor de búsqueda, a menudo 10 por día o hora, sin acceso a la API. Sugieren crear cuentas de la API de DuckDuckGo para obtener un mejor acceso a las búsquedas, pero señalan que los frontends rara vez solicitan esto. La publicación pregunta si Hermes o Pi ofrecen soluciones mejoradas.

media r/LocalLLaMA · hace 12 d

¿Qué es más impresionante, GLM 5.1 a 5.2 o Qwen 3.5 a 3.6?

Una publicación de Reddit compara las mejoras de rendimiento de GLM 5.1 a 5.2 y Qwen 3.5 a 3.6. La publicación señala que mencionar 'Döner' activa los pesos específicos para alemán de GLM 5.2, mientras que Qwen 3.6 se evalúa con 35B parámetros utilizando cuantización Unsloth Q8 K XL a través de llama.cpp.

media Interconnects · hace 12 d

Prohibir la IA de código abierto sería un error

El artículo argumenta que prohibir la IA de código abierto sería un grave error, ya que es segura, protege la seguridad y impulsa la innovación, la educación y la competencia. El código abierto ha impulsado durante mucho tiempo el progreso tecnológico y sirve como un contrapeso vital frente a los modelos de IA monopolísticos, garantizando un acceso más amplio y una innovación democrática sin comprometer la seguridad ni la protección.

media r/LocalLLaMA · hace 12 d

¿Es mi CPU y RAM demasiado débil para LLMs locales?

Un usuario informa que su CPU y RAM están alcanzando el 100% durante prompts de prueba simples, mientras que la GPU está subutilizada. Cuestiona si su GPU RTX 3050 de 8GB puede ejecutar Quen3.5:9b localmente, señalando que en teoría debería ser factible.

github llama.cpp · hace 12 d

llama.cpp lanza b9724 con correcciones de errores y binarios multiplataforma

La versión b9724 de llama.cpp incluye varias correcciones de errores y mejoras, como arreglos en la compilación, evitación de desbordamientos en la función area() y una comprobación de integridad en get_u32().

media r/LocalLLaMA · hace 12 d

Observando cómo un asistente de voz local con IA se vuelve menos inteligente

Una prueba en una RTX 5060 Ti mostró que reducir el tamaño del modelo de un asistente de voz local con IA de 9B a 0.8B provoca un descenso pronunciado en la capacidad. El modelo de 9B maneja bien la orquestación de herramientas, mientras que los modelos más pequeños muestran fallos crecientes: el modelo de 4B omite las llamadas a herramientas y adivina hechos, el modelo de 2B sufre deriva semántica, y el modelo de 0.8B falla en operar funciones de agente, activando APIs incorrectas o bucles infinitos.

media r/LocalLLaMA · hace 12 d

GLM-5.2 es el nuevo modelo de pesos abiertos líder en el Índice de Inteligencia de Artificial Analysis

GLM-5.2 ha sido designado como el modelo de pesos abiertos líder en el Índice de Inteligencia de Artificial Analysis. Este reconocimiento refleja su rendimiento y capacidades dentro del panorama de modelos de IA de código abierto.

media r/LocalLLaMA · hace 12 d

El Eagle3 ha aterrizado para Qwen

El modelo de decodificación especulativa Eagle3 ya está disponible en la última versión de llama.cpp mediante --spec-type draft-eagle3. Requiere un modelo borrador, como Ex0bit-Qwen3.6-27B-PRISM-EAGLE3-GGUF, y puede usarse con -md o --model-draft. El rendimiento es comparable al de draft-mtp, aunque no se admite paralelismo de tensor y el uso de VRAM es mayor.

media r/LocalLLaMA · hace 12 d

Nuevo Benchmark Agéntico Publicado

Artificial Analysis ha presentado un nuevo benchmark agéntico que evalúa la capacidad de los modelos de lenguaje grandes para planificar y ejecutar tareas. Claude Fable y GLM 5.2 lograron las primeras posiciones dentro de sus respectivos grupos, demostrando un fuerte rendimiento en este benchmark no saturado.

github llama.cpp · hace 12 d

llama.cpp release b9723 añade soporte para Qwen3.5 y Qwen3.6 Eagle3

La versión b9723 de llama.cpp introduce soporte para los modelos Qwen3.5 y Qwen3.6 a través de Eagle3. La liberación incluye restauración diferida de puntos de control de frontera para modelos híbridos y actualizaciones en las convenciones de API y nomenclatura. Las compilaciones binarias están disponibles para las plataformas macOS, Linux, Android, Windows y openEuler, con opciones para CPU, Vulkan, OpenVINO, SYCL y ROCm.

media r/LocalLLaMA · hace 12 d

Especificación: Soporte para Eagle3 en Qwen3.5 y 3.6 por ruixiang63

Una solicitud de extracción añade soporte para el modelo Eagle3 en Qwen3.5 y Qwen3.6 dentro de llama.cpp. El cambio es propuesto por ruixiang63 y enviado al repositorio ggml-org/llama.cpp.

media r/LocalLLaMA · hace 12 d

¿Alguien ha usado VibeThinker-3B fuera de los benchmarks?

Un usuario de Reddit pregunta sobre el rendimiento en el mundo real de VibeThinker-3B más allá de las puntuaciones de benchmark, centrándose en la depuración, programación, razonamiento, latencia y usabilidad. El modelo está disponible en Hugging Face y se describe en un artículo en arXiv.

github llama.cpp · hace 12 d

LLaMA.cpp Release b9722: Correcciones y Binarios Multiplataforma

La versión b9722 de LLaMA.cpp corrige un problema con el valor n_discard no validado en el manejo del contexto del servidor. El lanzamiento incluye binarios precompilados para macOS, Linux, Android, Windows y openEuler, compatibles con diversas arquitecturas y marcos de aceleración como Vulkan, CUDA, OpenVINO y SYCL.

media r/LocalLLaMA · hace 12 d

¿Alguien aquí usa dos RTX 5090?

Un usuario pregunta si alguien ha construido recientemente una configuración con dos RTX 5090, señalando que su sistema actual con dos RTX 3090 funciona bien para el desarrollo de software. Menciona que actualizar a dos RTX 5090 es costoso y considera que los enchufes de su dormitorio podrían ser una limitación.

media r/LocalLLaMA · hace 12 d

Se reporta censura en LLMs locales en Reddit

Los usuarios informan que los modelos de lenguaje locales están negándose a responder preguntas sin guardrails, lo que genera preocupaciones sobre la censura en configuraciones de IA descentralizadas. El tema fue compartido en la comunidad LocalLLaMA de Reddit, donde los usuarios describen instancias de modelos que bloquean respuestas a consultas legítimas.

media r/LocalLLaMA · hace 12 d

Flujos de trabajo de agentes de múltiples documentos en Word

Una publicación de blog detalla cómo implementar flujos de trabajo de agentes de múltiples documentos en Microsoft Word utilizando LLMs locales. La guía describe los pasos para habilitar que los agentes procesen e interactúen con múltiples documentos dentro de un único entorno de Word.

media r/LocalLLaMA · hace 12 d

El meme debe continuar

Una publicación de Reddit titulada 'The meme must go on' comparte una imagen de un meme relacionado con los modelos LLaMA locales. La publicación fue realizada por el usuario /u/ego100trique e incluye un enlace a la imagen y a la sección de comentarios.

media r/LocalLLaMA · hace 12 d

EvoTensile: Ajuste evolutivo de núcleos GEMM de AMD Tensile

EvoTensile utiliza algoritmos evolutivos para ajustar núcleos GEMM para GPUs AMD, mejorando el rendimiento del layout NT de 20 a 40 TFLOPS en Strix Halo. Esta aceleración representa un avance significativo respecto a los núcleos no optimizados, aunque sigue por debajo de la línea de techo teórica de 59.4 TFLOPS.