Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 60

Lanzamiento de llama.cpp b9816: Sincronización con ggml y nuevos binarios

El proyecto llama.cpp ha lanzado la versión b9816, que incluye una sincronización con la biblioteca ggml. Esta actualización proporciona binarios precompilados para las plataformas macOS, iOS, Linux, Windows, Android y openEuler.

github llama.cpp · hace 20 h

Lanzamiento llama.cpp b9817: actualización de OpenVINO 2026.2.1 y mejoras en operadores

El lanzamiento llama.cpp b9817 actualiza el backend de OpenVINO a la versión 2026.2.1 y hace que sus paquetes de lanzamiento sean autocontenidos. Esta actualización incluye varias mejoras en los operadores dentro del backend de OpenVINO, como la eliminación de conjos compute_op_type codificados y la habilitación de softmax con entrada sink.

github llama.cpp · hace 22 h

la versión b9813 de llama.cpp añade soporte Vulkan para Intel Xe-LPG Plus

La versión b9813 de llama.cpp introduce soporte Vulkan para hardware Intel Xe-LPG Plus mediante la adición del enumerado de arquitectura INTEL_XE1 y la habilitación de coopmat1. Esta actualización aborda comentarios de código previos, renombra el identificador de arquitectura e incluye una verificación del controlador en Windows.

github llama.cpp · hace 22 h

Lanzamiento b9814 de llama.cpp con optimización de Vulkan para mi50

El proyecto llama.cpp ha lanzado la versión b9814, que incluye una optimización para la operación `mul_mat_vecq` en Vulkan dirigida específicamente a la GPU AMD mi50. Esta actualización viene acompañada de un conjunto completo de binarios precompilados para múltiples sistemas operativos y arquitecturas de hardware.

media r/LocalLLaMA · hace 22 h

Deja de usar Ollama

Una publicación de blog y una publicación en Reddit instan a los usuarios a dejar de usar Ollama, citando preocupaciones sobre seguridad, privacidad y los riesgos de ejecutar modelos de lenguaje grandes localmente. El autor argumenta que las soluciones alternativas ofrecen un mejor control y seguridad para los usuarios.

media r/LocalLLaMA · hace 22 h

El fundador de Hashicorp afirma que los modelos locales aún no son lo suficientemente buenos

Mitchell Hashimoto, fundador de Hashicorp, afirma que los modelos de lenguaje locales aún no son lo suficientemente buenos. Un usuario de Reddit discrepa de esta afirmación, señalando que durante más de un año, muchas personas han utilizado con éxito modelos locales para programación, y solo los 'vibecoders' han enfrentado desafíos.

media r/LocalLLaMA · hace 22 h

Benchmark para LLMs pequeños en búsqueda de archivos con lenguaje natural

Un benchmark evalúa LLMs pequeños (0.3B–3B parámetros) en la conversión de consultas en lenguaje natural a JSON estructurado, centrándose en el tipo de archivo, contexto temporal, especificidad y consultas combinadas. Los resultados muestran que los modelos con 0.8B–1.5B parámetros superan a los de menos de 0.5B, con el proyecto teniendo como objetivo ampliar el conjunto de pruebas y explorar el ajuste fino para mejorar el rendimiento.

media r/LocalLLaMA · hace 22 h

Hilo de construcción comunitaria de modelos: el entrenamiento colaborativo es viable

Un modelo comunitario puede construirse mediante computación crowdsourced utilizando un enfoque 'Branch-Train-Stitch'. Los participantes entrenan un modelo prototipo en su hardware, envían submodelos de dominio estrecho y los organizadores los ensamblan en un gran modelo Mixture-of-Experts (MoE), con decisiones clave que incluyen el tamaño del prototipo, las definiciones de alcance y los protocolos de entrenamiento.

media r/LocalLLaMA · hace 22 h

GLM-5.2 supera el 80% en Terminal-Bench

GLM-5.2 es el primer modelo de pesos abiertos que alcanza una precisión del 80% en Terminal-Bench y supera a todos los demás modelos disponibles de código abierto. También supera a Gemini, posicionándolo como un modelo de vanguardia a un costo significativamente menor.

media r/LocalLLaMA · hace 22 h

GLM-5.2 ocupa el segundo lugar en la Arena de WebDew

GLM-5.2 ha asegurado la segunda posición en la evaluación de benchmarking de la Arena de WebDew. El resultado refleja su sólido desempeño en tareas de comprensión y generación del lenguaje natural en comparación con otros modelos.

media r/LocalLLaMA · hace 22 h

GLM-5.2 ya disponible en HuggingChat

El modelo GLM-5.2 ya es accesible en HuggingChat. Los usuarios pueden acceder a él a través del enlace de HuggingFace proporcionado, lo que permite la interacción directa con el modelo a través de la plataforma.

media r/LocalLLaMA · hace 23 h

Glimmer 1: un modelo de lenguaje fundamental de 10.000 parámetros

Glimmer 1 es un modelo de lenguaje de 10.000 parámetros entrenado con 500K tokens de FineWeb-Edu. Cuenta con una ventana de contexto de 512 tokens, una arquitectura Llama estándar con 16 dimensiones ocultas, 2 capas, 4 cabezales de atención y 1 cabezal KV utilizando GQA, y está disponible en Hugging Face.

media Hugging Face Forums · hace 23 h

¿Cómo se evalúa un LLM antes de implementarlo en producción?

Este hilo de discusión de Hugging Face aborda los métodos y consideraciones para probar Modelos de Lenguaje Grande y garantizar que sean adecuados para aplicaciones del mundo real.

media Hugging Face Forums · hace 23 h

Un usuario informa que el artículo está indexado pero ausente en los Artículos del Día

Un usuario en el foro de Hugging Face informa que su artículo de arXiv, "Agent-as-a-Router: Agentic Model Routing for Coding Tasks", fue indexado y reclamado con éxito, pero nunca apareció en la página principal de Daily Papers. A pesar de recibir votos positivos de la comunidad y vincular un conjunto de datos correspondiente, el artículo no ha sido destacado después de varios días.

media r/LocalLLaMA · hace 23 h

Mistral anuncia una nueva familia de modelos de peso abierto en julio

Mistral ha lanzado una nueva familia de modelos de lenguaje de peso abierto en julio. Los modelos están diseñados para ser accesibles y utilizables por desarrolladores e investigadores de todo el mundo, promoviendo la transparencia y la innovación en IA.

media r/LocalLLaMA · hace 23 h

zai-org lanza GLM-5.2

zai-org ha lanzado GLM-5.2, un nuevo modelo de lenguaje grande. El modelo está disponible en Hugging Face y forma parte de las discusiones de la comunidad LocalLLaMA.

media r/LocalLLaMA · hace 23 h

bartowski/command-a-plus-05-2026-GGUF en Hugging Face

Un modelo GGUF llamado command-a-plus-05-2026 está disponible en Hugging Face. Se anima a los usuarios a probarlo con la última versión de llama.cpp y compartir las métricas de rendimiento y comentarios.

media r/LocalLLaMA · hace 23 h

¿Alguien está ejecutando Qwen 3.6 27b UD Q8 en múltiples GPUs?

Un usuario pregunta si alguien ha logrado ejecutar Qwen 3.6 27b UD Q8 en múltiples GPUs, señalando problemas con llamacpp y vllm. El modelo se bloquea o se congela durante las solicitudes de múltiples turnos, con llamacpp mostrando errores de CUDA y vllm fallando a mitad del turno, a pesar de funcionar bien con la cuantización Q5.

blog Simon Willison · hace 23 h

Georgi Gerganov elogia a Qwen3.6-27B para tareas de programación

Georgi Gerganov confirma que Qwen3.6-27B es altamente capaz para tareas de programación, señalando su uso diario en hardware local como M2 Ultra y RTX 5090. Describe el uso de un agente pi mínimo con un prompt de sistema breve para alinearlo con su flujo de trabajo, destacando su utilidad para mantener proyectos de código abierto.

media r/LocalLLaMA · hace 23 h

Mejor modelo y configuración para MacBook Pro M5 Max de 128 GB de RAM y 8 TB

El mejor modelo para ejecutar en un MacBook Pro M5 Max con 128 GB de RAM y 8 TB es LocalLLaMA, optimizado para inferencia local con mínima sobrecarga de memoria. Las configuraciones deben priorizar modelos más pequeños como LLaMA-3-8B o LLaMA-3-7B con cuantización para garantizar un rendimiento eficiente dentro de la memoria disponible.