Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 130

llama.cpp lanza la versión b9672 con actualización de BoringSSL

llama.cpp ha lanzado la versión b9672, actualizando BoringSSL a 0.20260616.0. El lanzamiento incluye binarios para macOS, Linux, Android, Windows y openEuler en múltiples arquitecturas y opciones de aceleración por hardware, incluyendo Vulkan, CUDA, ROCm, OpenVINO y SYCL.

media r/LocalLLaMA · hace 15 d

Benchmark para LLMs pequeños en búsqueda de archivos con lenguaje natural

Un benchmark evalúa LLMs pequeños (0.3B–3B parámetros) en la conversión de consultas en lenguaje natural a JSON estructurado, centrándose en el tipo de archivo, contexto temporal, especificidad y consultas combinadas. Los resultados muestran que los modelos con 0.8B–1.5B parámetros superan a los de menos de 0.5B, con el proyecto teniendo como objetivo ampliar el conjunto de pruebas y explorar el ajuste fino para mejorar el rendimiento.

media r/LocalLLaMA · hace 15 d

Hilo de construcción comunitaria de modelos: el entrenamiento colaborativo es viable

Un modelo comunitario puede construirse mediante computación crowdsourced utilizando un enfoque 'Branch-Train-Stitch'. Los participantes entrenan un modelo prototipo en su hardware, envían submodelos de dominio estrecho y los organizadores los ensamblan en un gran modelo Mixture-of-Experts (MoE), con decisiones clave que incluyen el tamaño del prototipo, las definiciones de alcance y los protocolos de entrenamiento.

media r/LocalLLaMA · hace 15 d

GLM-5.2 supera el 80% en Terminal-Bench

GLM-5.2 es el primer modelo de pesos abiertos que alcanza una precisión del 80% en Terminal-Bench y supera a todos los demás modelos disponibles de código abierto. También supera a Gemini, posicionándolo como un modelo de vanguardia a un costo significativamente menor.

github Goose (Block) · hace 15 d

Rama de lanzamiento creada para v1.38.0

Se ha creado una rama de lanzamiento para la versión 1.38.0. Esto marca el inicio del proceso de lanzamiento de la actualización.

media r/LocalLLaMA · hace 15 d

GLM-5.2 ocupa el segundo lugar en la Arena de WebDew

GLM-5.2 ha asegurado la segunda posición en la evaluación de benchmarking de la Arena de WebDew. El resultado refleja su sólido desempeño en tareas de comprensión y generación del lenguaje natural en comparación con otros modelos.

media r/LocalLLaMA · hace 15 d

GLM-5.2 ya disponible en HuggingChat

El modelo GLM-5.2 ya es accesible en HuggingChat. Los usuarios pueden acceder a él a través del enlace de HuggingFace proporcionado, lo que permite la interacción directa con el modelo a través de la plataforma.

media r/LocalLLaMA · hace 15 d

Glimmer 1: un modelo de lenguaje fundamental de 10.000 parámetros

Glimmer 1 es un modelo de lenguaje de 10.000 parámetros entrenado con 500K tokens de FineWeb-Edu. Cuenta con una ventana de contexto de 512 tokens, una arquitectura Llama estándar con 16 dimensiones ocultas, 2 capas, 4 cabezales de atención y 1 cabezal KV utilizando GQA, y está disponible en Hugging Face.

media r/LocalLLaMA · hace 15 d

Mistral anuncia una nueva familia de modelos de peso abierto en julio

Mistral ha lanzado una nueva familia de modelos de lenguaje de peso abierto en julio. Los modelos están diseñados para ser accesibles y utilizables por desarrolladores e investigadores de todo el mundo, promoviendo la transparencia y la innovación en IA.

media r/LocalLLaMA · hace 15 d

zai-org lanza GLM-5.2

zai-org ha lanzado GLM-5.2, un nuevo modelo de lenguaje grande. El modelo está disponible en Hugging Face y forma parte de las discusiones de la comunidad LocalLLaMA.

media r/LocalLLaMA · hace 15 d

bartowski/command-a-plus-05-2026-GGUF en Hugging Face

Un modelo GGUF llamado command-a-plus-05-2026 está disponible en Hugging Face. Se anima a los usuarios a probarlo con la última versión de llama.cpp y compartir las métricas de rendimiento y comentarios.

media r/LocalLLaMA · hace 16 d

¿Alguien está ejecutando Qwen 3.6 27b UD Q8 en múltiples GPUs?

Un usuario pregunta si alguien ha logrado ejecutar Qwen 3.6 27b UD Q8 en múltiples GPUs, señalando problemas con llamacpp y vllm. El modelo se bloquea o se congela durante las solicitudes de múltiples turnos, con llamacpp mostrando errores de CUDA y vllm fallando a mitad del turno, a pesar de funcionar bien con la cuantización Q5.

blog Simon Willison · hace 16 d

Georgi Gerganov elogia a Qwen3.6-27B para tareas de programación

Georgi Gerganov confirma que Qwen3.6-27B es altamente capaz para tareas de programación, señalando su uso diario en hardware local como M2 Ultra y RTX 5090. Describe el uso de un agente pi mínimo con un prompt de sistema breve para alinearlo con su flujo de trabajo, destacando su utilidad para mantener proyectos de código abierto.

media r/LocalLLaMA · hace 16 d

Mejor modelo y configuración para MacBook Pro M5 Max de 128 GB de RAM y 8 TB

El mejor modelo para ejecutar en un MacBook Pro M5 Max con 128 GB de RAM y 8 TB es LocalLLaMA, optimizado para inferencia local con mínima sobrecarga de memoria. Las configuraciones deben priorizar modelos más pequeños como LLaMA-3-8B o LLaMA-3-7B con cuantización para garantizar un rendimiento eficiente dentro de la memoria disponible.

media r/LocalLLaMA · hace 16 d

El caso por los modelos de peso abierto y por qué no podemos confiar en las empresas líderes

El artículo defiende los modelos de lenguaje de peso abierto, haciendo hincapié en la transparencia y la accesibilidad. Expresa escepticismo hacia las empresas líderes (Frontier Labs), sugiriendo preocupaciones sobre su desarrollo de modelos y apertura.

media r/LocalLLaMA · hace 16 d

¿Es realmente tan bueno DiffusionGemma en un agente PI?

Una publicación de Reddit pregunta si DiffusionGemma se desempeña excepcionalmente bien en un agente PI. La publicación incluye un enlace a una imagen y hace referencia a la sección de comentarios para más discusión.

media r/LocalLLaMA · hace 16 d

Anthropic revierte su postura sobre el uso de claude -p por terceros

Según se informa, Anthropic está permitiendo que wrappers de terceros utilicen Claude a través del comando "claude -p", revirtiendo una restricción previa. Sin embargo, la política podría incluir aún un control de acceso futuro, aunque el cambio difiere de las prohibiciones anteriores de herramientas como OpenClaw y Hermes.

media r/LocalLLaMA · hace 16 d

VibeThinker-3B alcanza rendimiento de vanguardia en matemáticas y programación

VibeThinker-3B, escalado a partir de un modelo de 1.5B, alcanza un rendimiento de nivel vanguardia en tareas de matemáticas y programación. Obtiene 94.3 en AIME'26, 80.2 en LiveCodeBench v6, 76.4 en IMO-AnswerBench y 93.4 en IFEval, con un 96.1% de éxito en problemas de LeetCode en el primer intento.

media r/LocalLLaMA · hace 16 d

Anunciado el Conjunto de Robots Qwen

Aliyun ha lanzado el Conjunto de Robots Qwen, un nuevo conjunto de herramientas robóticas impulsadas por IA. El conjunto tiene como objetivo permitir a los desarrolladores construir y desplegar robots inteligentes con capacidades mejoradas.

media Interconnects · hace 16 d

Revisión de la receta de post-entrenamiento de Frontier con Finbarr Timbers

El podcast analiza la evolución de las recetas de post-entrenamiento en modelos de lenguaje grandes, desde InstructGPT hasta los modelos frontier de 2026. Destaca la Distilación On-Policy Multi-Maestro (MOPD) como el patrón dominante, donde los modelos especialistas por dominio se entrenan y luego se destilan en un modelo estudiante general mediante distilación on-policy, escalando a más de 10 maestros en modelos como DeepSeek V4 y Nemotron 3 Ultra.