Todos los artículos — korshunov.ai

Todos los artículos Página 2 / 15

Georgi Gerganov elogia a Qwen3.6-27B para tareas de programación

Georgi Gerganov confirma que Qwen3.6-27B es altamente capaz para tareas de programación, señalando su uso diario en hardware local como M2 Ultra y RTX 5090. Describe el uso de un agente pi mínimo con un prompt de sistema breve para alinearlo con su flujo de trabajo, destacando su utilidad para mantener proyectos de código abierto.

media r/LocalLLaMA · hace 6 h

Mejor modelo y configuración para MacBook Pro M5 Max de 128 GB de RAM y 8 TB

El mejor modelo para ejecutar en un MacBook Pro M5 Max con 128 GB de RAM y 8 TB es LocalLLaMA, optimizado para inferencia local con mínima sobrecarga de memoria. Las configuraciones deben priorizar modelos más pequeños como LLaMA-3-8B o LLaMA-3-7B con cuantización para garantizar un rendimiento eficiente dentro de la memoria disponible.

media r/LocalLLaMA · hace 6 h

El caso por los modelos de peso abierto y por qué no podemos confiar en las empresas líderes

El artículo defiende los modelos de lenguaje de peso abierto, haciendo hincapié en la transparencia y la accesibilidad. Expresa escepticismo hacia las empresas líderes (Frontier Labs), sugiriendo preocupaciones sobre su desarrollo de modelos y apertura.

media r/LocalLLaMA · hace 6 h

¿Es realmente tan bueno DiffusionGemma en un agente PI?

Una publicación de Reddit pregunta si DiffusionGemma se desempeña excepcionalmente bien en un agente PI. La publicación incluye un enlace a una imagen y hace referencia a la sección de comentarios para más discusión.

media r/LocalLLaMA · hace 6 h

Anthropic revierte su postura sobre el uso de claude -p por terceros

Según se informa, Anthropic está permitiendo que wrappers de terceros utilicen Claude a través del comando "claude -p", revirtiendo una restricción previa. Sin embargo, la política podría incluir aún un control de acceso futuro, aunque el cambio difiere de las prohibiciones anteriores de herramientas como OpenClaw y Hermes.

media r/LocalLLaMA · hace 6 h

VibeThinker-3B alcanza rendimiento de vanguardia en matemáticas y programación

VibeThinker-3B, escalado a partir de un modelo de 1.5B, alcanza un rendimiento de nivel vanguardia en tareas de matemáticas y programación. Obtiene 94.3 en AIME'26, 80.2 en LiveCodeBench v6, 76.4 en IMO-AnswerBench y 93.4 en IFEval, con un 96.1% de éxito en problemas de LeetCode en el primer intento.

github MCP (GitHub org) · hace 6 h

Notas de la versión MCP Python SDK v2.0.0a3

El SDK de Python del Protocolo de Contexto de Modelo (MCP) ha lanzado su tercera versión alfa, v2.0.0a3, introduciendo cambios significativos en el protocolo y la arquitectura mientras mantiene la compatibilidad con versiones anteriores para los usuarios estables de la serie 1.x.

github llama.cpp · hace 6 h

Liberación de llama.cpp b9811 con solución alternativa para el compilador de Vulkan

El proyecto llama.cpp ha liberado la versión b9811, que incluye una corrección para un error del compilador que afecta a la ruta conv2d coopmat2 en Vulkan. Esta solución alternativa también se aplica a la implementación CONV_3D basándose en las sugerencias del ingeniero de NVIDIA Jeff Bolz.

media Interconnects · hace 7 h

Revisión de la receta de post-entrenamiento de Frontier con Finbarr Timbers

El podcast analiza la evolución de las recetas de post-entrenamiento en modelos de lenguaje grandes, desde InstructGPT hasta los modelos frontier de 2026. Destaca la Distilación On-Policy Multi-Maestro (MOPD) como el patrón dominante, donde los modelos especialistas por dominio se entrenan y luego se destilan en un modelo estudiante general mediante distilación on-policy, escalando a más de 10 maestros en modelos como DeepSeek V4 y Nemotron 3 Ultra.

media r/LocalLLaMA · hace 7 h

Por qué DiffusionGemma podría destacar en llamadas a herramientas a pesar de una calidad base inferior

DiffusionGemma utiliza atención bidireccional para permitir la autocorrección durante la generación de tokens, lo que le permite revisar los tokens anteriores en un bloque de 256 tokens. Esta capacidad le otorga una ventaja estructural al generar llamadas a herramientas válidas, ya que puede corregir salidas malformadas que los modelos autoregresivos no pueden corregir una vez comprometidos.

media r/LocalLLaMA · hace 7 h

Resultados de la prueba de rendimiento de cuantización de Qwen3.6 27B

Una prueba que compara las versiones cuantizadas Q8 e IQ3 XXS turbo4 de Qwen3.6 27B muestra que Q8 destaca en seguridad de API y sanitización de entradas, mientras que IQ3 XXS turbo4 tiene un mejor desempeño en gestión de hilos y diseño de código modular. El modelo recomienda combinar ambos enfoques: usar Q8 para la protección inicial al inicio e IQ3 XXS para escrituras atómicas y ciclo de vida de los hilos, formando una base combinada de Fase 1.

media r/LocalLLaMA · hace 7 h

Aprendizaje de contexto e ingeniería de harness para IA local-first

Un usuario busca orientación sobre el aprendizaje de contexto e ingeniería de harness para construir aplicaciones de IA local-first con casos de uso especializados. Expresa interés en evitar modelos de IA de propósito general como Hermes o OpenClaw y pregunta dónde encontrar recursos, dada su experiencia con servidores MCP y la llamada de herramientas.

media r/LocalLLaMA · hace 7 h

Instrucciones de endurecimiento del razonamiento para Gemma 12b

Se ha desarrollado una instrucción de sistema para reducir el sesgo cognitivo en el razonamiento de Gemma 12b, al exigir un estricto apego a las premisas y la intención explícita del usuario. La instrucción desaconseja recurrir por defecto a interpretaciones 'habituales', 'estándar' o 'típicas', y obliga a reexaminar cualquier suposición de este tipo, mejorando el rendimiento en preguntas trampa sin sobreanalizar las normales.

media r/LocalLLaMA · hace 7 h

Desconfía de las distilaciones de Qwen/Claude: a menudo son peores que el modelo base

Las distilaciones de modelos Qwen y Claude, como Qwen 3.6 distilado con solo 4.000 muestras, rara vez mejoran el rendimiento y a menudo degradan la calidad. Estos modelos pueden exhibir un estilo más 'similar a Opus', pero fallan al transferir capacidad real, con algunos mostrando alucinaciones y tiempos de respuesta más lentos en comparación con los modelos base, según lo demostrado en pruebas y reportes de usuarios.

github llama.cpp · hace 8 h

la versión b9810 de llama.cpp añade el mapeo de cublasSgemmBatched y nuevos binarios

El proyecto llama.cpp ha lanzado la versión b9810, introduciendo un mapeo de CUDA para `cublasSgemmBatched` en los encabezados del proveedor HIP/MUSA. Esta actualización viene acompañada de un conjunto exhaustivo de binarios precompilados para las plataformas macOS, Linux, Windows, Android y openEuler.

github MCP (GitHub org) · hace 8 h

Lanzamiento de la versión 1.28.1 del SDK de Python para el Protocolo de Contexto del Modelo

El SDK de Python para el Protocolo de Contexto del Modelo ha lanzado la versión 1.28.1, introduciendo actualizaciones en el manejo de flujos y la seguridad del transporte.

media Hugging Face Forums · hace 8 h

Pendo contrata ingenieros de personal y senior en IA en NYC para Novus

Pendo está contratando ingenieros de personal y senior en IA en Nueva York para trabajar en Novus, un agente de producto de grado de producción diseñado para leer autónomamente repositorios de código en vivo y detectar el dolor real del usuario.

media Hugging Face Forums · hace 8 h

eBPF en Go: Observabilidad para servicios generados por IA

Este artículo presenta un tutorial sobre el uso de eBPF con Go para lograr observabilidad a nivel del kernel, abordando la falta de visibilidad al depurar problemas de producción en servicios generados por IA.

media Hugging Face Forums · hace 8 h

Usuarios reportan indisponibilidad de la herramienta y del servidor MCP para Step 3.7 Flash en HuggingChat

Un usuario en los foros de Hugging Face informó que el modelo Step 3.7 Flash perdió la capacidad de usar herramientas y conectarse a servidores MCP a partir de esa mañana. El autor expresó gran satisfacción con el rendimiento del modelo, destacando su alta calidad en relación con su bajo consumo de recursos y costo. Enfatizó su deseo de continuar utilizando este modelo específico en lugar de cambiar a alternativas debido a su eficiencia. El usuario preguntó explícitamente si esta pérdida de funcionalidad es permanente y si hay algún paso que pueda tomar para restaurar el acceso. La publicación destaca la preocupación de la comunidad por la interrupción repentina de las capacidades de herramientas para un modelo popular y rentable.

media r/LocalLLaMA · hace 12 h

Dona tus sesiones de codificación a un conjunto de datos abierto con licencia CC-BY-4.0

Un proyecto llamado Trace Commons invita a los usuarios a donar sus registros de sesiones de codificación a un conjunto de datos abierto licenciado bajo CC-BY-4.0. La iniciativa tiene como objetivo proporcionar datos de entrenamiento para modelos de IA de pesos abiertos y de código abierto, contrarrestando posibles monopolios de datos por parte de Anthropic y OpenAI.