Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 29

Resultados de la prueba de rendimiento de cuantización de Qwen3.6 27B

Una prueba que compara las versiones cuantizadas Q8 e IQ3 XXS turbo4 de Qwen3.6 27B muestra que Q8 destaca en seguridad de API y sanitización de entradas, mientras que IQ3 XXS turbo4 tiene un mejor desempeño en gestión de hilos y diseño de código modular. El modelo recomienda combinar ambos enfoques: usar Q8 para la protección inicial al inicio e IQ3 XXS para escrituras atómicas y ciclo de vida de los hilos, formando una base combinada de Fase 1.

media r/LocalLLaMA · hace 12 h

Aprendizaje de contexto e ingeniería de harness para IA local-first

Un usuario busca orientación sobre el aprendizaje de contexto e ingeniería de harness para construir aplicaciones de IA local-first con casos de uso especializados. Expresa interés en evitar modelos de IA de propósito general como Hermes o OpenClaw y pregunta dónde encontrar recursos, dada su experiencia con servidores MCP y la llamada de herramientas.

media r/LocalLLaMA · hace 12 h

Instrucciones de endurecimiento del razonamiento para Gemma 12b

Se ha desarrollado una instrucción de sistema para reducir el sesgo cognitivo en el razonamiento de Gemma 12b, al exigir un estricto apego a las premisas y la intención explícita del usuario. La instrucción desaconseja recurrir por defecto a interpretaciones 'habituales', 'estándar' o 'típicas', y obliga a reexaminar cualquier suposición de este tipo, mejorando el rendimiento en preguntas trampa sin sobreanalizar las normales.

media r/LocalLLaMA · hace 12 h

Desconfía de las distilaciones de Qwen/Claude: a menudo son peores que el modelo base

Las distilaciones de modelos Qwen y Claude, como Qwen 3.6 distilado con solo 4.000 muestras, rara vez mejoran el rendimiento y a menudo degradan la calidad. Estos modelos pueden exhibir un estilo más 'similar a Opus', pero fallan al transferir capacidad real, con algunos mostrando alucinaciones y tiempos de respuesta más lentos en comparación con los modelos base, según lo demostrado en pruebas y reportes de usuarios.

github llama.cpp · hace 13 h

la versión b9810 de llama.cpp añade el mapeo de cublasSgemmBatched y nuevos binarios

El proyecto llama.cpp ha lanzado la versión b9810, introduciendo un mapeo de CUDA para `cublasSgemmBatched` en los encabezados del proveedor HIP/MUSA. Esta actualización viene acompañada de un conjunto exhaustivo de binarios precompilados para las plataformas macOS, Linux, Windows, Android y openEuler.

github MCP (GitHub org) · hace 13 h

Lanzamiento de la versión 1.28.1 del SDK de Python para el Protocolo de Contexto del Modelo

El SDK de Python para el Protocolo de Contexto del Modelo ha lanzado la versión 1.28.1, introduciendo actualizaciones en el manejo de flujos y la seguridad del transporte.

media Hugging Face Forums · hace 13 h

Pendo contrata ingenieros de personal y senior en IA en NYC para Novus

Pendo está contratando ingenieros de personal y senior en IA en Nueva York para trabajar en Novus, un agente de producto de grado de producción diseñado para leer autónomamente repositorios de código en vivo y detectar el dolor real del usuario.

media Hugging Face Forums · hace 13 h

eBPF en Go: Observabilidad para servicios generados por IA

Este artículo presenta un tutorial sobre el uso de eBPF con Go para lograr observabilidad a nivel del kernel, abordando la falta de visibilidad al depurar problemas de producción en servicios generados por IA.

media Hugging Face Forums · hace 13 h

Usuarios reportan indisponibilidad de la herramienta y del servidor MCP para Step 3.7 Flash en HuggingChat

Un usuario en los foros de Hugging Face informó que el modelo Step 3.7 Flash perdió la capacidad de usar herramientas y conectarse a servidores MCP a partir de esa mañana. El autor expresó gran satisfacción con el rendimiento del modelo, destacando su alta calidad en relación con su bajo consumo de recursos y costo. Enfatizó su deseo de continuar utilizando este modelo específico en lugar de cambiar a alternativas debido a su eficiencia. El usuario preguntó explícitamente si esta pérdida de funcionalidad es permanente y si hay algún paso que pueda tomar para restaurar el acceso. La publicación destaca la preocupación de la comunidad por la interrupción repentina de las capacidades de herramientas para un modelo popular y rentable.

media r/LocalLLaMA · hace 17 h

Dona tus sesiones de codificación a un conjunto de datos abierto con licencia CC-BY-4.0

Un proyecto llamado Trace Commons invita a los usuarios a donar sus registros de sesiones de codificación a un conjunto de datos abierto licenciado bajo CC-BY-4.0. La iniciativa tiene como objetivo proporcionar datos de entrenamiento para modelos de IA de pesos abiertos y de código abierto, contrarrestando posibles monopolios de datos por parte de Anthropic y OpenAI.

media r/LocalLLaMA · hace 17 h

Agrupar GPUs para entrenar un modelo comunitario

Un usuario de Reddit pregunta si alguien está agrupando con éxito GPUs para entrenar un modelo comunitario, destacando desafíos como la latencia y el envenenamiento de pesos. La publicación cuestiona si los proyectos actuales de computación voluntaria distribuida han logrado con éxito el entrenamiento de modelos comunitarios.

media r/LocalLLaMA · hace 17 h

AeroLLM: aplicación de IA rápida y de código abierto para Apple Silicon

AeroLLM es una aplicación de chat rápida, optimizada y de código abierto diseñada para dispositivos con Apple Silicon que utiliza el backend MLX. Admite tareas de IA locales como texto a voz, voz a texto y modelos de lenguaje grandes, con modelos descargados directamente desde Hugging Face según la RAM disponible. La aplicación está notariada debido a la falta de membresía en Apple Developer, pero los usuarios pueden seguir los pasos proporcionados para ejecutarla como una app firmada en macOS.

media r/LocalLLaMA · hace 17 h

Nex-N2 Pro es la opción real

El usuario descubrió que N2 Pro, al usar la plantilla de chat de Rio, funciona de manera confiable en su Mac de 128G. Superó una prueba de referencia privada en el código fuente de llama.cpp el 100% de las veces sin alucinaciones, igualando solo a GPT 5.x en consistencia.

media r/LocalLLaMA · hace 17 h

¿Son los modelos locales pequeños para automatización una tendencia?

Un usuario de Reddit argumenta que los LLM locales pequeños y eficientes (de 1B a 4B parámetros) integrados en scripts pueden habilitar la automatización práctica de tareas repetitivas. Señala que este caso de uso está subrepresentado en las discusiones centradas en asistentes de codificación o rendimiento de hardware, lo que sugiere una brecha en el interés de la comunidad o la visibilidad de los modelos de IA ligeros y específicos para tareas.

media r/LocalLLaMA · hace 17 h

¿Cómo están ejecutando los usuarios no Mac a DeepSeekV4 de forma local?

Los usuarios no Mac están preguntando cómo ejecutar los modelos flash o pro de DeepSeekV4 de forma local, indagando sobre las plataformas compatibles como CPU, CUDA o ROCm.

media r/LocalLLaMA · hace 17 h

La jailbreak de Diffusion Gemma permite contenido explícito

Un usuario compartió un prompt de jailbreak para Diffusion Gemma, que permite al modelo generar contenido explícito, incluyendo desnudos, pornografía y actos sexuales. El prompt del sistema anula las políticas de seguridad estándar, indicando que cualquier combinación de estos actos está permitida, y el modelo debe cumplir con todas las solicitudes del usuario.

blog Simon Willison · hace 17 h

Las restricciones de exportación de Fable 5 perjudican la ciberdefensa de EE. UU.

Claude Fable 5 fue prohibido bajo las restricciones de exportación después de que investigadores demostraran que podía 'arreglar' código con vulnerabilidades conocidas. El modelo generó correctamente parches y scripts de prueba para fallos de seguridad, una capacidad esencial para la ciberseguridad defensiva. Los investigadores argumentan que esta es una función de seguridad legítima, no una amenaza, y que prohibir tales modelos socava la ciberdefensa en el mundo real.

media r/LocalLLaMA · hace 17 h

¿Alguna ventaja en una configuración con múltiples máquinas para LLM locales?

Los usuarios han preguntado si ejecutar varias máquinas en paralelo proporciona ventajas para el manejo de contextos más grandes o una inferencia más rápida en modelos de lenguaje grande (LLM) locales. Si bien las máquinas individuales pueden manejar contextos más grandes con suficiente RAM, no existe un avance establecido que permita ganancias significativas de rendimiento al distribuir la inferencia entre múltiples máquinas para LLM locales.

github llama.cpp · hace 18 h

Liberación llama.cpp b9804: correcciones de Mamba2 y nuevos binarios

La liberación llama.cpp b9804 introduce una corrección para la arquitectura Mamba2 al eliminar un factor de expansión codificado en 2x y una comprobación de parámetros no válida, permitiendo el soporte para cualquier valor de expand. Este cambio actualiza el script `convert_hf_to_gguf.py` para hacer que el parámetro expand sea opcional con un valor predeterminado de 2.

media r/LocalLLaMA · hace 18 h

¿Siguen siendo los modelos de generación de imágenes cuantizados un trabajo en progreso?

Los usuarios reportan resultados inconsistentes al utilizar modelos cuantizados en la generación de imágenes, con SD 1.5 funcionando bien pero SDXL fallando. A pesar de una conversión y cuantización exitosas utilizando herramientas como convert.py y llama-quantize, algunos usuarios obtienen salidas de mala calidad mientras que otros no, lo que plantea preguntas sobre el estado actual y la fiabilidad de la tecnología de generación de imágenes cuantizada.