Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 130

llama.cpp Release b9670: Correcciones y nuevas compilaciones

La versión b9670 de llama.cpp incluye correcciones para casos límite de NVFP4 en llama-graph, como el movimiento de operaciones MUL post-GEMM y la restricción de build_ffn a combinaciones admitidas. La versión proporciona binarios para macOS, Linux, Android, Windows y openEuler en múltiples arquitecturas y opciones de backend, incluyendo CUDA, Vulkan, SYCL y OpenVINO.

media r/LocalLLaMA · hace 16 d

Por qué DiffusionGemma podría destacar en llamadas a herramientas a pesar de una calidad base inferior

DiffusionGemma utiliza atención bidireccional para permitir la autocorrección durante la generación de tokens, lo que le permite revisar los tokens anteriores en un bloque de 256 tokens. Esta capacidad le otorga una ventaja estructural al generar llamadas a herramientas válidas, ya que puede corregir salidas malformadas que los modelos autoregresivos no pueden corregir una vez comprometidos.

github llama.cpp · hace 16 d

llama.cpp Release b9667 Adds Vulkan and CUDA Support

La versión b9667 de llama.cpp introduce soporte para Vulkan con S_v=16 a través de gated_delta_net. Incluye binarios para macOS, Linux, Android, Windows y openEuler en múltiples arquitecturas, con opciones para Vulkan, CUDA 12.4 y 13.3, ROCm, OpenVINO y SYCL.

github llama.cpp · hace 16 d

la versión b9668 de llama.cpp añade memoria visible para el host UMA y binarios multiplataforma

La versión b9668 de llama.cpp implementa búferes de memoria visibles para el host UMA para mejorar el rendimiento en dispositivos UMA, basándose en la sugerencia de 0cc4m. La publicación incluye binarios para macOS, Linux, Android, Windows y openEuler, con soporte para CPU, Vulkan, ROCm, OpenVINO, SYCL e HIP, junto con un paquete de interfaz de usuario dedicado.

media r/LocalLLaMA · hace 16 d

Resultados de la prueba de rendimiento de cuantización de Qwen3.6 27B

Una prueba que compara las versiones cuantizadas Q8 e IQ3 XXS turbo4 de Qwen3.6 27B muestra que Q8 destaca en seguridad de API y sanitización de entradas, mientras que IQ3 XXS turbo4 tiene un mejor desempeño en gestión de hilos y diseño de código modular. El modelo recomienda combinar ambos enfoques: usar Q8 para la protección inicial al inicio e IQ3 XXS para escrituras atómicas y ciclo de vida de los hilos, formando una base combinada de Fase 1.

media r/LocalLLaMA · hace 16 d

Aprendizaje de contexto e ingeniería de harness para IA local-first

Un usuario busca orientación sobre el aprendizaje de contexto e ingeniería de harness para construir aplicaciones de IA local-first con casos de uso especializados. Expresa interés en evitar modelos de IA de propósito general como Hermes o OpenClaw y pregunta dónde encontrar recursos, dada su experiencia con servidores MCP y la llamada de herramientas.

media r/LocalLLaMA · hace 16 d

Instrucciones de endurecimiento del razonamiento para Gemma 12b

Se ha desarrollado una instrucción de sistema para reducir el sesgo cognitivo en el razonamiento de Gemma 12b, al exigir un estricto apego a las premisas y la intención explícita del usuario. La instrucción desaconseja recurrir por defecto a interpretaciones 'habituales', 'estándar' o 'típicas', y obliga a reexaminar cualquier suposición de este tipo, mejorando el rendimiento en preguntas trampa sin sobreanalizar las normales.

media r/LocalLLaMA · hace 16 d

Desconfía de las distilaciones de Qwen/Claude: a menudo son peores que el modelo base

Las distilaciones de modelos Qwen y Claude, como Qwen 3.6 distilado con solo 4.000 muestras, rara vez mejoran el rendimiento y a menudo degradan la calidad. Estos modelos pueden exhibir un estilo más 'similar a Opus', pero fallan al transferir capacidad real, con algunos mostrando alucinaciones y tiempos de respuesta más lentos en comparación con los modelos base, según lo demostrado en pruebas y reportes de usuarios.

github llama.cpp · hace 16 d

llama.cpp versión b9665 añade la bandera --offline y nuevas compilaciones binarias

La versión b9665 de llama.cpp introduce una nueva bandera --offline para pruebas de rendimiento. La publicación incluye compilaciones binarias para macOS, Linux, Android, Windows y openEuler en múltiples arquitecturas y opciones de aceleración de hardware, incluyendo Vulkan, CUDA, ROCm, OpenVINO y SYCL.

media r/LocalLLaMA · hace 16 d

Dona tus sesiones de codificación a un conjunto de datos abierto con licencia CC-BY-4.0

Un proyecto llamado Trace Commons invita a los usuarios a donar sus registros de sesiones de codificación a un conjunto de datos abierto licenciado bajo CC-BY-4.0. La iniciativa tiene como objetivo proporcionar datos de entrenamiento para modelos de IA de pesos abiertos y de código abierto, contrarrestando posibles monopolios de datos por parte de Anthropic y OpenAI.

media r/LocalLLaMA · hace 16 d

Agrupar GPUs para entrenar un modelo comunitario

Un usuario de Reddit pregunta si alguien está agrupando con éxito GPUs para entrenar un modelo comunitario, destacando desafíos como la latencia y el envenenamiento de pesos. La publicación cuestiona si los proyectos actuales de computación voluntaria distribuida han logrado con éxito el entrenamiento de modelos comunitarios.

media r/LocalLLaMA · hace 16 d

AeroLLM: aplicación de IA rápida y de código abierto para Apple Silicon

AeroLLM es una aplicación de chat rápida, optimizada y de código abierto diseñada para dispositivos con Apple Silicon que utiliza el backend MLX. Admite tareas de IA locales como texto a voz, voz a texto y modelos de lenguaje grandes, con modelos descargados directamente desde Hugging Face según la RAM disponible. La aplicación está notariada debido a la falta de membresía en Apple Developer, pero los usuarios pueden seguir los pasos proporcionados para ejecutarla como una app firmada en macOS.

media r/LocalLLaMA · hace 16 d

Nex-N2 Pro es la opción real

El usuario descubrió que N2 Pro, al usar la plantilla de chat de Rio, funciona de manera confiable en su Mac de 128G. Superó una prueba de referencia privada en el código fuente de llama.cpp el 100% de las veces sin alucinaciones, igualando solo a GPT 5.x en consistencia.

github llama.cpp · hace 16 d

La versión b9663 de LLaMA.cpp añade soporte para SYCL y nuevos binarios

La versión b9663 de LLaMA.cpp añade soporte para OP EXPM1 y todos los casos de prueba unitarias para FLOOR, TRUNC y ROUND. Incluye binarios actualizados para macOS, Linux, Android, Windows y openEuler, con soporte para SYCL (FP32 y FP16), Vulkan, CUDA 12.4 y 13.3, y ROCm 7.2, junto con una interfaz de usuario actualizada.

github llama.cpp · hace 16 d

sycl: soporte para MoE MUL_MAT_ID con Q4_K/Q5_K/Q6_K reordenados

La actualización de sycl amplía el soporte para el manejo de tensores de expertos reordenados en MoE MUL_MAT_ID a Q4_K, Q5_K y Q6_K. Los casos de reordenamiento 3D no soportados ahora hacen fallback en lugar de abortar.

media r/LocalLLaMA · hace 16 d

¿Son los modelos locales pequeños para automatización una tendencia?

Un usuario de Reddit argumenta que los LLM locales pequeños y eficientes (de 1B a 4B parámetros) integrados en scripts pueden habilitar la automatización práctica de tareas repetitivas. Señala que este caso de uso está subrepresentado en las discusiones centradas en asistentes de codificación o rendimiento de hardware, lo que sugiere una brecha en el interés de la comunidad o la visibilidad de los modelos de IA ligeros y específicos para tareas.

media r/LocalLLaMA · hace 16 d

¿Cómo están ejecutando los usuarios no Mac a DeepSeekV4 de forma local?

Los usuarios no Mac están preguntando cómo ejecutar los modelos flash o pro de DeepSeekV4 de forma local, indagando sobre las plataformas compatibles como CPU, CUDA o ROCm.

media r/LocalLLaMA · hace 16 d

La jailbreak de Diffusion Gemma permite contenido explícito

Un usuario compartió un prompt de jailbreak para Diffusion Gemma, que permite al modelo generar contenido explícito, incluyendo desnudos, pornografía y actos sexuales. El prompt del sistema anula las políticas de seguridad estándar, indicando que cualquier combinación de estos actos está permitida, y el modelo debe cumplir con todas las solicitudes del usuario.

github llama.cpp · hace 16 d

Vulkan añade la operación col2im_1d y admite múltiples plataformas

La versión b9661 de llama.cpp añade soporte para GGML_OP_COL2IM_1D en Vulkan, utilizando un bucle de recopilación acotado en lugar de un escaneo completo-K con módulo. Devuelve nullptr para tipos no compatibles e incluye compilaciones para macOS, Linux, Android, Windows y openEuler a través de CPU, Vulkan, CUDA y SYCL.

blog Simon Willison · hace 16 d

Las restricciones de exportación de Fable 5 perjudican la ciberdefensa de EE. UU.

Claude Fable 5 fue prohibido bajo las restricciones de exportación después de que investigadores demostraran que podía 'arreglar' código con vulnerabilidades conocidas. El modelo generó correctamente parches y scripts de prueba para fallos de seguridad, una capacidad esencial para la ciberseguridad defensiva. Los investigadores argumentan que esta es una función de seguridad legítima, no una amenaza, y que prohibir tales modelos socava la ciberdefensa en el mundo real.