Un desarrollador ha lanzado Kivarro, una aplicación de escritorio con código disponible que está diseñada para consolidar la inferencia de modelos de lenguaje grandes locales en una única interfaz. La herramienta tiene como objetivo reemplazar flujos de trabajo fragmentados al combinar la gestión de modelos, el ajuste del tiempo de ejecución y la monitorización en un solo lugar.

  • Admite formatos de archivo GGUF, safetensors, bin y MLX con lectura automática de metadatos.
  • Proporciona supervisión para llama.cpp/llama-server y un backend opcional mistral.rs.
  • Incluye planificación de ajuste de hardware, visibilidad del contexto de memoria y vistas de benchmark para tokens/seg.
  • Ofrece una caja de herramientas local RAG para bases de conocimiento y una vista de API compatible con OpenAI.
  • Ofrece compilaciones multiplataforma para Windows, macOS y Linux en arquitecturas x64 y ARM64.

El autor está buscando comentarios de usuarios que ejecutan modelos localmente para identificar elementos faltantes del flujo de trabajo y determinar qué soportes de backend deben priorizarse a continuación.