Um desenvolvedor lançou o Kivarro, um aplicativo de desktop com código-fonte disponível, projetado para consolidar a inferência de modelos de linguagem grandes locais em uma única interface. A ferramenta visa substituir fluxos de trabalho fragmentados ao combinar gerenciamento de modelos, ajuste de tempo de execução e monitoramento em um só lugar.

  • Suporta formatos de arquivo GGUF, safetensors, bin e MLX com leitura automática de metadados.
  • Fornece supervisão para llama.cpp/llama-server e um backend opcional mistral.rs.
  • Inclui planejamento de ajuste de hardware, visibilidade do contexto de memória e visualizações de benchmark para tokens/seg.
  • Oferece uma bancada de trabalho RAG local para base de conhecimento e uma visualização de API compatível com OpenAI.
  • Oferece builds multiplataforma para Windows, macOS e Linux nas arquiteturas x64 e ARM64.

O autor está buscando feedback de usuários que executam modelos localmente para identificar elementos faltantes do fluxo de trabalho e determinar quais suportes de backend devem ser priorizados a seguir.