한 개발자가 온프레미스 대규모 언어 모델 추론을 단일 인터페이스로 통합하도록 설계된 소스-가용 데스크톱 애플리케이션인 Kivarro를 출시했습니다. 이 도구는 모델 관리, 런타임 튜닝 및 모니터링을 한 곳에 결합하여 파편화된 워크플로우를 대체하는 것을 목표로 합니다.
- GGUF, safetensors, bin, MLX 파일 형식을 지원하며 자동 메타데이터 읽기를 제공합니다.
- llama.cpp/llama-server에 대한 감시 및 선택적 mistral.rs 백엔드를 제공합니다.
- 하드웨어 적합 계획, 메모리 컨텍스트 가시성 및 초당 토큰 수를 위한 벤치마크 뷰를 포함합니다.
- 로컬 RAG 지식 베이스 워크벤치와 OpenAI 호환 API 뷰를 특징으로 합니다.
- x64 및 ARM64 아키텍처 전반에 걸쳐 Windows, macOS, Linux용 크로스 플랫폼 빌드를 제공합니다.
저자는 로컬에서 모델을 실행하는 사용자로부터 피드백을 받아 누락된 워크플로우 요소를 식별하고 다음으로 우선순위화해야 할 백엔드 지원을 결정하려고 합니다.