전체 기사
media r/LocalLLaMA · 방금 실시간

DGX Spark와 Strix Halo를 사용한 분리형 프롬프트 처리

한 사용자가 DGX Spark를 사전 채우기(prefilling)에, Strix Halo 장치를 토큰 생성에 사용하여 분리형 추론 파이프라인을 구현했으며, 긴 컨텍스트 워크로드에서 상당한 속도 향상을 달성했습니다. 계산 집약적인 프롬프트 처리를 DGX로 오프로드하고 Strix의 메모리 대역폭을 디코딩에 활용함으로써, Strix 단독 실행 시 발생하는 성능 저하를 극복했습니다.

media r/LocalLLaMA · 17시간 전

PrismML의 1비트 Bonsai-8B가 구문을 사용한 CPU 도구 호출에서 IBM Granite를 제압

PrismML의 1비트 Bonsai-8B 모델과 IBM의 Granite 및 기타 LLM을 비교한 벤치마크 결과, Bonsai-8B는 구문 제약 디코딩을 사용할 때 가장 높은 도구 호출 정확도를 달성했습니다. llama.cpp를 사용하여 CPU에서 수행된 이 테스트는 작은 양자화된 모델이 에이전트 작업에서 효과적으로 작동하도록 하는 출력 제약의 중요성을 강조합니다.

media r/LocalLLaMA · 17시간 전

NPC 간 대화를 위한 오픈소스 로컬 LLM NPC 백엔드

저자는 클라우드 의존성 없이 NPC 간 직접 상호작용을 가능하게 하는 대규모 언어 모델(NLP) NPC를 위해 설계된 완전한 로컬 음성-음성 백엔드를 공개했습니다. 이 시스템은 음성-텍스트, 로컬 LLM, 텍스트-음성 구성 요소를 통합하여 NPC가 서로 대화하고, 문맥을 유지하며, 미래의 플레이어 상호작용에 영향을 줄 수 있도록 합니다.