전체 기사
media r/LocalLLaMA · 13시간 전

PrismML의 1비트 Bonsai-8B가 구문을 사용한 CPU 도구 호출에서 IBM Granite를 제압

PrismML의 1비트 Bonsai-8B 모델과 IBM의 Granite 및 기타 LLM을 비교한 벤치마크 결과, Bonsai-8B는 구문 제약 디코딩을 사용할 때 가장 높은 도구 호출 정확도를 달성했습니다. llama.cpp를 사용하여 CPU에서 수행된 이 테스트는 작은 양자화된 모델이 에이전트 작업에서 효과적으로 작동하도록 하는 출력 제약의 중요성을 강조합니다.

media r/LocalLLaMA · 13시간 전

NPC 간 대화를 위한 오픈소스 로컬 LLM NPC 백엔드

저자는 클라우드 의존성 없이 NPC 간 직접 상호작용을 가능하게 하는 대규모 언어 모델(NLP) NPC를 위해 설계된 완전한 로컬 음성-음성 백엔드를 공개했습니다. 이 시스템은 음성-텍스트, 로컬 LLM, 텍스트-음성 구성 요소를 통합하여 NPC가 서로 대화하고, 문맥을 유지하며, 미래의 플레이어 상호작용에 영향을 줄 수 있도록 합니다.

media r/LocalLLaMA · 15시간 전

당신의 RAG에는 무엇이 들어있나요?

한 레딧 사용자는 코딩, 시스템 관리 작업, 소규모 코드베이스를 다루는 개인 프로젝트에서 검색 증강 생성(RAG)의 실용적인 유용성에 대해 의문을 제기했습니다. 작성자는 표준 산업 지식이 이미 모델에 의해 잘 커버되어 있다고 주장하며, 코드베이스나 API 참조와 같은 특정 데이터 소스는 인덱싱이 필요할 만큼 크지 않거나 효율적으로 관리하기에는 너무 크다고 설명합니다.

media r/LocalLLaMA · 15시간 전

구조화된 출력의 신뢰성을 높이는 저렴한 트릭: 재시도 시 검증 오류를 피드백하기

대규모 언어 모델에서 구조화된 출력을 생성할 때 신뢰성을 향상시키기 위해, 검증 오류와 모델의 이전 출력을 재시도 시 프롬프트에 피드백하는 방법이 제안되었습니다. 이 접근 방식은 무작위 응답을 다시 생성하는 과정을 이전 시도를 편집하여 특정 오류를 자체 수정하는 방식으로 전환합니다.

media Hugging Face Forums · 1일 전

Show HF: ServBay, 코딩 에이전트를 위한 로컬 퍼스트 런타임 및 AI 게이트웨이

ServBay는 AI 코딩 에이전트와 사용자의 호스트 머신 간의 격차를 해소하기 위해 설계된 로컬 퍼스트 런타임 및 인프라 솔루션으로 소개되었습니다. 이는 지능형 에이전트가 수동 개발자 개입 없이 데이터베이스, 도메인 또는 SSL 인증서를 구성할 수 있는 시스템 수준의 능력을 갖추지 못한 '마일스톤' 문제를 해결합니다.

media Hugging Face Forums · 1일 전

Prism Transformer: 계층적 어텐션 처리를 위한 점진적 헤드 스케줄

Prism Transformer는 레이어 간 어텐션 헤드 수를 가변적으로 조절하는 점진적 헤드 스케줄을 도입합니다. 이는 초기 레이어에서 적고 넓은 헤드로 시작하여 깊이에 따라 단조 증가시킵니다. 이 접근 방식은 아키텍처 오버헤드를 추가하지 않고 초기와 후기 레이어의 구조적 필요를 해결함으로써 표준 균일 할당에 도전합니다.