전체 기사
media r/LocalLLaMA · 4시간 전

DGX Spark와 Strix Halo를 사용한 분리형 프롬프트 처리

한 사용자가 DGX Spark를 사전 채우기(prefilling)에, Strix Halo 장치를 토큰 생성에 사용하여 분리형 추론 파이프라인을 구현했으며, 긴 컨텍스트 워크로드에서 상당한 속도 향상을 달성했습니다. 계산 집약적인 프롬프트 처리를 DGX로 오프로드하고 Strix의 메모리 대역폭을 디코딩에 활용함으로써, Strix 단독 실행 시 발생하는 성능 저하를 극복했습니다.

media r/LocalLLaMA · 10시간 전

OpenLumara가 OpenAI 엔드포인트를 통해 모든 UI와 로컬 모델을 연결

오픈 소스 프레임워크인 OpenLumara는 이제 KoboldLite 및 OpenWebUI와 같이 OpenAI 엔드포인트와 통신할 수 있는 모든 사용자 인터페이스와의 연결을 지원합니다. 이 업데이트를 통해 사용자는 선호하는 프론트엔드를 변경하지 않고 토큰 효율적인 하네스를 기존 워크플로우에 통합할 수 있습니다.

blog Simon Willison · 12시간 전

DSPy를 사용하여 Datasette Agent의 SQL 시스템 프롬프트 평가 및 개선

Simon Willison은 Claude Code와 Fable 5 모델을 사용하여 Datasette Agent의 시스템 프롬프트 평가 및 최적화를 자동화했습니다. 이는 특히 읽기 전용 SQL 쿼리 실행 기능에 초점을 맞추고 있습니다. 이 과정에는 최신 Datasette alpha 버전과 DSPy 설치가 포함되었으며, 에이전트가 스키마 정보를 처리하는 방식의 약점을 파악하는 것을 목표로 합니다.

media r/LocalLLaMA · 13시간 전

RTX 3090 기반 로컬 벤치마크 - Qwen3.6 27b vs Ornith

한 사용자가 inspect-ai 프레임워크를 사용하여 RTX 3090에서 Qwen3.6 27b, Gemma4 26B A4B QAT, 그리고 Ornith1.0 35B MoE를 비교함으로써 로컬 모델 성능을 평가했습니다. 테스트 결과는 일반 지식, grounding(접근성), 코딩 벤치마크 전반에 걸쳐 혼합된 결과를 보였으며, Qwen3.6은 일반적으로 점수에서 우위를 차지한 반면 Ornith는 DROP과 같은 특정 영역에서 강점을 보였습니다.

media Hugging Face Forums · 15시간 전

다양한 작업에 대한 Solo 및 MoA 벤치마킹

본 기사는 여섯 가지 작업(Bug, Tool, Arch, Clinical, DLQ 및 전체 평균)에서 개별 모델과 Mixture-of-Agents(MoA) 구성을 비교하는 벤치마크 결과를 제시합니다. Hermes Agent v0.18 평가 허즈가 사용되었으며, 점수는 정확성(Correctness), 완전성(Completeness), 깊이(Depth), 실행 가능성(Actionability), 명확성(Clearity), 신뢰도(Trust)를 가중치로 하는 기준에 따라 ChatGPT 5.5와 Claude opus 4.8이 생성했습니다.

media r/LocalLLaMA · 16시간 전

2.3k 로컬 AI 앱 분석 결과 82개 카테고리 및 다양한 사용 사례 확인

Mac App Store 분석을 통해 스크래핑된 20,000개 이상의 항목 중 2,259개의 로컬 AI 애플리케이션이 식별되었으며, 이는 모델을 특정 워크플로우와 패키징하는 니치 도구의 성장하는 생태계를 강조합니다. 이 설문조사는 전사 및 OCR과 같은 일반적인 작업부터 의상 스타일링 및 반려동물 건강 지원과 같은 전문 기능에 이르기까지 82개의 고유한 카테고리를 다룹니다.