전체 기사
blog Simon Willison · 7시간 전

DSPy를 사용하여 Datasette Agent의 SQL 시스템 프롬프트 평가 및 개선

Simon Willison은 Claude Code와 Fable 5 모델을 사용하여 Datasette Agent의 시스템 프롬프트 평가 및 최적화를 자동화했습니다. 이는 특히 읽기 전용 SQL 쿼리 실행 기능에 초점을 맞추고 있습니다. 이 과정에는 최신 Datasette alpha 버전과 DSPy 설치가 포함되었으며, 에이전트가 스키마 정보를 처리하는 방식의 약점을 파악하는 것을 목표로 합니다.

media r/LocalLLaMA · 8시간 전

RTX 3090 기반 로컬 벤치마크 - Qwen3.6 27b vs Ornith

한 사용자가 inspect-ai 프레임워크를 사용하여 RTX 3090에서 Qwen3.6 27b, Gemma4 26B A4B QAT, 그리고 Ornith1.0 35B MoE를 비교함으로써 로컬 모델 성능을 평가했습니다. 테스트 결과는 일반 지식, grounding(접근성), 코딩 벤치마크 전반에 걸쳐 혼합된 결과를 보였으며, Qwen3.6은 일반적으로 점수에서 우위를 차지한 반면 Ornith는 DROP과 같은 특정 영역에서 강점을 보였습니다.

media Hugging Face Forums · 9시간 전

다양한 작업에 대한 Solo 및 MoA 벤치마킹

본 기사는 여섯 가지 작업(Bug, Tool, Arch, Clinical, DLQ 및 전체 평균)에서 개별 모델과 Mixture-of-Agents(MoA) 구성을 비교하는 벤치마크 결과를 제시합니다. Hermes Agent v0.18 평가 허즈가 사용되었으며, 점수는 정확성(Correctness), 완전성(Completeness), 깊이(Depth), 실행 가능성(Actionability), 명확성(Clearity), 신뢰도(Trust)를 가중치로 하는 기준에 따라 ChatGPT 5.5와 Claude opus 4.8이 생성했습니다.

media r/LocalLLaMA · 11시간 전

2.3k 로컬 AI 앱 분석 결과 82개 카테고리 및 다양한 사용 사례 확인

Mac App Store 분석을 통해 스크래핑된 20,000개 이상의 항목 중 2,259개의 로컬 AI 애플리케이션이 식별되었으며, 이는 모델을 특정 워크플로우와 패키징하는 니치 도구의 성장하는 생태계를 강조합니다. 이 설문조사는 전사 및 OCR과 같은 일반적인 작업부터 의상 스타일링 및 반려동물 건강 지원과 같은 전문 기능에 이르기까지 82개의 고유한 카테고리를 다룹니다.