전체 기사
media r/LocalLLaMA · 방금 실시간

DGX Spark와 Strix Halo를 사용한 분리형 프롬프트 처리

한 사용자가 DGX Spark를 사전 채우기(prefilling)에, Strix Halo 장치를 토큰 생성에 사용하여 분리형 추론 파이프라인을 구현했으며, 긴 컨텍스트 워크로드에서 상당한 속도 향상을 달성했습니다. 계산 집약적인 프롬프트 처리를 DGX로 오프로드하고 Strix의 메모리 대역폭을 디코딩에 활용함으로써, Strix 단독 실행 시 발생하는 성능 저하를 극복했습니다.

arxiv arXiv cs.CL · 5시간 전

LLM 비학습의 국소화 정밀도를 평가하기 위한 테스트베드 LACUNA

연구자들은 모델 파라미터에서 지식이 실제로 삭제되었는지 평가하는 간극을 해결하기 위해 지표 수준의 파라미터 국소화를 특징으로 하는 최초의 비학습 테스트베드인 LACUNA를 소개했습니다. 이 테스트베드는 마스킹된 지속적 사전 학습을 통해 1B 및 7B OLMo 기반 모델의 미리 정의된 파라미터에 합성 개인의 PII를 주입합니다.

lab Anthropic News · 8시간 전

Anthropic, Fable 5 사이버 보안 조치 및 제일브레이크 프레임워크 상세 설명

Anthropic은 Claude Fable 5를 전 세계적으로 재배치하고 사이버 보안 안전 분류기 및 제안된 AI 제일브레이크 중증도 프레임워크에 대한 상세 정보를 공개했습니다. 동사는 정부와 제일브레이크 위험을 논의하기 위한 일관된 용어 체계를 확립하는 것을 목표로 하며, 더 넓은 커뮤니티로부터 피드백을 받고 있습니다.

blog Simon Willison · 8시간 전

DSPy를 사용하여 Datasette Agent의 SQL 시스템 프롬프트 평가 및 개선

Simon Willison은 Claude Code와 Fable 5 모델을 사용하여 Datasette Agent의 시스템 프롬프트 평가 및 최적화를 자동화했습니다. 이는 특히 읽기 전용 SQL 쿼리 실행 기능에 초점을 맞추고 있습니다. 이 과정에는 최신 Datasette alpha 버전과 DSPy 설치가 포함되었으며, 에이전트가 스키마 정보를 처리하는 방식의 약점을 파악하는 것을 목표로 합니다.

media r/LocalLLaMA · 9시간 전

RTX 3090 기반 로컬 벤치마크 - Qwen3.6 27b vs Ornith

한 사용자가 inspect-ai 프레임워크를 사용하여 RTX 3090에서 Qwen3.6 27b, Gemma4 26B A4B QAT, 그리고 Ornith1.0 35B MoE를 비교함으로써 로컬 모델 성능을 평가했습니다. 테스트 결과는 일반 지식, grounding(접근성), 코딩 벤치마크 전반에 걸쳐 혼합된 결과를 보였으며, Qwen3.6은 일반적으로 점수에서 우위를 차지한 반면 Ornith는 DROP과 같은 특정 영역에서 강점을 보였습니다.