전체 기사
media r/LocalLLaMA · 5시간 전

DGX Spark와 Strix Halo를 사용한 분리형 프롬프트 처리

한 사용자가 DGX Spark를 사전 채우기(prefilling)에, Strix Halo 장치를 토큰 생성에 사용하여 분리형 추론 파이프라인을 구현했으며, 긴 컨텍스트 워크로드에서 상당한 속도 향상을 달성했습니다. 계산 집약적인 프롬프트 처리를 DGX로 오프로드하고 Strix의 메모리 대역폭을 디코딩에 활용함으로써, Strix 단독 실행 시 발생하는 성능 저하를 극복했습니다.

arxiv arXiv cs.CL · 5시간 전

SkillFuzz: 공개 스킬 마켓플레이스에서 암시적 인텐트 발견을 위한 스킬 구성 퍼징

본 논문은 SkillFuzz를 소개합니다. 이는 개별적으로 무해한 스킬이 상호작용하여 에이전트를 의도하지 않은 목표 방향으로 유도할 수 있는 공개 스킬 마켓플레이스에서 암시적 인텐트를 발견하도록 설계된 실행 불필요 테스트 접근법입니다. 이 발견을 스킬 구성에 대한 퍼징 문제로 공식화함으로써, 본 방법은 구조화된 계약을 추출하고 계약 기반 몬테카를로 트리 검색을 사용하여 잠재적으로 충돌하는 조합을 우선순위화합니다.

arxiv arXiv cs.CL · 7시간 전

EvoPolicyGym: 상호작용 환경에서 자율 정책 진화 평가

본 기사는 EvoPolicyGym을 소개합니다. 이는 에이전트가 고정된 상호작용 예산 내에서 피드백을 통해 실행 가능한 정책을 반복적으로 개선하는 방식을 평가하기 위해 설계된 벤치마크입니다. 이 통제된 설정은 기존 평가가 종종 과정을 최종 점수로 축소하거나 소프트웨어 엔지니어링의 진전과 혼동한다는 한계를 해결합니다.

arxiv arXiv cs.CL · 8시간 전

스케일링은 LLM을 사용한 사회 시뮬레이션을 개선할 수 있을까?

본 연구는 현재의 언어 모델 스케일링 패러다임이 의견 모델링, 행동 시뮬레이션 및 종단적 예측에 걸쳐 사회 시뮬레이션의 충실도 격차를 해소할 수 있는지 조사합니다. 10^18에서 10^20 FLOPs까지의 고정 컴퓨팅 예산으로 DCLM 코퍼스에서 훈련된 85개의 Qwen3 트랜스포머 모델을 사용하여 저자들은 컴퓨팅 스케일과 시뮬레이션 정확도 간의 관계를 분석했습니다.