전체 기사
media r/LocalLLaMA · 4시간 전

후속: RTX PRO 6000 2개에서 실행되는 DeepSeek V4 Flash는 Sonnet 및 Opus보다 실제 코딩 작업을 더 빠르게 처리하며, 품질은 Sonnet 수준에 근접

후속 벤치마크는 vLLM을 사용하여 두 개의 RTX PRO 6000 GPU에서 실행되는 DeepSeek V4 Flash의 성능을 Claude Sonnet 및 Opus와 같은 API 기반 모델과의 실제 코딩 작업 대비 비교합니다. 연구 결과, Opus와 Fable이 더 우수한 코드 품질을 유지하는 반면, DeepSeek V4 Flash는 현저히 짧은 실제 소요 시간으로 Sonnet 수준의 품질에 근접함을 보여줍니다.

media r/LocalLLaMA · 11시간 전

DGX Spark와 Strix Halo를 사용한 분리형 프롬프트 처리

한 사용자가 DGX Spark를 사전 채우기(prefilling)에, Strix Halo 장치를 토큰 생성에 사용하여 분리형 추론 파이프라인을 구현했으며, 긴 컨텍스트 워크로드에서 상당한 속도 향상을 달성했습니다. 계산 집약적인 프롬프트 처리를 DGX로 오프로드하고 Strix의 메모리 대역폭을 디코딩에 활용함으로써, Strix 단독 실행 시 발생하는 성능 저하를 극복했습니다.

arxiv arXiv cs.CL · 11시간 전

SkillFuzz: 공개 스킬 마켓플레이스에서 암시적 인텐트 발견을 위한 스킬 구성 퍼징

본 논문은 SkillFuzz를 소개합니다. 이는 개별적으로 무해한 스킬이 상호작용하여 에이전트를 의도하지 않은 목표 방향으로 유도할 수 있는 공개 스킬 마켓플레이스에서 암시적 인텐트를 발견하도록 설계된 실행 불필요 테스트 접근법입니다. 이 발견을 스킬 구성에 대한 퍼징 문제로 공식화함으로써, 본 방법은 구조화된 계약을 추출하고 계약 기반 몬테카를로 트리 검색을 사용하여 잠재적으로 충돌하는 조합을 우선순위화합니다.

arxiv arXiv cs.CL · 12시간 전

대규모 언어 모델을 사용한 Linux/bash 시험 자동 채점

이 연구는 4개의 최첨단 대규모 언어 모델(GPT, Claude Opus, Gemini, GLM)이 짧은 Linux/bash 명령 응답을 채점할 때 전문가의 판단을 근사할 수 있는지를 평가합니다. 이 연구는 구조화된 프롬프트가 인간 채점자와의 일치도를 크게 향상시켜 컴퓨팅 교육에서 AI 지원 평가의 프레임워크를 확립함을 보여줍니다.

arxiv arXiv cs.CL · 12시간 전

EvoPolicyGym: 상호작용 환경에서 자율 정책 진화 평가

본 기사는 EvoPolicyGym을 소개합니다. 이는 에이전트가 고정된 상호작용 예산 내에서 피드백을 통해 실행 가능한 정책을 반복적으로 개선하는 방식을 평가하기 위해 설계된 벤치마크입니다. 이 통제된 설정은 기존 평가가 종종 과정을 최종 점수로 축소하거나 소프트웨어 엔지니어링의 진전과 혼동한다는 한계를 해결합니다.