한 사용자가 inspect-ai 프레임워크를 사용하여 RTX 3090에서 Qwen3.6 27b, Gemma4 26B A4B QAT, 그리고 Ornith1.0 35B MoE를 비교함으로써 로컬 모델 성능을 평가했습니다. 테스트 결과는 일반 지식, grounding(접근성), 코딩 벤치마크 전반에 걸쳐 혼합된 결과를 보였으며, Qwen3.6은 일반적으로 점수에서 우위를 차지한 반면 Ornith는 DROP과 같은 특정 영역에서 강점을 보였습니다.

  • 일반 지식 및 추론 분야에서 Qwen3.6은 GSM8K (0.96)와 IFEval (0.95)을 포함한 6개 벤치마크 중 4개에서 최고 또는 공동 최고 점수를 달성했으며, Ornith는 MMLU 0-shot (0.91)에서 선두를 차지했습니다.
  • grounding 및 회상 분야에서 Ornith는 DROP (0.952)에서 가장 높은 점수를 기록했으며, 이는 Qwen3.6 (0.947)과 Gemma4 (0.932)보다 높은 수치입니다. 모든 모델은 NIAH에서 10.0의 점수를 받았습니다.
  • 코드 생성 분야에서 Qwen3.6은 DS-1000 (0.66 대 0.48)과 SCICode (10.769 대 1.538)에서 Ornith를 앞섰으며, 두 모델 모두 ClassEval에서 Gemma4와 동일한 점수 (0.97)를 기록했습니다.
  • 작성자는 Gemma4의 무한 루프 및 IFEvalCode에 대한 Qwen3.6의 18시간이라는 극단적인 처리 시간 등 실질적인 운영상의 어려움들을 지적했습니다.

이 기사는 구성 문제와 자원 제약으로 인해 포괄적인 로컬 벤치마크를 실행하는 것이 어렵다는 점을 강조하며, 더 편리한 테스트 방법에 대한 필요성을 제안합니다.