코드 리뷰, 테스트 리뷰, Playwright e2e 검사를 포함하는 3비평가 하네스를 사용하여 Qwen3.6-27B를 테스트하면 작은 모델이 자연스럽게 저지르는 오류를 잡아내어 코딩 작업에 사용할 수 있게 됩니다.
- 하네스에는 코드 리뷰, 테스트 리뷰, Playwright 엔드투엔드 테스트를 위한 각각의 비평가가 포함되어 있으며, 각자 특정 컨텍스트가 제공됩니다.
- 각 비평가마다 새로운 컨텍스트가 중요하며, 코드를 보지 않은 리뷰어는 자기 검토에서 놓치는 문제를 발견할 수 있습니다.
- 좋은 비평가 파이프라인은 추가 실수를 잡아냄으로써 27B 모델과 최첨단 모델 간의 신뢰성 격차를 줄입니다.
- 저자는 신뢰성이 모델 크기나 프롬프트 튜닝 alone이 아니라 프로세스와 구조화에서 온다고 주장합니다.
이 기사는 프로덕션에서 모델을 실행하는 팀은 모델의 불안정성을 비난하기보다 견고한 하네스를 통해 결과를 검증하는 데 집중해야 한다고 결론짓습니다.