Тестирование Qwen3.6-27B с использованием трехкритического harness — включающего проверку кода, проверку тестов и e2e проверки Playwright — делает модель пригодной для работы с кодом, выявляя ошибки, которые маленькие модели совершают естественно.

  • Harness включает отдельных критиков для проверки кода, проверки тестов и сквозного тестирования Playwright, каждый из которых получает специфический контекст.
  • Свежий контекст для каждого критика имеет решающее значение, поскольку рецензенты, не видевшие код, выявляют проблемы, которые упускает самопроверка.
  • Хороший конвейер критиков сокращает разрыв в надежности между моделью на 27B и моделями уровня frontier, выявляя дополнительные ошибки.
  • Автор утверждает, что надежность обеспечивается процессом и структурой, а не только размером модели или тонкой настройкой промптов.

В статье делается вывод, что командам, запускающим модели в продакшене, следует сосредоточиться на проверке результатов через надежные harness, а не винить модель в нестабильности.