Qwen3.6-27B становится пригодным для кодинга с помощью 3-critic harness

Тестирование Qwen3.6-27B с использованием трехкритического harness — включающего проверку кода, проверку тестов и e2e проверки Playwright — делает модель пригодной для работы с кодом, выявляя ошибки, которые маленькие модели совершают естественно.

Harness включает отдельных критиков для проверки кода, проверки тестов и сквозного тестирования Playwright, каждый из которых получает специфический контекст.
Свежий контекст для каждого критика имеет решающее значение, поскольку рецензенты, не видевшие код, выявляют проблемы, которые упускает самопроверка.
Хороший конвейер критиков сокращает разрыв в надежности между моделью на 27B и моделями уровня frontier, выявляя дополнительные ошибки.
Автор утверждает, что надежность обеспечивается процессом и структурой, а не только размером модели или тонкой настройкой промптов.

В статье делается вывод, что командам, запускающим модели в продакшене, следует сосредоточиться на проверке результатов через надежные harness, а не винить модель в нестабильности.