Qwen3.6-27B с использованием 3 критиков достигает уровня передовых моделей

Пользователь протестировал Qwen3.6-27B (8-bit) вместе с GLM5.2, используя инструмент для написания кода, который применяет трех критиков — проверку кода, проверку тестов и Playwright e2e — для оценки качества вывода.

Пайплайн из 3 критиков эффективно выявляет дополнительные ошибки, присущие плотной модели, позволяя ей достигать уровня качества финального вывода, сопоставимого с передовыми моделями.
Хотя путь выполнения более зашумлен по сравнению с большими моделями, инструмент справляется с накладными расходами на повторные попытки, не нарушая рабочий процесс.
Выявленная оптимальная стратегия заключается в использовании передовой модели, такой как GLM5.2, для планирования и Qwen3.6 для массового написания кода, где механизм выявления ошибок компенсирует более низкую базовую точность.