Пользователь протестировал Qwen3.6-27B (8-bit) вместе с GLM5.2, используя инструмент для написания кода, который применяет трех критиков — проверку кода, проверку тестов и Playwright e2e — для оценки качества вывода.

  • Пайплайн из 3 критиков эффективно выявляет дополнительные ошибки, присущие плотной модели, позволяя ей достигать уровня качества финального вывода, сопоставимого с передовыми моделями.
  • Хотя путь выполнения более зашумлен по сравнению с большими моделями, инструмент справляется с накладными расходами на повторные попытки, не нарушая рабочий процесс.
  • Выявленная оптимальная стратегия заключается в использовании передовой модели, такой как GLM5.2, для планирования и Qwen3.6 для массового написания кода, где механизм выявления ошибок компенсирует более низкую базовую точность.