Tester Qwen3.6-27B avec un harnais à trois critiques — comprenant la révision de code, la révision de tests et les vérifications e2e Playwright — rend le modèle utilisable pour le travail de codage en capturant les erreurs que les modèles plus petits commettent naturellement.
- Le harnais comprend des critiques distincts pour la révision de code, la révision de tests et les tests end-to-end Playwright, chacun recevant un contexte spécifique.
- Un contexte frais par critique est crucial, car les réviseurs n'ayant pas vu le code repèrent des problèmes que l'auto-révision manque.
- Un pipeline de critiques efficace réduit l'écart de fiabilité entre un modèle de 27B et les modèles de pointe en capturant des erreurs supplémentaires.
- L'auteur soutient que la fiabilité provient du processus et de l'infrastructure plutôt que de la taille du modèle ou du prompt-tuning alone.
L'article conclut que les équipes exécutant des modèles en production devraient se concentrer sur la vérification des résultats via des harnais robustes plutôt que de blâmer le modèle pour son instabilité.