OpenAI a lancé un aperçu limité de la série GPT-5.6, introduisant trois nouveaux modèles : Sol comme modèle phare, Terra pour un équilibre dans le travail quotidien, et Luna pour des tâches rapides et abordables. L'entreprise prévoit de rendre ces modèles disponibles au grand public dans les prochaines semaines après cette phase initiale avec des partenaires de confiance.
- GPT-5.6 Sol établit un nouvel état de l'art sur Terminal-Bench 2.1 et obtient de meilleurs résultats que GPT-5.5 sur GeneBench v1 en utilisant moins de tokens.
- En cybersécurité, Sol est compétitif avec Mythos Preview sur ExploitBench en utilisant environ un tiers des tokens de sortie et montre d'importantes améliorations sur ExploitGym.
- La série inclut un nouvel effort maximal de raisonnement pour Sol et un mode ultra qui exploite des sous-agents pour accélérer les travaux complexes.
- OpenAI met en œuvre des garde-fous en couches, y compris des classificateurs en temps réel et des signaux au niveau du compte, notant que Sol ne franchit pas le seuil Cyber Critical selon son cadre de préparation.
Le déploiement progressif vise à tester les mesures de sécurité face à la pression adversariale tout en garantissant l'accès aux travaux défensifs légitimes. Cette approche permet à OpenAI d'affiner ses garde-fous et de coordonner avec le gouvernement américain avant une disponibilité plus large.