Os autores apresentam o SEA, uma arquitetura que confina a automodificação a um adaptador de direção e um arnês versionado ao redor de um modelo base congelado, admitindo mudanças apenas por meio de um gate válido a qualquer momento que emite certificados auditáveis contra um orçamento de erro fixo.

  • Cinco controladores de loop compõem as garantias publicadas, enquanto mecanismos de verificador no loop fornecem sinal denso apenas a partir do texto de problemas.
  • Em um subconjunto de 52 instâncias do SWE-bench Verified, o controle deliberado no-op-composite isola a contribuição do conjunto em +4 para Glm 5.2 e +5 para Gpt.
  • Logs de eventos confirmam que os mecanismos disparam e previnem regressões durante avaliações de execução única.

O sistema aborda a violação das garantias da teoria de aprendizado em agentes autoevolutivos, garantindo que as modificações sejam auditáveis e limitadas.