SkillOpt: Habilidades de agentes como parâmetros treináveis

A Microsoft Research apresenta o SkillOpt, um método que trata arquivos de habilidades de agentes como parâmetros treináveis fora de um modelo alvo congelado, transformando a edição manual de habilidades em um processo de otimização controlado. Esta abordagem melhora a confiabilidade e consistência dos agentes sem atualizar os pesos do modelo subjacente.

O SkillOpt organiza a edição de habilidades como um ciclo forward-backward-update onde um modelo otimizador separado refina as habilidades com base no feedback da trajetória.
O sistema usa edições de texto limitadas, validação por gate e buffers de edição rejeitada para evitar deriva não controlada do prompt.
Avaliado em seis benchmarks, sete modelos alvo e três modos de execução, o SkillOpt alcançou os melhores resultados ou empatou com os melhores em todas as 52 células de avaliação.
Com o GPT-5.5 no modo de chat direto, o SkillOpt aumentou a pontuação média do benchmark de 58,8 para 82,3, uma melhoria absoluta de +23,5 pontos.
Habilidades otimizadas demonstram transferibilidade entre escalas de modelos, harnesses de agentes e tarefas relacionadas, capturando conhecimento de fluxo de trabalho reutilizável.

Ao reformular a escrita de habilidades como um processo de treinamento com controle de tamanho de passo e validação, o SkillOpt aborda o obstáculo da evolução não controlada das habilidades, permitindo uma implantação mais confiável de agentes de IA em ambientes de produção.