Todos os artigos
media Hugging Face Forums · há 2 d

AgentSeal: Uma Auditoria de Disponibilidade de Corpus do SWE-bench Pro

A ferramenta de auditoria AgentSeal v5 avaliou a disponibilidade pública de artefatos no benchmark SWE-bench Pro para avaliar riscos potenciais de contaminação. O estudo constatou que, embora 12 instâncias apresentassem sobreposição de conteúdo determinística e 76 repositórios fossem membros prováveis do corpus, a maioria das evidências consistiu em replicação pública sem data conhecida, em vez de contaminação pré-corte comprovada.

lab Microsoft Research Blog · há 3 d

Memora: Uma Representação de Memória Harmônica que Equilibra Abstração e Especificidade

A Microsoft Research apresenta o Memora, um framework escalável de memória agêntica projetado para equilibrar abstração e especificidade em tarefas de IA de longo prazo. O sistema desacopla o conteúdo rico da memória das estruturas leves de recuperação, estabelecendo novos resultados state-of-the-art em benchmarks enquanto utiliza até 98% menos tokens de contexto.