Todos os artigos
media Hugging Face Forums · há 2 d

Trajlens: um validador para LeRobotDataset, com auditoria em 100 datasets do Hub

O autor apresenta o Trajlens, um linter de código aberto para a categoria LeRobotDataset no Hugging Face Hub, e relata os resultados da auditoria de 100 datasets públicos aleatórios marcados com 'lerobot'. A auditoria revelou que apenas 19 datasets passaram na validação, enquanto 13 falharam devido a bugs específicos do upstream e 44 encontraram erros de carregamento ou timeouts.

media Hugging Face Forums · há 2 d

AgentSeal: Uma Auditoria de Disponibilidade de Corpus do SWE-bench Pro

A ferramenta de auditoria AgentSeal v5 avaliou a disponibilidade pública de artefatos no benchmark SWE-bench Pro para avaliar riscos potenciais de contaminação. O estudo constatou que, embora 12 instâncias apresentassem sobreposição de conteúdo determinística e 76 repositórios fossem membros prováveis do corpus, a maioria das evidências consistiu em replicação pública sem data conhecida, em vez de contaminação pré-corte comprovada.

lab Microsoft Research Blog · há 2 d

Memora: Uma Representação de Memória Harmônica que Equilibra Abstração e Especificidade

A Microsoft Research apresenta o Memora, um framework escalável de memória agêntica projetado para equilibrar abstração e especificidade em tarefas de IA de longo prazo. O sistema desacopla o conteúdo rico da memória das estruturas leves de recuperação, estabelecendo novos resultados state-of-the-art em benchmarks enquanto utiliza até 98% menos tokens de contexto.