전체 기사
media Hugging Face Forums · 3일 전

AgentSeal: SWE-bench Pro의 코퍼스 가용성 감사

AgentSeal v5 감사 도구는 잠재적 오염 위험을 평가하기 위해 SWE-bench Pro 벤치마크의 아티팩트 공개 가용성을 평가했습니다. 연구 결과, 12개의 인스턴스가 결정론적 콘텐츠 중복을 보였고 76개 저장소가 코퍼스 구성원일 가능성이 있었으나, 대부분의 증거는 차단 이전의 오염 입증보다는 날짜 미상의 공개 복제본이었습니다.

lab Microsoft Research Blog · 3일 전

Memora: 추상화와 구체성을 균형 있게 조화시키는 기억 표현

Microsoft Research는 장기 AI 작업에서 추상화와 구체성의 균형을 맞추도록 설계된 확장 가능한 에이전트 메모리 프레임워크인 Memora를 소개합니다. 이 시스템은 풍부한 메모리 내용을 경량 검색 구조와 분리하여, 컨텍스트 토큰을 최대 98%까지 줄이면서 벤치마크에서 새로운 최첨단 결과를 달성했습니다.