전체 기사
media Hugging Face Forums · 2일 전

AgentSeal: SWE-bench Pro의 코퍼스 가용성 감사

AgentSeal v5 감사 도구는 잠재적 오염 위험을 평가하기 위해 SWE-bench Pro 벤치마크의 아티팩트 공개 가용성을 평가했습니다. 연구 결과, 12개의 인스턴스가 결정론적 콘텐츠 중복을 보였고 76개 저장소가 코퍼스 구성원일 가능성이 있었으나, 대부분의 증거는 차단 이전의 오염 입증보다는 날짜 미상의 공개 복제본이었습니다.

lab Microsoft Research Blog · 2일 전

Memora: 추상화와 구체성을 균형 있게 조화시키는 기억 표현

Microsoft Research는 장기 AI 작업에서 추상화와 구체성의 균형을 맞추도록 설계된 확장 가능한 에이전트 메모리 프레임워크인 Memora를 소개합니다. 이 시스템은 풍부한 메모리 내용을 경량 검색 구조와 분리하여, 컨텍스트 토큰을 최대 98%까지 줄이면서 벤치마크에서 새로운 최첨단 결과를 달성했습니다.

lab OpenAI News · 3일 전

HP Inc., OpenAI와 프론티어 전략적 파트너십 발표

HP Inc.은 성공적인 파일럿을 거치며 OpenAI와의 전략적 파트너십을 확대하고, 고객 경험, 직원 생산성, 소프트웨어 개발 전반에 AI를 배포하고 있습니다. 이 회사는 실험적 사용 사례에서 기업 전체의 프로덕션으로 전환하는 과정에서 컨텍스트, 권한, 평가를 관리하기 위해 통합 운영 모델로서 OpenAI Frontier 플랫폼을 활용합니다.

github llama.cpp · 3일 전

llama.cpp b9837 릴리즈에 --reasoning-preserve 플래그 및 새 바이너리 추가

llama.cpp 프로젝트는 추론 토큰을 유지하기 위해 Jinja 채팅 템플릿용 새로운 `--reasoning-preserve` 플래그를 도입한 버전 b9837을 출시했습니다. 이 업데이트에는 수정된 도움말 메시지가 포함되어 있으며, 다양한 하드웨어 백엔드에서 macOS, Linux, Windows, Android 및 openEuler 에 대한 사전 빌드된 바이너리를 제공합니다.