전체 기사
media Hugging Face Forums · 10일 전

역량은 가중치에 없다: MLP 가중치 투영에 대한 경험적 부정 결과

경험적 연구는 한 트랜스포머 모델에서 다른 모델로 MLP 가중치를 투영하는 것이 의미적 역량을 이전하지 못한다는 것을 발견했습니다. 테스트된 모든 변형은 수정되지 않은 호스트 모델보다 더 나쁜 성능을 보였으며, 이는 가중치 투영에 구조적 제한이 있음을 나타냅니다. 이 결과는 벤치마크를 기반으로 한 모델 역량에 대한 공개적인 주장을 도전하며, 그러한 주장이 실제 내부 가중치 기하학을 반영하지 않음을 보여줍니다.

media Hugging Face Forums · 10일 전

The Clockwork Dark: 로컬 퍼스트 AI 내러티브 RPG 엔진

The Clockwork Dark은 로컬 퍼스트이며 AI 기반의 내러티브 RPG 엔진으로, 모든 게임 메커니즘을 결정론적 상태 머신으로 처리합니다. 이 엔진은 이야기를 서술하는 두 개의 자율 LLM을 특징으로 하며, 하나는 인내심 있는 세계의 목소리로, 다른 하나는 신뢰할 수 없는 신적인 조수 역할을 합니다. 플레이어는 침식하는 초자연적 부패와 싸우거나 빵집에서 평온한 삶을 사는 것 중 선택할 수 있으며, 두 경로 모두 유효한 엔딩으로 간주됩니다.

media Hugging Face Forums · 10일 전

Docker 컨테이너가 실행 중인데도 '시작 중'에 무한히 멈춤

사용자는 rocker/r2u에서 R/Shiny를 사용하는 Docker 컨테이너가 성공적으로 빌드되었고 로그에 'Listening on http://0.0.0.0:7860'이 표시되지만, 공간이 'starting' 상태로 남아 접근할 수 없다고 보고합니다. 코드 오류가 없음에도 문제가 지속되고 있으며, 사용자는 이것이 Hugging Face의 플랫폼 측 문제일 수 있다고 지적하며 더 많은 관심을 구하고 있습니다.

media Hugging Face Forums · 10일 전

OLMo-core와 Engraft graft의 소규모 디버그 비교

기본 OLMo3 600M 모델과 DeepSeek 스타일 Engraft graft가 적용된 버전 간 200단계 학습 비교에서 더 낮은 학습 및 평가 손실, 더 빠른 grad-norm 안정화, 개선된 초기 학습 동작이 나타났습니다. 레이어 1과 5에 주입된 Engraft graft는 학습 가능한 매개변수를 약 17억으로 증가시키지만 토큰당 활성 매개변수 증가는 40k로 유지되어 효율적인 메모리 사용을 시사합니다.

media Hugging Face Forums · 10일 전

인지적 가속기로서의 LLM: 위험은 환각만이 아니다

LLM은 단순히 환각을 일으키는 것이 아니라, 증거가 검증되기 전에 약한 가설을 일관되고 다듬어진 주장으로 변환함으로써 인간의 인지적 과신(amplify human epistemic overconfidence)을 증폭시킵니다. 이는 모델이 거짓말을 하기 때문이 아니라, 불확실성보다 우아한 설명을 선호하는 인간의 경향을 가속화하기 때문에 연구, 정책 및 기타 분야에서 조속한 확신의 위험을 초래합니다.

github llama.cpp · 10일 전

llama.cpp b9752 릴리스: 서버 리팩토링 및 크로스 플랫폼 바이너리

llama.cpp가 버전 b9752를 출시했으며, 이는 배치 구성에 중점을 둔 서버 리팩토링을 포함하며, 배치 풀(full) 케이스 처리 개선 및 버그 수정이 이루어졌습니다. 이 릴리스에는 macOS, Linux, Android, Windows, openEuler용 사전 빌드된 바이너리가 포함되어 있으며, CUDA, Vulkan, OpenVINO, SYCL과 같은 다양한 아키텍처와 가속 프레임워크를 지원합니다.