세대 간 컨텍스트 아키텍처: LLM 컨텍스트 부패 해결
세대 간 컨텍스트 아키텍처(GCA)는 멀티 에이전트 시스템에서 "컨텍스트 부패"와 주의력 희석을 해결하기 위해 LLM의 컨텍스트 창을 무한 저장소가 아닌 유한한 수명으로 취급할 것을 제안합니다. 인공적인 사망을 강제함으로써 성능이 저하되기 전에 에이전트를 종료하고, 평면 파일 Markdown vault를 통해 상태를 새 세대에 전달합니다.
세대 간 컨텍스트 아키텍처(GCA)는 멀티 에이전트 시스템에서 "컨텍스트 부패"와 주의력 희석을 해결하기 위해 LLM의 컨텍스트 창을 무한 저장소가 아닌 유한한 수명으로 취급할 것을 제안합니다. 인공적인 사망을 강제함으로써 성능이 저하되기 전에 에이전트를 종료하고, 평면 파일 Markdown vault를 통해 상태를 새 세대에 전달합니다.
Transformer의 내부 작동 방식을 상세히 설명하는 오픈소스 양국어(영어/스페인어) 가이드가 출판되었습니다. 이 자료는 어텐션 붕괴 및 KV-캐시 압축과 같은 개념 뒤의 정확한 수학 및 메커니즘을 다룹니다.
HP Inc.은 성공적인 파일럿을 거치며 OpenAI와의 전략적 파트너십을 확대하고, 고객 경험, 직원 생산성, 소프트웨어 개발 전반에 AI를 배포하고 있습니다. 이 회사는 실험적 사용 사례에서 기업 전체의 프로덕션으로 전환하는 과정에서 컨텍스트, 권한, 평가를 관리하기 위해 통합 운영 모델로서 OpenAI Frontier 플랫폼을 활용합니다.
llama.cpp 프로젝트는 추론 토큰을 유지하기 위해 Jinja 채팅 템플릿용 새로운 `--reasoning-preserve` 플래그를 도입한 버전 b9837을 출시했습니다. 이 업데이트에는 수정된 도움말 메시지가 포함되어 있으며, 다양한 하드웨어 백엔드에서 macOS, Linux, Windows, Android 및 openEuler 에 대한 사전 빌드된 바이너리를 제공합니다.
저자는 토크나이저나 학습된 입력 임베딩 없이 0-파라미터 HSL 바이트 기판을 사용하여 음성-텍스트(STT) 및 텍스트-음성(TTS) 모델을 구축하는 연구 프로젝트인 HoLo-ToLk를 소개합니다. 이 작업은 특정 아키텍처 수정과 결합할 때 원시 HSL 바이트가 오디오 처리에 실행 가능한 신호로 사용될 수 있음을 보여줍니다.
llama.cpp 프로젝트는 단일 모델 모드에서 정지 및 추론 건너뛰기 기능에 대한 수정을 포함하는 버전 b9835를 출시했습니다. 이 업데이트는 모델 추론 중 제어를 개선하기 위해 사용자 인터페이스 내의 특정 문제를 해결합니다.
포럼 사용자는 신경망이나 AI 시스템을 바이너리 코드를 이해하도록 훈련시키는 것이 특히 코딩 작업에서 전반적인 능력을 크게 향상시킬 수 있는지라는 추측성 질문을 제기했습니다.
한 사용자가 금전적 거래의 필요성을 제거하면서 개인이 AI 모델을 학습하기 위해 데이터를 서로 교환할 수 있는 웹사이트의 개념을 제안합니다. 이 시스템은 크레딧 기반 경제에서 작동하며, 사용자는 정해진 양의 크레딧으로 시작하여 특정 데이터 요구 사항에 대한 바운티를 게시합니다.
llama.cpp 프로젝트가 버전 b9833을 출시하여, 다양한 버그 수정 및 리팩토링과 함께 MiniCPM5 모델 전용 파서를 도입했습니다. 이 업데이트에는 도구 호출 파싱 지원, 구문 단순화, 그리고 Jinja2 표준과의 호환성을 보장하기 위해 수정된 Jinja API 동작이 포함됩니다.
llama.cpp 프로젝트가 버전 b9832를 출시했으며, 이는 Jinja 템플릿 엔진을 위한 새로운 `--dump-prog` 명령줄 옵션을 도입하여 디버깅을 지원합니다. 이 업데이트는 다양한 CPU 및 GPU 아키텍처에서 macOS, Linux, Android, Windows, openEuler용 사전 빌드된 바이너리도 포함합니다.
llama.cpp b9831 릴리스는 레이어 유형별 슬라이딩 윈도우 어텐션을 포함한 DFlash v2 지원을 도입하고, 여러 플랫폼을 위한 광범위한 사전 빌드된 바이너리를 제공합니다.
llama.cpp b9830 릴리스는 llama download 명령어와 함께 --offline 플래그를 사용할 수 있는 기능을 도입하여, 스크립트가 네트워크 접근 없이 캐시된 모델을 확인할 수 있게 합니다. 이 업데이트는 URL 작업의 on_done 콜백에서 first_path가 참조로 잘못 캡처되어 발생했던 잠재적인 use-after-free 취약점도 해결합니다.
Hugging Face 포럼의 한 사용자가 특히 사용자 이름 "zhoucantd"를 식별하여 계정을 복구할 수 있는지 묻고 있습니다. 이 게시물은 이 요청에 대한 두 명의 참가자가 참여한 토론 스레드를 나타냅니다.
UCTF(Universal Compressed Training Format)라는 새로운 개념은 다양한 언어를 통일된 언어 비의존 토큰 형식으로 압축하여 다국어 LLM 학습에서의 의미적 중복을 해결하기 위한 중재 계층을 제안합니다.
한 사용자가 최근 Gradio 업데이트 후 CORS 정책 오류로 인해 이전에 작동하던 웹사이트의 AI 챗봇 위젯이 작동을 멈췄다고 보고했습니다. 이 오류는 응답의 'Access-Control-Allow-Credentials' 헤더가 비어 있어 클라이언트의 요청 자격 증명 모드와 충돌함을 나타냅니다.
본 기사는 대규모 언어 모델(LLM)이 그 겉보기 지능을 독립적인 기계적 계산이나 단순한 토큰 예측에서가 아니라, 언어 자체 내부의 깊은 기하학적 관계와 숨겨진 상태에서 비롯된다고 주장한다.
llama.cpp 프로젝트는 서버, 공통 구성 요소, 추론 디코딩 모듈에서 로깅 출력을 줄인 버전 b9829를 출시했습니다. 이 업데이트는 CMN_을 COM_로 교체하여 명명 규칙을 표준화합니다.
Hugging Face 포럼의 한 사용자가 스도쿠에 중점을 둔 머신러닝 및 딥러닝 프로젝트를 구축하기 위해 협력자를 찾고 있습니다. 저자는 처음부터 데이터베이스를 작성하기 시작했으며, 이 목적으로 독립적인 조직을 설립하는 것을 목표로 하고 있습니다.
llama.cpp b9828 릴리스는 f16 및 f32 정밀도를 위한 Flash Attention 커널을 재구성하는 등 상당한 OpenCL 향상 기능을 도입합니다. 이 업데이트에는 새로운 prefill prepass 커널과 q4_0 및 q8_0 양자화 형식에 대한 지원이 포함됩니다.
한 사용자가 모델에서 만다린, 러시아어 및 아랍어를 아블레이션하여 주로 라틴어 기반 버전을 만드는 경험에 대해 묻고 있습니다. 목표는 영어가 활성화되지 않는 컨텍스트에서 추가 학습이나 안전한 가지치기를 위해 공간을 확보하는 것입니다.