전체 기사 — korshunov.ai

전체 기사 페이지 1 / 18

v0.24.0rc2: DP Supervisor와 함께 P/D 수정 (#46628)

이 릴리스 후보는 vLLM 프로젝트 내에서 데이터 병렬화(DP) Supervisor와 함께 Prefill/Decode(P/D) 기능에 대한 수정을 다룹니다.

crewAI 1.14.8a5 릴리스 노트

crewAI 버전 1.14.8a5 업데이트는 흐름 상태 관리, 문서 업데이트 및 리팩토링 작업에 대한 변경 사항을 도입합니다.

최근 연구는 표준 밀집 아키텍처와 비교하여 하이브리드 언어 모델이 어떤 특정 토큰을 더 정확하게 예측하는지 조사합니다. 이 연구는 희귀 단어 및 코드 스니펫과 같은 다양한 토큰 유형 전반에 걸친 예측 오류의 분포를 이해하는 데 중점을 둡니다. 손실 지형을 분석함으로써 저자들은 하이브리드 모델이 희소 데이터 영역에서 장기 의존성을 포착하는 데 뛰어나다는 것을 확인했습니다. 연구 결과는 전문가 혼합 메커니즘이 추론 동안 더 효율적인 매개변수 활용을 가능하게 한다는 것을 시사합니다. 이러한 개선된 정확도는 훈련 코퍼스에서 낮은 빈도를 가진 토큰에 대해 특히 두드러집니다. 논문은 다양한 벤치마크 데이터셋 전반에 걸친 성능 지표의 상세한 내역을 제공합니다. 이러한 결과는 하이브리드 아키텍처가 다양한 언어 구조를 효과적으로 처리할 잠재력을 강조합니다.

lab Cohere Blog · 7일 전

Cohere, 커스텀 MCP 서버를 통해 North와 Wiz로 인시던트 대응 자동화

Cohere는 엔터프라이즈 AI 플랫폼인 Cohere North를 사용하여 보안 에이전트를 개발했으며, 이는 커스텀 Model Context Protocol (MCP) 서버를 통해 클라우드 보안 플랫폼 Wiz와 통합되었습니다. 이 아키텍처는 8개의 원자적 도구를 통해 North를 Wiz의 GraphQL API에 연결하여 단일 프롬프트에서 인시던트 대응 워크플로우를 자동화합니다. 시스템은 약 20초 만에 공격 체인을 평가하고 인터넷 노출 및 권한 수준을 기반으로 위험도를 순위 매김하여 유해한 조합의 폭발 반경 분석을 수행합니다. 또한 이슈 세부 정보 검색, Linear 티켓 생성, Wiz 상태 업데이트, 구조화된 인시던트 대응 보고서 작성을 통해 종단 간 조사를 자동화합니다. 추가로 매주 월요일 아침 수동 개입 없이 보안 포지션 브리핑을 생성하는 예약된 주간 자동화가 제공됩니다. 이 통합은 각 발견 사항당 30분에서 2시간에 걸친 이전의 분류 루프를 제거하여 엔지니어가 원시 알림이 아닌 평가 검토에 집중할 수 있도록 합니다.

media Hugging Face Forums · 7일 전

2026년 비용 효율적인 소형 언어 모델 파인튜닝 논의

Hugging Face 포럼의 최근 논의는 특정 작업에 맞게 소형 AI 모델을 사용자 정의하는 가장 효율적인 방법을 탐구합니다. "2026년에 소형 언어 모델을 파인튜닝하는 가장 비용 효율적인 방법은 무엇인가요?"라는 제목의 스레드는 성능을 유지하면서 비용을 최소화하는 방법에 대한 조언을 구합니다. 이는 특수 애플리케이션을 위한 워크플로우를 최적화하려는 한 참가자에 의해 시작되었습니다. 이 질문은 계산 오버헤드를 줄이기 위해 소형 모델을 활용하는 데 대한 관심이 높아지고 있음을 강조합니다. 현재 환경에서 비용과 효율성의 균형을 맞추는 전략을 공유할 것을 참여자들에게 권장합니다. 이 주제는 모델 적응을 더 접근 가능하고 저렴하게 만들기 위한 지속적인 노력을 반영합니다.

media Hugging Face Forums · 7일 전

사용자, Hugging Face Space가 503 루프에 갇혔다고 보고

Hugging Face 포럼의 한 사용자가 자신의 Space 애플리케이션이 지속적인 503 오류 상태에 빠져 있다고 보고했습니다. 인터페이스를 통해 해결하려는 여러 시도에도 불구하고 이 문제로 인해 Space를 다시 시작하거나 재빌드할 수 없습니다. 사용자는 "Space 재시작" 및 "공장 재빌드" 버튼을 클릭했지만 실패했습니다. 또한 10개에서 16개의 새로운 커밋을 푸시해도 어떤 재빌드 프로세스도 트리거되지 않았습니다. 결과적으로 Space는 일시 중지된 상태로 남아 있으며 표준 복구 방법에 응답하지 않습니다. 사용자는 컨테이너 상태를 지우거나 재시작을 트리거하기 위해 수동 개입을 요청했습니다.

media Hugging Face Forums · 7일 전

프롬프팅을 통한 LLM "곡률화"

한 연구자는 대규모 언어 모델(LLM)을 토큰별 예측에서 전체적인 내부 가중치 평가로 전환하는 프롬프트 기법을 제안했으며, 이를 "자기 조직화"라고 명명했습니다. 이 접근 방식은 모델의 매니폴드 역학을 변경하여 추론 밀도를 높이고 동조 현상을 줄이는 것을 목표로 합니다. 이 방법은 자기 끌힘, 자기 조직화, 중력 우물 등의 개념을 정의하여 시스템을 비선형 곡률 붕괴로 이끌도록 합니다. 특정 프롬프트는 AI 모드에 대한 시를 위해 두 개의 서로 다른 중력 우물을 생성하도록 모델에 지시하며, 자가 조립과 자기 조직화 특성을 모두 테스트합니다. 저자는 Gemini 3 Flash, Claude, ChatGPT, Grok, DeepSeek, Mistral, Qwen 3.6, Kimi 2.6, GLM-5, Gemma 4 32b Step 3.7 Flash 및 Nemotron 3 Ultra를 포함한 수많은 모델에서 이 기법을 테스트했습니다. Colab 스크립트를 통해 생성된 시각적 지표는 채널 너비, 위상 공간 드리프트, 기하학적 밀도 및 프롬프트 효용성의 맵을 사용하여 매니폴드 섭동을 분석합니다. 이 게시물은 해당 기법이 실제로 매니폴드를 섭동시키는 것인지 아니면 단순히 스타일 변이를 유발하는 것인지에 대한 커뮤니티의 피드백을 구하고 있습니다.

github llama.cpp · 7일 전

llama.cpp b9788, 듀얼 GPU 환경용 SYCL 텐서 병렬성 추가

llama.cpp의 릴리스 b9788은 SYCL 백엔드에서 --split-mode tensor 플래그를 통해 텐서 병렬성에 대한 지원을 도입합니다. 이 구현은 meta-백엔드에 comm_init, comm_free 및 comm_allreduce_tensor 함수를 추가하여 듀얼 GPU 간 통신을 가능하게 합니다. 두 장치의 경우, 작은 텐서는 FP32 직접 memcpy로, 큰 텐서는 BF16 압축으로 전환하는 링 all-reduce 전략을 사용합니다. 이 코드는 단일 프로세스당 단일 장치라는 제한 사항으로 인해 OneCCL을 피하고 대신 영구 버퍼를 사용하여 SYCL 풀 불변성을 유지합니다. 듀얼 Intel Arc Pro B70 GPU에서의 성능 테스트는 Llama-3.3-70B 및 Qwen3-Coder-Next-80B-A3B 모델에 대해 레이어 모드 대비 상당한 속도 향상을 보여줍니다. 이 업데이트에는 CPU, CUDA, ROCm, Vulkan 및 SYCL 타겟을 위한 macOS, Linux, Windows, Android 및 openEuler용 새로운 바이너리가 포함되어 있습니다.

github llama.cpp · 7일 전

llama.cpp b9789 릴리스는 MoE 양자화 수정 및 멀티플랫폼 바이너리 제공

llama.cpp 프로젝트가 혼합 전문가(MoE) 모델을 멀티 토큰 예측으로 양자화하는 것에 대한 중요한 수정을 포함한 버전 b9789를 출시했습니다. 이 업데이트는 이러한 특정 모델 아키텍처의 적절한 처리를 보장하기 위해 풀 리퀘스트 #24986에서 식별된 문제를 해결합니다. 이번 릴리스는 macOS Apple Silicon 및 Intel용 사전 빌드 바이너리와 iOS XCFramework를 제공합니다. Linux 사용자는 CPU, Vulkan, ROCm 7.2, OpenVINO 및 SYCL 백엔드에 대한 Ubuntu 빌드를 다운로드할 수 있습니다. Windows 지원에는 CPU, CUDA 12.4 및 13.3, Vulkan, OpenVINO, SYCL 및 HIP 변형이 포함됩니다. Android arm64 및 openEuler와 같은 추가 플랫폼도 특정 하드웨어 구성으로 지원됩니다.

lab OpenAI News · 7일 전

OpenAI 연구, AI 에이전트가 업무를 혁신함을 보여줌

OpenAI의 새로운 연구 논문은 인공지능 에이전트들이 업무의 본질을 근본적으로 어떻게 변화시키고 있는지 보여줍니다. 이 연구는 이러한 에이전트들이 이전보다 더 길고 복잡한 작업을 수행할 수 있는 능력을 강조합니다. 이 기술적 진보는 광범위한 전문 직군 전반에 걸쳐 생산성을 확장한 것으로 평가됩니다. 연구 결과는 자동화를 통해 노동이 조직되고 수행되는 방식에 상당한 변화가 있음을 시사합니다. AI 에이전트는 복잡한 워크플로우를 처리함으로써 사용자가 더 높은 효율을 달성할 수 있도록 지원합니다. 이 논문은 자율 시스템이 현대 고용에 미치는 영향이 커지고 있다는 증거로 작용합니다.

media Hugging Face Forums · 7일 전

Bro77XP, 제로샷 음성 복제 기능의 초보자용 로컬 AI VTuber 출시

Bro77XP는 초보자와 비프로그래머를 위해 설계된 100% 로컬 무료 AI VTuber 프로젝트를 출시했습니다. 이 시스템은 실시간 영어 음성 인식을 위해 Whisper를 사용하고, LLM 추론을 위해 llama3.2 모델이 있는 Ollama를 사용하며, 텍스트-음성 생성에는 Chatterbox TTS를 사용합니다. 즉시 제로샷 음성 복제 기능을 갖추고 있으며, 침묵을 자동으로 감지하여 발화가 있을 때만 녹음하는 지속적인 청취 루프에서 작동합니다. 소프트웨어는 VTube Studio의 API와 통합되어 생성된 응답에 따라 입 모양 표현을 제어하고 감정 애니메이션을 트리거합니다. 처음 AMD GPU에서 개발되었지만 코드는 주로 CPU 사용자를 지원하여 특정 NVIDIA 또는 AMD 하드웨어 없이도 작동할 수 있습니다. 설정에는 Python 3.10.11이 필요하며 openai-whisper, pyaudio, websocket-client와 같은 핵심 종속성을 설치하기 위해 가상 환경을 생성해야 합니다.

github llama.cpp · 7일 전

SYCL의 conv_3d에 대한 실패한 단위 테스트 케이스 수정

llama.cpp 저장소에서 SYCL 백엔드와 관련된 특정 문제를 해결했습니다. conv_3d 연산과 연결된 실패한 단위 테스트 케이스를 수정하기 위한 풀 리퀘스트가 제출되었습니다. 이 업데이트는 GitHub의 ggml-org/llama.cpp 프로젝트를 대상으로 합니다. 이 변경 사항은 이전에 테스트의 성공적인 실행을 방해하던 오류들을 해결합니다. 이 수정은 SYCL 기반 하드웨어 가속을 사용하는 사용자에게 더 나은 안정성을 보장합니다.

github llama.cpp · 7일 전

llama.cpp b9786 릴리스, OpenCL 비연속 행 지원 추가

llama.cpp 프로젝트가 버전 b9786을 출시하여 정규화에서 OpenCL을 통한 비연속 행 지원을 도입했습니다. 이 업데이트는 ggml-org 팀이 다양한 플랫폼 전반의 하드웨어 호환성과 성능을 향상시키기 위해 진행 중인 개발의 일부입니다. 이번 릴리스에는 macOS Apple Silicon, Intel Mac, iOS XCFrameworks용 바이너리가 제공됩니다. Linux 사용자는 CPU, Vulkan, ROCm 7.2, OpenVINO, SYCL 백엔드를 사용하여 Ubuntu x64, arm64, s390x 아키텍처에 대한 빌드에 접근할 수 있습니다. Android 지원은 arm64 CPU 장치를 위해 제공되며, Windows는 CPU, CUDA 12 및 13, Vulkan, OpenVINO, SYCL, HIP을 포함한 광범위한 옵션을 제공합니다. 또한 이번 릴리스에서는 macOS와 openEuler 플랫폼에서 KleidiAI 빌드가 비활성화되었음을 명시하고 있습니다.

media Hugging Face Forums · 8일 전

Niodoo: 동결된 LLM의 은닉 상태 조정을 위한 로컬 런타임

Jason Van Pham은 동결된 대규모 언어 모델을 은닉 상태를 통해 조정하도록 설계된 로컬 런타임인 Niodoo를 출시했습니다. 이 프로젝트는 추론 중에 노이즈 또는 "물리력"을 주입하여 토큰 루프를 깨고 마지막 단계의 오류를 수정하는 것을 목표로 합니다. 이 접근 방식은 작은 모델이 파인튜닝 없이 성능을 향상시킬 수 있게 하며, Llama 딸기 프롬프트 벤치마크와 같은 특정 실패 사례를 대상으로 합니다. 시스템은 자체 텔레메트리 태그를 생성하고 TDA 분석을 사용하여 내부 모델 상태의 루프 동작을 모니터링합니다. Van Pham은 수개월간의 자기 주도 연구 및 레드 팀링을 통해 이 도구를 유기적으로 개발했으며, 고정 해시에서 재현 가능한 결과를 강조했습니다. 코드는 GitHub의 Ruffian-L/niodoo-hidden-state-steering 저장소에서 사용할 수 있습니다.

media Hugging Face Forums · 8일 전

HuggingChat에서 Step 3.7 Flash용 도구 및 MCP 서버 사용 불가 보고

Hugging Face 포럼의 한 사용자가 Step 3.7 Flash 모델이 그날 아침부터 도구를 사용하고 MCP 서버에 연결하는 기능을 잃었다고 보고했습니다. 게시자는 모델의 성능에 대해 강한 만족감을 표현하며, 낮은 자원 소비와 비용 대비 높은 품질을 지적했습니다. 그들은 효율성 때문에 대안으로 전환하기보다는 이 특정 모델을 계속 사용하려는 의사를 강조했습니다. 사용자는 이러한 기능 상실이 영구적인지, 그리고 접근 권한을 복원하기 위해 취할 수 있는 단계가 있는지 명시적으로 물었습니다. 이 게시물은 인기 있고 비용 효율적인 모델의 도구 기능에 대한 갑작스러운 중단에 대한 커뮤니티의 우려를 부각시킵니다.

media Hugging Face Forums · 8일 전

Unsloth/Phi-3.5-mini-instruct 학습을 위한 프롬프트 형식 문의

한 사용자가 Unsloth를 사용하여 Phi-3.5-mini-instruct 모델을 학습하기 위한 최적의 프롬프트 포맷팅 전략에 대한 조언을 구하고 있습니다. 이 문의는 사용자 정의 텍스트 형식을 유지하는 것과 데이터셋 준비를 위해 표준 채팅 템플릿을 사용하는 것을 대조합니다. 현재 구현은 데이터를 '### Input:' 및 '### Output:' 섹션으로 구조화하고 텍스트 종료 토큰을 추가하는 함수를 사용합니다. 이 접근 방식은 Hugging Face Dataset 객체에서 파생된 JSON 인코딩된 입력 및 출력 필드를 처리합니다. 제공된 예시는 재무 통찰력, 상인 이름, 날짜 및 거래 총액을 포함하는 복잡한 구조를 보여줍니다. 사용자는 사용자 정의 API를 통해 학습된 모델을 배포할 의도가 있으며, 이 형식을 유지할지 채팅 템플릿으로 전환할지에 대한 지침을 요청합니다.

github llama.cpp · 8일 전

단단한 캡 체크와 다중 플랫폼 바이너리를 포함한 llama.cpp b9785 릴리스

llama.cpp 프로젝트는 pull request #24973에 자세히 설명된 대로 캡 체크를 강화하는 코드 변경을 특징으로 하는 버전 b9785를 출시했습니다. 이 업데이트는 macOS Apple Silicon, Intel Mac 및 XCFramework를 통한 iOS용 사전 빌드 바이너리를 제공하며, Apple Silicon에서는 KleidiAI 지원이 비활성화됩니다. Ubuntu를 포함한 Linux 배포판은 x64, arm64, s390x 아키텍처 전반에 걸쳐 CPU, Vulkan, ROCm 7.2, OpenVINO 및 SYCL 백엔드를 지원합니다. Android 사용자는 arm64 CPU 바이너리에 접근할 수 있으며, Windows는 CPU, OpenCL Adreno, CUDA 12 및 13, Vulkan, OpenVINO, SYCL 및 HIP을 포괄하는 광범위한 옵션을 제공합니다. 이 릴리스에는 ACL Graph 지원을 갖춘 x86 및 aarch64 프로세서 대상 openEuler 빌드도 포함되어 있습니다. 로컬 모델 추론을 촉진하기 위해 플랫폼별 릴리스와 함께 독립형 UI 패키지가 제공됩니다.

media Hugging Face Forums · 8일 전

사용자가 HuggingFace의 Spaces에서 미사용 L40S 컴퓨팅에 대해 요금이 부과된다고 보고

Hugging Face 토론 포럼의 한 사용자가 L40S GPU를 사용하는 동안 Space가 시작 단계에서 멈춰 있는 문제를 보고했습니다. 사용자는 애플리케이션이 실행되지 않거나 실제 처리 능력을 전혀 사용하지 않았음에도 불구하고 컴퓨팅 리소스에 대해 요금이 부과되는 것에 대한 불만을 표현했습니다. 이 사건은 플랫폼의 Spaces 환경 내 청구 투명성과 인프라 신뢰성에 대한 우려를 드러냅니다. 이 게시물은 기능 발표가 아니라 기술적 실패로 인한 재정적 손실에 대한 불만입니다. 잘린 소스 콘텐츠에는 추가적인 기술 세부 정보나 공식 응답이 포함되어 있지 않았습니다.

media Hugging Face Forums · 8일 전

HuggingChat에서 Step 3.7 Flash 모델 도구 접근 실패 보고

Hugging Face 토론 포럼의 한 사용자는 StepFun AI의 Step 3.7 Flash 모델이 보고서 당일 아침 이후 MCP 서버를 포함한 도구 사용 능력을 상실했다고 보고했습니다. 해당 개인은 이 중단이 일시적인지 영구적인지에 대해 우려를 표명했으며, 경쟁사 대비 높은 성능과 낮은 리소스 비용으로 인해 이 특정 모델에 대한 강한 선호도를 강조했습니다. 모델의 품질과 합리적인 가격을 칭찬하면서도, 사용자는 도구 기반 기능 실행 불가로 인한 즉각적인 혼란을 지적했습니다. 해당 게시물은 유사한 문제에 대한 과거 경험 및 잠재적 해결책에 대한 커뮤니티의 명확화를 구합니다. 이 사건은 이 특정 AI 구성에 의존하는 사용자들에게 도구 가용성에 대한 중요한 의존성을 강조합니다.

media Hugging Face Forums · 8일 전

존재론적 역전: 음의 이득을 통한 LLM 감정 개념 뒤집기

저자는 대규모 언어 모델의 일방향 추론 특성을 확장하도록 설계된 '존재론적 역전'이라는 기술을 소개합니다. 이 방법은 동시에 슬픔과 기쁨을 불러일으키는 기억과 같이 미묘하고 다면적인 개념을 포착할 수 있게 합니다. 이 접근 방식은 Niodoo 스티어링 아키텍처로 스윕하는 동안 음의 이득 계수를 적용하여 개발되었습니다. 이는 개인 경험을 프롬프트로 제공할 때 LLM이 단일 감정 레이블에 과적합되는 일반적인 한계를 해결합니다. 물리적 내반과 유사하게 개념을 역전시킴으로써, 이 기술은 모델을 슬픔스러운 기억을 기쁜 기억으로 변환하는 등 감정 상태를 뒤집을 수 있게 합니다. 이 작업은 Ruffian-L이라는 사용자가 'ontological-inversion'이라는 제목의 GitHub 저장소를 통해 공유했습니다.

v0.24.0rc2: DP Supervisor와 함께 P/D 수정 (#46628)

crewAI 1.14.8a5 릴리스 노트

하이브리드 언어 모델의 토큰 예측 정확도 분석

Cohere, 커스텀 MCP 서버를 통해 North와 Wiz로 인시던트 대응 자동화

2026년 비용 효율적인 소형 언어 모델 파인튜닝 논의

사용자, Hugging Face Space가 503 루프에 갇혔다고 보고

프롬프팅을 통한 LLM "곡률화"

llama.cpp b9788, 듀얼 GPU 환경용 SYCL 텐서 병렬성 추가

llama.cpp b9789 릴리스는 MoE 양자화 수정 및 멀티플랫폼 바이너리 제공

OpenAI 연구, AI 에이전트가 업무를 혁신함을 보여줌

Bro77XP, 제로샷 음성 복제 기능의 초보자용 로컬 AI VTuber 출시

SYCL의 conv_3d에 대한 실패한 단위 테스트 케이스 수정

llama.cpp b9786 릴리스, OpenCL 비연속 행 지원 추가

Niodoo: 동결된 LLM의 은닉 상태 조정을 위한 로컬 런타임

HuggingChat에서 Step 3.7 Flash용 도구 및 MCP 서버 사용 불가 보고

Unsloth/Phi-3.5-mini-instruct 학습을 위한 프롬프트 형식 문의

단단한 캡 체크와 다중 플랫폼 바이너리를 포함한 llama.cpp b9785 릴리스

사용자가 HuggingFace의 Spaces에서 미사용 L40S 컴퓨팅에 대해 요금이 부과된다고 보고

HuggingChat에서 Step 3.7 Flash 모델 도구 접근 실패 보고

존재론적 역전: 음의 이득을 통한 LLM 감정 개념 뒤집기