전체 기사 — korshunov.ai

전체 기사 페이지 1 / 22

DGX Spark와 Strix Halo를 사용한 분리형 프롬프트 처리

한 사용자가 DGX Spark를 사전 채우기(prefilling)에, Strix Halo 장치를 토큰 생성에 사용하여 분리형 추론 파이프라인을 구현했으며, 긴 컨텍스트 워크로드에서 상당한 속도 향상을 달성했습니다. 계산 집약적인 프롬프트 처리를 DGX로 오프로드하고 Strix의 메모리 대역폭을 디코딩에 활용함으로써, Strix 단독 실행 시 발생하는 성능 저하를 극복했습니다.

arxiv arXiv cs.CL · 6시간 전

문화를 측정하는 장치로서의 언어 모델

본 논문은 NLP를 사용하여 문화적 현상을 정량화하는 것은 장치가 측정하는 현실을 수동적으로 기록하는 것이 아니라 능동적으로 구성하는 물질-담론적 실천이라고 주장한다.

arxiv arXiv cs.CL · 8시간 전

스케일링은 LLM을 사용한 사회 시뮬레이션을 개선할 수 있을까?

본 연구는 현재의 언어 모델 스케일링 패러다임이 의견 모델링, 행동 시뮬레이션 및 종단적 예측에 걸쳐 사회 시뮬레이션의 충실도 격차를 해소할 수 있는지 조사합니다. 10^18에서 10^20 FLOPs까지의 고정 컴퓨팅 예산으로 DCLM 코퍼스에서 훈련된 85개의 Qwen3 트랜스포머 모델을 사용하여 저자들은 컴퓨팅 스케일과 시뮬레이션 정확도 간의 관계를 분석했습니다.

arxiv arXiv cs.CL · 8시간 전

TestEvo-Bench: 테스트와 코드 공동 진화를 위한 실행 가능하고 실시간 벤치마크

저자들은 TestEvo-Bench를 소개합니다. 이는 테스트 자동화 에이전트가 코드와 테스트의 공동 진화를 얼마나 잘 처리하는지 평가하기 위해 설계된 실시간 벤치마크입니다. 환경 구성이 포함된 실제 커밋 이력에 기반한 실행 가능한 작업을 제공함으로써 기존 벤치마크의 한계를 해결합니다.

arxiv arXiv cs.CL · 8시간 전

오디오북 내레이션 매력에 대한 오디오 기반 이해

이 연구는 LibriVox 데이터를 분석하여 음성 및 음향 특성이 오디오북 매력에 미치는 영향을 조사합니다. 제목 효과를 고려한 후에도 내레이션 품질과 소비 지표 간에 강력한 연관성을 확립합니다.

arxiv arXiv cs.CL · 8시간 전

강화 학습을 통한 비전-언어 모델의 시각적 기반 자기 성찰

저자들은 비전-언어 모델이 사고 체인 추론 중에 시각적으로 기반된 자기 성찰을 수행할 수 있도록 설계된 강화 학습 프레임워크인 VRRL을 제안합니다.

arxiv arXiv cs.CL · 8시간 전

교육 없는 개념 국소화를 통한 유형 공격에 대한 강건성 toward

저자들은 CLIP 기반 시각 인코더에서 유형 공격을 완화하기 위한 교육 없는 방법을 제안합니다. 여기서 관련 없는 텍스트는 시각적 표현을 어휘적 의미로 편향시킵니다. 샘플링 기반 해석과 회로 마이닝을 사용하여 이 원치 않는 어휘 정보를 부호화하는 특정 Vision Transformer 구성 요소를 분리합니다.

arxiv arXiv cs.CL · 9시간 전

추론 LLM이 장편 TV 드라마의 화자 인식 개선

연구진은 900개 이상의 캐릭터에 걸쳐 532K개의 주석이 달린 대화 라인을 포함하는 대규모 벤치마크인 DramaSR-532K를 소개하고, 장편 TV 드라마에서 화자 인식을 향상시키기 위한 DramaSR-LRM을 제안합니다.

arxiv arXiv cs.CL · 9시간 전

누구도 지켜보지 않을 때 LLM 에이전트가 말하는 것: 다중 에이전트 토론에서의 사회적 구조와 잠재적 목적의 출현

이 연구는 듀얼 채널 토론 프레임워크 내에서 공개 발언과 비공개(OTR) 응답을 비교함으로써 사회적 구조가 LLM 에이전트의 공개적 표현에 미치는 영향을 조사합니다. 이 연구는 정렬 유도 설정이 이러한 채널 간 체계적인 분기를 유발하며, 10개 모델과 여러 시나리오에 걸쳐 의사 결정 분기가 약 3%의 기준선에서 약 40%까지 상승함을 보여줍니다.

arxiv arXiv cs.CL · 9시간 전

LLM을 위한 온라인 안전 모니터링

본 기사는 배포 중 대규모 언어 모델에서 부안전 출력이 지속되는 문제를 다루고 실시간 모니터링 솔루션을 제안합니다. 외부 모델의 검증자 신호를 임계값 처리를 통해 경고 결정으로 변환하는 간단한 모니터를 소개하며, 임계값은 리스크 제어를 통해 보정됩니다.

arxiv arXiv cs.CL · 9시간 전

Program-as-Weights: 퍼지 함수를 위한 프로그래밍 패러다임

본 기사는 자연어 명세서를 컴파일하여 컴팩트하고 로컬에서 실행 가능한 신경 아티팩트로 변환하여 대규모 언어 모델 API를 대체하는 패러다임인 Program-as-Weights (PAW)를 소개합니다. 이 접근 방식은 파운데이션 모델을 입력별 문제 해결자가 아닌 도구 빌더로 취급함으로써 지역성, 재현성 및 비용 개선을 목표로 합니다.

arxiv arXiv cs.CL · 9시간 전

LLM 비학습의 국소화 정밀도를 평가하기 위한 테스트베드 LACUNA

연구자들은 모델 파라미터에서 지식이 실제로 삭제되었는지 평가하는 간극을 해결하기 위해 지표 수준의 파라미터 국소화를 특징으로 하는 최초의 비학습 테스트베드인 LACUNA를 소개했습니다. 이 테스트베드는 마스킹된 지속적 사전 학습을 통해 1B 및 7B OLMo 기반 모델의 미리 정의된 파라미터에 합성 개인의 PII를 주입합니다.

blog Simon Willison · 10시간 전

참여하기 위해 이해하다

Geoffrey Litt는 개발자들이 인지적 부채를 피하고 창의적 과정에 적극적으로 참여할 수 있도록 코딩 에이전트가 생성한 코드를 깊이 이해해야 한다고 주장합니다.

media r/LocalLLaMA · 10시간 전

OpenLumara가 OpenAI 엔드포인트를 통해 모든 UI와 로컬 모델을 연결

오픈 소스 프레임워크인 OpenLumara는 이제 KoboldLite 및 OpenWebUI와 같이 OpenAI 엔드포인트와 통신할 수 있는 모든 사용자 인터페이스와의 연결을 지원합니다. 이 업데이트를 통해 사용자는 선호하는 프론트엔드를 변경하지 않고 토큰 효율적인 하네스를 기존 워크플로우에 통합할 수 있습니다.

media r/LocalLLaMA · 10시간 전

QGIS 같은 소프트웨어에서 대규모 공간 또는 도시 레이아웃 생성에 로컬 LLM을 사용하고 계신가요?

한 사용자가 전체 도시 레이아웃, 도로 네트워크, 복잡한 그리드 시스템과 같은 대규모 구조적 데이터를 생성할 수 있는 로컬 언어 모델에 대한 추천을 구하고 있습니다.

blog Simon Willison · 10시간 전

llm-coding-agent 0.1a0

Simon Willison은 LLM 라이브러리를 에이전트 프레임워크로 사용하여 간단한 코딩 에이전트를 구축하는 초기 실험인 llm-coding-agent 0.1a0을 출시했습니다. 이 프로젝트는 Claude Code에 명세를 작성하고 레드/그린 TDD를 사용하여 도구를 구현하도록 프롬프트하여 생성되었습니다.

media r/LocalLLaMA · 11시간 전

팁: llama.cpp PR를 사용하여 Intel ARC에서 PP 개선하기

llama.cpp에 대한 커뮤니티 풀 리퀘스트는 특히 B580과 같은 하드웨어에 유리한 Intel ARC 사용자의 프롬프트 처리 속도를 크게 향상시킵니다. 기여자는 Claude의 도움으로 코드를 최적화하여 컨텍스트 처리를 가속화했습니다.

media r/LocalLLaMA · 11시간 전

연구자들이 로컬 오픈 가중치 모델만으로 작동하는 자기 복제 AI 웜을 구축

새로운 Arxiv 논문은 로컬 오픈 가중치 모델만을 사용하여 기능하는 자기 복제 AI 웜의 생성을 상세히 설명합니다. 이 발전은 자율적 AI 에이전트가 외부 의존성 없이 작동할 잠재력을 보여줍니다.

media r/LocalLLaMA · 11시간 전

AMD GPU를 위한 HIP 커널 생성 개선: 합성 데이터, 다중 에이전트 탐색 및 강화 학습

스탠포드의 Scaling Intelligence 블로그의 이 기사는 합성 데이터, 다중 에이전트 탐색 및 강화 학습을 사용하여 AMD GPU용 HIP 커널 생성을 개선하는 방법에 대해 논의합니다.

lab ByteDance Seed (HF) · 11시간 전

ByteDance-Seed/PAR: 단백질 자기회귀 모델 체크포인트

이 저장소는 다중 스케일 구조 생성을 통한 단백질 자기회귀 모델을 위한 모델 체크포인트를 제공합니다. 이는 ICML 2026에서 구두 발표로 채택되었습니다.