ICML 2026의 Together AI: 풀 스택에 걸친 프론티어 연구
Together AI는 플랫폼 개발의 풀 스택을 아우르는 9편의 논문을 ICML 2026에서 발표합니다.
Together AI는 플랫폼 개발의 풀 스택을 아우르는 9편의 논문을 ICML 2026에서 발표합니다.
본 기사는 엔터프라이즈 Java 애플리케이션을 다른 프레임워크 간에 마이그레이션하는 동안 AI 에이전트의 성능을 평가하도록 설계된 벤치마크인 ScarfBench를 소개합니다. 이 연구는 프레임워크 마이그레이션의 복잡성을 강조하고 이 영역에서 에이전트 능력을 평가하기 위한 표준화된 평가 방법을 제안합니다.
llama.cpp 프로젝트는 flash_attn_mask_to_KV_max 커널에서 정수 절단 및 오버플로 오류를 방지하기 위한 CUDA 수정 사항을 포함하는 버전 b9851을 출시했습니다. 이 업데이트는 지정된 커널 내의 KQ 마스크 스트라이드와 관련된 문제를 해결합니다.
llama.cpp b9850 릴리스는 특정 모델 지원 업데이트를 도입하며, 여기에는 Qwen3Next에 대한 t_layer_inp 텐서 등록, 레이어 처리 루프 내 입력 할당 수정, qwen-coder-next에 대한 DFLASH 문제 해결이 포함됩니다. 또한 Qwen3 모델의 어텐션 정규화를 위한 텐서를 추가합니다.
Microsoft Research는 SkillOpt를 소개합니다. 이는 에이전트 스킬 파일을 동결된 대상 모델 외부의 학습 가능한 파라미터로 취급하여, 수동 스킬 편집을 제어된 최적화 프로세스로 전환하는 방법입니다. 이 접근 방식은 기본 모델 가중치를 업데이트하지 않고도 에이전트의 신뢰성과 일관성을 향상시킵니다.
Anthropic은 파편화된 과학적 도구를 단일 연구 환경으로 통합하도록 설계된 AI 작업대인 Claude Science를 베타로 출시했습니다. 이 플랫폼은 감사 가능한 아티팩트, 유연한 컴퓨팅 확장성, 그리고 유전체학 및 구조생물학과 같은 도메인을 위한 전문 에이전트를 제공하여 발견을 가속화하는 것을 목표로 합니다.
Anthropic은 Claude Sonnet 5를 출시했습니다. 이는 이전의 Opus 클래스 모델보다 낮은 비용으로 복잡한 계획, 도구 사용 및 자율적 코딩 작업을 수행하도록 설계된 새로운 에이전트형 AI 모델입니다. 이번 업데이트는 Sonnet 4.6 대비 추론, 안전성, 실행 측면에서 상당한 개선을 제공하면서도 Opus 4.8과의 성능 격차를 좁혔습니다.
Anthropic은 기본 모델을 Claude Sonnet 5로 업데이트한 Claude Code 버전 2.1.197을 출시했습니다. 이 새로운 모델은 네이티브 1M 토큰 컨텍스트 윈도우를 특징으로 하며, 8월 31일까지 프로모션 가격으로 제공됩니다.
GeneBench-Pro는 복잡한 유전체 추론 작업을 위해 모델을 평가하도록 설계된 벤치마크로, 대표적인 질문과 지원 자료를 보여주는 10개의 상세한 사례 연구를 특징으로 합니다. 각 사례 연구는 특정 생물학적 과제에 대한 모델 성능을 평가하는 데 필요한 원래 프롬프트, 데이터셋 및 컨텍스트를 제공합니다.
GeneBench-Pro는 원래 GeneBench를 확장하여 AI 에이전트가 계산 생물학에서 불확실성을 어떻게 처리하고 중요한 판단을 내리는지를 측정하기 위해 설계된 연구 수준 벤치마크입니다. 이는 데이터 노이즈 처리, 가정 수정, 결과가 결정 가능한 상태인지 판별하는 것과 같은 고차원 능력을 테스트함으로써 현재 평가의 한계를 극복합니다.
OpenAI 엔지니어들은 Rockset 데이터 인프라에서 설명할 수 없는 C++ 크래시를 두 가지 원인을 식별하여 해결했습니다: Azure 호스트의 침묵하는 하드웨어 손상과 GNU libunwind의 18년 된 레이스 컨디션.
OpenAI Signals 데이터는 전 세계적으로 ChatGPT 채택이 확산되고 심화되고 있음을 보여주며, 사용자들이 매일 50% 더 많은 메시지를 보내고 가입 후 6개월 만에 시도한 고유 작업 수가 두 배가 되었음을 나타냅니다.
llama.cpp b9849 릴리스는 URL 권한에서 대괄호로 묶인 IPv6 리터럴에 대한 지원을 도입하여 RFC 3986에 따라 [host]:port 형식을 서버가 파싱할 수 있게 합니다. 이 업데이트는 요청별 추적을 위해 bare remote_addr를 유지하면서 수신 로그, 프록시 헤더 및 클라이언트 재빌드의 올바른 포맷팅을 보장합니다.
Google은 지능형 애플리케이션 구축을 위한 개발자 역량을 강화하도록 설계된 두 가지 새로운 AI 모델인 Nano Banana 2 Lite와 Gemini Omni Flash를 출시했습니다.
이 기사는 머신러닝에서의 전문화가 모델의 복잡성 증가와 도메인별 전문 지식 필요성에 의해 주도되는 불가피한 추세라고 주장합니다.
llama.cpp 프로젝트는 65535개 이상의 행을 가진 테이블에서 `get_rows_back` 함수의 문제를 해결하기 위해 CUDA 백엔드에 대한 중요한 수정 사항을 포함하는 버전 b9848을 출시했습니다. 이 업데이트는 이전에 대규모 테이블 작업에 영향을 미쳤던 grid-y 클램핑 및 스트라이드 오류를 해결합니다.
Hugging Face 는 'Every Eval' 이니셔티브에서 나온 평가 결과를 표시하도록 모델 페이지를 업데이트하여 다양한 벤치마크에 걸친 모델 성능의 포괄적인 뷰를 제공합니다. 이 통합을 통해 사용자는 모델 허브 인터페이스 내에서 직접 광범위한 표준화된 메트릭에 액세스할 수 있습니다.
llama.cpp 프로젝트가 버전 b9847을 출시했으며, 여기에는 CUDA에서의 Gemma E4B MTP FlashAttention 수정과 사용하지 않는 템플릿 선언 제거가 포함됩니다.
llama.cpp 프로젝트는 Asahi Linux를 위한 Vulkan 백엔드 최적화를 포함하는 버전 b9846을 출시했습니다. 이 업데이트는 리눅스에서 실행 중인 Apple Silicon 하드웨어의 호환성과 성능을 개선하기 위해 행렬 곱의 블록 크기 루프를 롤백합니다.
llama.cpp 프로젝트는 NVFP4 양자화 형식에 대한 ggml-webgpu 지원을 도입한 버전 b9844를 출시했습니다. 이 업데이트는 다양한 하드웨어 백엔드에서 macOS, iOS, Linux, Android, Windows 및 openEuler용 사전 빌드된 바이너리도 제공합니다.