과학자를 위한 AI 작업대인 Claude Science가 출시되었습니다
Anthropic은 파편화된 과학적 도구를 단일 연구 환경으로 통합하도록 설계된 AI 작업대인 Claude Science를 베타로 출시했습니다. 이 플랫폼은 감사 가능한 아티팩트, 유연한 컴퓨팅 확장성, 그리고 유전체학 및 구조생물학과 같은 도메인을 위한 전문 에이전트를 제공하여 발견을 가속화하는 것을 목표로 합니다.
Anthropic은 파편화된 과학적 도구를 단일 연구 환경으로 통합하도록 설계된 AI 작업대인 Claude Science를 베타로 출시했습니다. 이 플랫폼은 감사 가능한 아티팩트, 유연한 컴퓨팅 확장성, 그리고 유전체학 및 구조생물학과 같은 도메인을 위한 전문 에이전트를 제공하여 발견을 가속화하는 것을 목표로 합니다.
Anthropic은 Claude Sonnet 5를 출시했습니다. 이는 이전의 Opus 클래스 모델보다 낮은 비용으로 복잡한 계획, 도구 사용 및 자율적 코딩 작업을 수행하도록 설계된 새로운 에이전트형 AI 모델입니다. 이번 업데이트는 Sonnet 4.6 대비 추론, 안전성, 실행 측면에서 상당한 개선을 제공하면서도 Opus 4.8과의 성능 격차를 좁혔습니다.
GeneBench-Pro는 복잡한 유전체 추론 작업을 위해 모델을 평가하도록 설계된 벤치마크로, 대표적인 질문과 지원 자료를 보여주는 10개의 상세한 사례 연구를 특징으로 합니다. 각 사례 연구는 특정 생물학적 과제에 대한 모델 성능을 평가하는 데 필요한 원래 프롬프트, 데이터셋 및 컨텍스트를 제공합니다.
GeneBench-Pro는 원래 GeneBench를 확장하여 AI 에이전트가 계산 생물학에서 불확실성을 어떻게 처리하고 중요한 판단을 내리는지를 측정하기 위해 설계된 연구 수준 벤치마크입니다. 이는 데이터 노이즈 처리, 가정 수정, 결과가 결정 가능한 상태인지 판별하는 것과 같은 고차원 능력을 테스트함으로써 현재 평가의 한계를 극복합니다.
OpenAI 엔지니어들은 Rockset 데이터 인프라에서 설명할 수 없는 C++ 크래시를 두 가지 원인을 식별하여 해결했습니다: Azure 호스트의 침묵하는 하드웨어 손상과 GNU libunwind의 18년 된 레이스 컨디션.
OpenAI Signals 데이터는 전 세계적으로 ChatGPT 채택이 확산되고 심화되고 있음을 보여주며, 사용자들이 매일 50% 더 많은 메시지를 보내고 가입 후 6개월 만에 시도한 고유 작업 수가 두 배가 되었음을 나타냅니다.
Google은 지능형 애플리케이션 구축을 위한 개발자 역량을 강화하도록 설계된 두 가지 새로운 AI 모델인 Nano Banana 2 Lite와 Gemini Omni Flash를 출시했습니다.
연구자들은 수술적 임플란트 없이 자기뇌파(MEG) 기록으로부터 실시간 문장을 디코딩하는 비침습적 AI 파이프라인인 Brain2Qwerty v2를 출시했습니다. 이 시스템은 전체적으로 61%의 단어 정확도를 달성하며, 상위 수행자에게는 최대 78%에 달해 기존 비침습적 방법들을 크게 능가합니다.
OpenAI Economic Research은 ESCO 분류 체계와 유로스타 데이터를 활용하여 EU로 AI 일자리 전환 프레임워크를 확장했으며, 이는 AI 역량이 회원국 전반의 노동 시장을 어떻게 재편할 수 있는지 분석하는 데 사용되었습니다.
HP Inc.은 성공적인 파일럿을 거치며 OpenAI와의 전략적 파트너십을 확대하고, 고객 경험, 직원 생산성, 소프트웨어 개발 전반에 AI를 배포하고 있습니다. 이 회사는 실험적 사용 사례에서 기업 전체의 프로덕션으로 전환하는 과정에서 컨텍스트, 권한, 평가를 관리하기 위해 통합 운영 모델로서 OpenAI Frontier 플랫폼을 활용합니다.
OpenAI는 GPT-5.6 시리즈의 제한된 미리보기를 시작했으며, 플래그십인 Sol, 균형 잡힌 일상 작업을 위한 Terra, 빠르고 저렴한 작업을 위한 Luna 등 세 가지 새로운 모델을 소개했습니다. 이 초기 단계를 거친 후 수주 내에 신뢰할 수 있는 파트너들과 함께 이러한 모델들을 일반 공개할 계획입니다.
OpenAI의 새로운 연구 논문은 인공지능 에이전트들이 업무의 본질을 근본적으로 어떻게 변화시키고 있는지 보여줍니다. 이 연구는 이러한 에이전트들이 이전보다 더 길고 복잡한 작업을 수행할 수 있는 능력을 강조합니다. 이 기술적 진보는 광범위한 전문 직군 전반에 걸쳐 생산성을 확장한 것으로 평가됩니다. 연구 결과는 자동화를 통해 노동이 조직되고 수행되는 방식에 상당한 변화가 있음을 시사합니다. AI 에이전트는 복잡한 워크플로우를 처리함으로써 사용자가 더 높은 효율을 달성할 수 있도록 지원합니다. 이 논문은 자율 시스템이 현대 고용에 미치는 영향이 커지고 있다는 증거로 작용합니다.
구글은 Gemini 3.5 Flash에서 컴퓨터 사용 기능을 도입하여 모델이 코드를 실행하고 외부 도구와 상호작용할 수 있도록 했습니다. 이 기능을 통해 사용자는 프로그래밍 작업을 실행하고 통합 컴퓨팅 기능을 통해 실시간 정보에 접근할 수 있습니다.
Mistral Studio는 이제 워크스페이스 및 도구별로 커넥터 접근을 관리하기 위한 강화된 관리자 제어 기능을 제공합니다. 이를 통해 세분화된 권한 설정이 가능해집니다. 주요 기능으로는 범위(scope)가 적용된 API 키, 다중 계정 커넥터, 그리고 근본 원인 분석을 위한 새로운 커넥터 디버거가 있으며, 모두 엔터프라이즈 시스템과의 안전하고 감사 가능한 통합을 지원합니다.
OpenAI와 Broadcom는 대규모 언어 모델 추론을 위해 설계된 맞춤형 AI 칩인 Jalapeño를 출시했습니다. 이 칩은 AI 시스템의 성능, 효율성 및 확장성을 향상시키는 것을 목표로 합니다.
OpenAI는 앱피아 재단을 통해 평가 프레임워크 개발, 안전 관행 수립 및 글로벌 협력 증진을 통해 고급 AI의 공유된 표준을 추진하고 있습니다.
Claude Tag은 Slack에서 @Claude를 태그하여 작업을 위임할 수 있게 하며, 선택된 채널, 도구, 코드베이스에 접근할 수 있습니다. 채널 컨텍스트로부터 학습하고 비동기적으로 작동하며, 관련 정보를 사용자에게 능동적으로 업데이트하여 주도성을 발휘합니다. 현재 Anthropic 제품 팀 코드의 65%가 내부 Claude Tag을 통해 생성되었으며, 이제 Claude Enterprise 및 Team 고객을 대상으로 베타 버전으로 제공됩니다.
GPT-5 Pro는 T 세포 행동에 대한 핵심 통찰력을 제공하여 3년 된 면역학 퍼즐을 해결했습니다. 이 발견은 암 및 자가면역 질환 연구에 진전을 가져올 수 있습니다.
Mistral OCR 4는 10개 언어 그룹에 걸쳐 170개 언어에 대한 바운딩 박스, 블록 분류, 인라인 신뢰도 점수를 도입합니다. 이는 인간 선호도 평가에서 72%의 승률로 주요 OCR 시스템을 압도하며 OlmOCRBench에서 85.20점으로 최고 점수를 달성합니다. 또한 단일 컨테이너로 자체 호스팅 배포를 제공하고 RAG 및 문서 수집과 같은 엔터프라이즈 사용 사례를 지원합니다.
Omio는 OpenAI를 활용하여 대화형 여행 경험을 강화합니다. 이 회사는 AI를 사용하여 제품 개발을 가속화하고 AI 네이티브 비즈니스 모델로 전환하고 있습니다.