科学者向けのAIワークベンチ「Claude Science」が利用可能に
Anthropicは、断片化された科学ツールを単一の研究環境に統合するために設計されたAIワークベンチであるClaude Scienceのベータ版をリリースしました。このプラットフォームは、監査可能な成果物、柔軟なコンピューティングスケーリング、ゲノミクスや構造生物学などの分野向けの専門エージェントを提供することで、発見を加速することを目指しています。
Anthropicは、断片化された科学ツールを単一の研究環境に統合するために設計されたAIワークベンチであるClaude Scienceのベータ版をリリースしました。このプラットフォームは、監査可能な成果物、柔軟なコンピューティングスケーリング、ゲノミクスや構造生物学などの分野向けの専門エージェントを提供することで、発見を加速することを目指しています。
Anthropic は、Claude Sonnet 5 をリリースしました。これは、以前の Opus クラスのモデルよりも低コストで、複雑な計画策定、ツール使用、自律的なコーディングタスクを実行するために設計された新しいエージェント型 AI モデルです。このアップデートは、Opus 4.8 とのパフォーマンス格差を縮めると同時に、その前身である Sonnet 4.6 と比較して、推論、安全性、実行において大幅な改善をもたらしました。
GeneBench-Proは、複雑なゲノム推論タスクにおいてモデルを評価するために設計されたベンチマークで、代表的な質問と支援資料を紹介する10の詳細な事例研究を特徴としています。各事例研究では、特定の生物学的課題に対するモデルのパフォーマンスを評価するために必要な元のプロンプト、データセット、およびコンテキストを提供します。
GeneBench-Proは、AIエージェントが計算生物学において曖昧さに対処し、重要な判断を下す能力を測定するために設計された研究レベルのベンチマークであり、元のGeneBenchを拡張したものです。これは、データノイズへの対応、仮定の修正、結果が意思決定に準備できているかどうかの判定といった高次な能力をテストすることで、現在の評価の限界に対処します。
OpenAIのエンジニアは、Rocksetデータインフラストラクチャで説明のつかないC++クラッシュが発生した原因として、Azureホストでの静かなハードウェア破損とGNU libunwind内の18年前から存在する競合条件という2つの異なる要因を特定しました。
OpenAI Signalsのデータによると、ChatGPTの採用は世界中で広がり、深まりつつあり、ユーザーは毎日50%多いメッセージを送信し、サインアップから6ヶ月後に試す固有のタスクの数が2倍になっている。
Googleは、インテリジェントなアプリケーションの構築における開発者の能力を強化するために設計された2つの新しいAIモデル、Nano Banana 2 LiteとGemini Omni Flashをリリースしました。
研究者らは、外科的インプラントなしで磁気脳波(MEG)記録からリアルタイムの文章を解読する非侵襲型AIパイプラインであるBrain2Qwerty v2を公開した。このシステムは全体として61%の単語精度を達成し、上位層では78%に達し、以前の非侵襲的手法を大幅に上回っている。
OpenAI Economic Researchは、ESCO分類とEurostatデータを活用し、AIの能力が加盟国全体の労働市場をどのように再構築するかを分析するために、AI雇用移行フレームワークを欧州連合に拡張しました。
HP Inc.は、成功したパイロット運用を経て、OpenAIとの戦略的パートナーシップを拡大し、顧客体験、従業員の生産性、ソフトウェア開発の各領域にAIを展開しています。同社は、実験的なユースケースから企業全体の生産環境への移行に伴い、コンテキスト、権限、評価を管理するための統一されたオペレーティングモデルとして、OpenAIフロンティアプラットフォームを活用しています。
OpenAIはGPT-5.6シリーズの限定プレビューを開始し、フラッグシップのSol、バランスの取れた日常業務用のTerra、高速で低コストなタスク用のLunaという3つの新モデルを導入した。同社は、信頼できるパートナーとの初期フェーズを経て、数週間以内にこれらのモデルを一般公開する計画である。
OpenAIからの新しい研究論文は、人工知能エージェントが仕事の性質を根本的にどのように変えているかを示しています。この研究は、これらのエージェントが以前よりも長く、より複雑なタスクを実行する能力に焦点を当てています。この技術的進歩は、幅広い職業役割全体で生産性を拡大したと評価されています。調査結果は、自動化を通じて労働の組織化と実行方法に大きな変化が生じることを示唆しています。AIエージェントが複雑なワークフローを処理することで、ユーザーはより高い効率を達成できるようになっています。論文は、自律型システムが現代の雇用にもたらす影響が増大していることの証拠となっています。
GoogleはGemini 3.5 Flashにコンピュータ操作機能を導入し、モデルがコードを実行し外部ツールと連携できるようにしました。この機能により、ユーザーは統合された計算機能を通じてプログラミングタスクを実行し、リアルタイムの情報にアクセスできます。
Mistral Studioは、ワークスペースおよびツールごとにコネクタアクセスを管理するための強化された管理者制御を提供します。これにより、きめ細かい権限付与が可能になります。機能には、スコープ付きAPIキー、マルチアカウントコネクタ、および根本原因分析のための新しいConnectors Debuggerが含まれており、すべてエンタープライズシステムとの安全で監査可能な統合をサポートしています。
OpenAIとBroadcomは、大規模言語モデルの推論用に設計されたカスタムAIチップ「Jalapeño」を発表しました。このチップは、AIシステムの性能、効率、スケーラビリティを向上させることを目的としています。
OpenAIは、Appia財団を通じて、評価フレームワークの開発、安全対策の推進、そしてグローバルな協力の促進により、高度なAIのための共有基準を進めている。
Claude Tagを使用すると、チームはSlack上で@Claudeにタグを付けてタスクを委任できます。選択されたチャンネル、ツール、コードベースへのアクセスが可能です。チャンネルのコンテキストから学習し、非同期で動作し、関連する情報を積極的にユーザーに更新することで自律的に行動します。現在、Anthropicのプロダクトチームのコードの65%が内部Claude Tagによって作成されており、Claude EnterpriseおよびTeamのお客様向けにベータ版が利用可能になりました。
GPT-5 ProはT細胞の振る舞いに関する重要な洞察を提供し、3年前から続く免疫学のパズルを解決しました。この発見は、がんや自己免疫疾患の研究を進展させる可能性があります。
Mistral OCR 4は、10の言語グループに属する170言語に対して、境界ボックス、ブロック分類、およびインライン信頼度スコアを導入します。人間の好みによる評価では72%の勝利率を記録し、主要なOCRシステムを上回り、OlmOCRBenchで85.20という最高スコアを達成しました。また、単一コンテナでのセルフホストデプロイメントを提供し、RAGやドキュメント取り込みなどのエンタープライズユースケースにも対応しています。
OmioはOpenAIを活用して、会話型の旅行体験を強化しています。同社はAIを使用して製品開発を加速し、AIネイティブなビジネスモデルへの移行を図っています。