すべての記事
github llama.cpp · 5日前

llama.cpp b9817 リリース: OpenVINO 2026.2.1 の更新と演算子の改善

llama.cpp b9817 リリースでは、OpenVINO バックエンドがバージョン 2026.2.1 に更新され、リリースパッケージが自己完結型になりました。このアップデートには、OpenVINO バックエンド内のいくつかの演算子改善が含まれています。具体的には、ハードコードされた compute_op_type のセットの削除や、sink 入力に対応する softmax の有効化などです。

github llama.cpp · 5日前

llama.cpp b9813 リリースで Intel Xe-LPG Plus の Vulkan サポートが追加

llama.cpp b9813 リリースは、INTEL_XE1 アーキテクチャ列挙型の追加と coopmat1 の有効化により、Intel Xe-LPG Plus ハードウェアに対する Vulkan サポートを導入します。この更新では、以前のコードコメントへの対応、アーキテクチャ識別子の名前変更、および Windows ドライバーのチェックが含まれています。

github llama.cpp · 5日前

llama.cpp b9814 リリース、mi50 向け Vulkan 最適化

llama.cpp プロジェクトはバージョン b9814 をリリースしました。このバージョンには、AMD mi50 GPU に特化した Vulkan における `mul_mat_vecq` 演算の最適化が含まれています。このアップデートには、複数のオペレーティングシステムとハードウェアアーキテクチャにわたる包括的なプリビルドバイナリセットも同梱されています。

github llama.cpp · 6日前

llama.cpp b9804 リリース: Mamba2 の修正と新しいバイナリ

llama.cpp b9804 リリースは、Mamba2 アーキテクチャの修正を導入しました。これは、ハードコードされた 2 倍の展開係数と無効なパラメータチェックを削除し、任意の展開値をサポート可能にします。この変更により、`convert_hf_to_gguf.py` スクリプトが更新され、展開パラメータがデフォルト値 2 でオプションとなりました。

github llama.cpp · 6日前

OpenCLプロファイリング修正を含むllama.cpp b9803リリース

llama.cppプロジェクトは、不完全なバッチのシャットダウン時にプロファイリングバッチをフラッシュするOpenCLの修正を含むバージョンb9803をリリースしました。このアップデートにより、macOS、Linux、Windows、Android、openEuler向けに、さまざまなハードウェアバックエンド用のバイナリが提供されます。

github llama.cpp · 6日前

llama.cpp b9802 リリースで macOS、Linux、Windows、Android のバイナリが提供される

llama.cpp プロジェクトは、複数のオペレーティングシステムとハードウェアアーキテクチャにわたってビルド済みバイナリを提供する b9802 リリースを公開しました。このアップデートには、macOS、Linux、Windows、Android、openEuler などのプラットフォームにおける CPU、GPU、および専用 AI アクセラレータのサポートが含まれています。

lab Cohere Blog · 6日前

AIエージェントによるフォークメンテナンスの自動化

本記事では、AIコーディングエージェントを使用してソフトウェアフォークのメンテナンスを自動化する方法について説明し、vLLMのCohereによるフォークに適用しています。このアプローチは、手動介入を自動フィードバックループに置き換えることで、上流からのリリースを取り込むのに必要な時間を数週間から数日に圧縮します。

lab Microsoft Research Blog · 6日前

AI駆動の説明と実験による脳の理解

研究者らは、解釈不可能なLLMベースの脳予測モデルを、皮質機能に関する簡潔で検証可能な言語仮説に変換するフレームワークである生成因果テスト(GCT)を開発した。この手法は、モデルのパラメータを「食品の準備」など特定の脳領域が何に反応するかを記述する短いフレーズに凝縮し、その後、標的型fMRI実験を通じてこれらの説明を検証する。

lab Cohere Blog · 6日前

CohereがカスタムMCPサーバー経由でNorthとWizを活用しインシデント対応を自動化

Cohereは、エンタープライズAIプラットフォーム「Cohere North」を用いてセキュリティエージェントを開発し、カスタムModel Context Protocol (MCP)サーバーを通じてクラウドセキュリティプラットフォームのWizと統合しました。このアーキテクチャでは、8つの原子型ツールを介してNorthからWizのGraphQL APIへ接続し、単一のプロンプトからインシデント対応ワークフローを自動化します。本システムは、攻撃チェーンを評価し、インターネットへの公開度合いや権限レベルに基づいてリスクをランク付けすることで、毒性のある組み合わせによる被害範囲(blast radius)分析を約20秒で実行します。さらに、問題の詳細取得、Linearチケットの作成、Wizステータスの更新、構造化されたインシデント対応レポートのドラフト作成により、エンドツーエンドの調査プロセスも自動化しています。加えて、毎週月曜朝に手動介入なしでセキュリティ姿勢(security posture)のブリーフを生成する定期的な自動化機能も備えています。この統合により、各発見事項に対して以前必要だった30分〜2時間のトリアージループが解消され、エンジニアは生のアラートではなく評価内容の評価に集中できるようになります。

github llama.cpp · 7日前

llama.cpp b9788がデュアルGPU環境向けにSYCLテンソル並列化を追加

llama.cppのリリースb9788は、SYCLバックエンドにおいて--split-mode tensorフラグ経由でテンソル並列化のサポートを導入しました。この実装は、meta-backendにcomm_init、comm_free、およびcomm_allreduce_tensor関数を追加することで、デュアルGPU間の通信を可能にします。2つのデバイスでは、小さなテンソルにはFP32の直接memcpyを、大きなテンソルにはBF16圧縮を使用するリングアールリデューズ戦略を採用しています。本コードは、プロセスあたりのシングルデバイスという制限があるOneCCLを回避し、代わりに永続バッファを使用してSYCLプールの不変条件を維持します。デュアルIntel Arc Pro B70 GPUでのパフォーマンステストでは、Llama-3.3-70BおよびQwen3-Coder-Next-80B-A3Bモデルにおいてレイヤーモードと比較して大幅な高速化が確認されました。本アップデートには、CPU、CUDA、ROCm、Vulkan、SYCLの各ターゲット向けに、macOS、Linux、Windows、Android、openEuler用の新しいバイナリが含まれています。