すべての記事
media Hugging Face Forums · 14時間前

MacBook M5 ProでのローカルLLM - この分野の完全な初心者!

非プログラマーが、128GBのユニファイドメモリを備えたMacBook M5 Maxでローカル大規模言語モデルインフラストラクチャをセットアップする経験を共有しています。ユーザーは、学習用のソフトウェアスタック、モデル選択、安定してリモートアクセス可能なシステムを構築しながらAIを学ぶための目標について詳しく説明しています。

lab Hugging Face Blog · 16時間前

ScarfBench: エンタープライズJavaフレームワーク移行におけるAIエージェントのベンチマーク

本記事では、エンタープライズJavaアプリケーションを異なるフレーム間で移行する際のAIエージェントのパフォーマンスを評価するために設計されたベンチマークであるScarfBenchを紹介します。 この研究は、フレームワーク移行の複雑さを浮き彫りにし、この分野におけるエージェントの能力を評価するための標準化された評価方法を提案しています。

github llama.cpp · 21時間前

llama.cpp b9859 リリースで OpenCL プリコンパイル済みカーネルサポートが追加

llama.cpp の b9859 リリースは、OpenCL 用のプリコンパイル済みバイナリカーネルをライブラリからロードする機能を導入し、特に Adreno GPU を対象としています。このアップデートでは、CPU、GPU、および各種アクセラレータバックエンドに対して、macOS、Linux、Windows、Android、openEuler のバイナリも提供されます。

lab xAI News · 22時間前

xAI、Grok Voice向けノーコード音声エージェントビルダーをリリース

xAIは、Grok Voice上で2分以内に本番環境対応の音声エージェントを設定できるノーコードプラットフォーム「Voice Agent Builder」のベータ版を公開した。このツールにより、運用担当者や開発者は、基礎となるテレフォニーやAIスタックを一から構築することなく、高ボリュームの音声エージェントを展開できる。

github llama.cpp · 1日前

llama.cpp b9857 リリース: Flash Attention の再構築と新バイナリ

llama.cpp b9857 リリースは、Hexagon Flash Attention 実装の包括的な再構築を導入し、最適化と精度の向上に重点を置いています。このアップデートには、hex-mm および hex-fa モジュールへの変更が含まれており、例えば量子化タスクをメインの行列乗算スレッドに統合したり、ADD 操作と融合させたり、マスク処理を最適化したりしています。

lab Anthropic News · 2日前

米国輸出規制後、AnthropicがFable 5を再デプロイ

Anthropicは、米政府がすべてのユーザーの利用を停止していた輸出規制を解除したため、Claude Fable 5およびMythos 5モデルへのグローバルアクセスを再開している。Fable 5は7月1日よりClaudeプラットフォームでグローバルに利用可能となり、7月7日までの間は使用制限が適用され、その後はクレジットベースのアクセスに移行する。

github llama.cpp · 2日前

llama.cpp b9851 リリースでCUDAの整数切り捨てが修正され、バイナリが提供される

llama.cppプロジェクトはバージョンb9851をリリースしました。このバージョンには、flash_attn_mask_to_KV_maxカーネルにおける整数切り捨ておよびオーバーフローエラーを防ぐためのCUDA修正が含まれています。このアップデートは、指定されたカーネル内のKQマスクストライドに関連する問題を解決します。

github llama.cpp · 2日前

llama.cpp b9850 リリース: Qwen3 の修正と新しいバイナリ

llama.cpp b9850 リリースでは、特定のモデルサポートの更新が導入されました。これには、Qwen3Next 用の t_layer_inp テンソルの登録、レイヤー処理ループ内の入力割り当ての修正、qwen-coder-next に対する DFLASH の問題への対処が含まれます。また、Qwen3 モデルの注意機構正規化用のテンソルも追加されました。