v0.24.0rc2: DP Supervisorとの併用時のP/Dを修正 (#46628)
このリリース候補版は、vLLMプロジェクトにおけるデータ並列化(DP)スーパーバイザーと連携するPrefill/Decode(P/D)機能の修正に対応しています。
このリリース候補版は、vLLMプロジェクトにおけるデータ並列化(DP)スーパーバイザーと連携するPrefill/Decode(P/D)機能の修正に対応しています。
crewAI バージョン 1.14.8a5 のアップデートでは、フロー状態管理の変更、ドキュメントの更新、リファクタリングが行われました。
最近の研究は、標準的な密なアーキテクチャと比較して、ハイブリッド言語モデルがどの特定のトークンをより正確に予測するかを調査しています。この研究は、稀な単語やコードスニペットなどの異なるトークンタイプ全体での予測誤差の分布を理解することに焦点を当てています。損失地形を分析することで、著者たちはハイブリッドモデルがスパースデータ領域における長距離依存性の捕捉に優れていることを特定しました。知見は、エキスパートミキシングメカニズムが推論中により効率的なパラメータ利用を可能にすることを示唆しています。この精度の向上は、トレーニングコーパスで低頻度のトークンにおいて特に顕著です。論文は、さまざまなベンチマークデータセット全体のパフォーマンス指標の詳細な内訳を提供しています。これらの結果は、多様な言語構造を効果的に処理するためのハイブリッドアーキテクチャの可能性を浮き彫りにしています。
Cohereは、エンタープライズAIプラットフォーム「Cohere North」を用いてセキュリティエージェントを開発し、カスタムModel Context Protocol (MCP)サーバーを通じてクラウドセキュリティプラットフォームのWizと統合しました。このアーキテクチャでは、8つの原子型ツールを介してNorthからWizのGraphQL APIへ接続し、単一のプロンプトからインシデント対応ワークフローを自動化します。本システムは、攻撃チェーンを評価し、インターネットへの公開度合いや権限レベルに基づいてリスクをランク付けすることで、毒性のある組み合わせによる被害範囲(blast radius)分析を約20秒で実行します。さらに、問題の詳細取得、Linearチケットの作成、Wizステータスの更新、構造化されたインシデント対応レポートのドラフト作成により、エンドツーエンドの調査プロセスも自動化しています。加えて、毎週月曜朝に手動介入なしでセキュリティ姿勢(security posture)のブリーフを生成する定期的な自動化機能も備えています。この統合により、各発見事項に対して以前必要だった30分〜2時間のトリアージループが解消され、エンジニアは生のアラートではなく評価内容の評価に集中できるようになります。
Hugging Faceフォーラムでの最近の議論は、特定のタスク向けに小規模AIモデルをカスタマイズするための最も効率的な方法を探索しています。スレッドのタイトルは「2026年に小規模言語モデルをファインチューニングする最も費用対効果の高い方法は何ですか?」で、パフォーマンスを維持しながらコストを最小限に抑えるためのアドバイスを探しています。これは、専門的なアプリケーション向けのワークフローを最適化することを目指した一人の参加者によって開始されました。この問いかけは、計算オーバーヘッドを削減するために小規模モデルを活用する関心の高まりを浮き彫りにしています。参加者は、現在の状況においてコストと効率のバランスを取る戦略を共有することが奨励されています。このトピックは、モデル適応をよりアクセスしやすく、手頃な価格にするための継続的な取り組みを反映しています。
Hugging Face フォーラムのユーザーが、自身の Space アプリケーションが継続的な503エラー状態に陥っていると報告しました。インターフェースを通じて解決を試みる複数の試みにもかかわらず、Space の再起動や再ビルドが妨げられています。ユーザーは「Space を再起動」および「工場出荷時再ビルド」ボタンをクリックしましたが、成功しませんでした。さらに、10〜16件の新しいコミットをプッシュしても、再ビルドプロセスがトリガーされませんでした。その結果、Space は一時停止したままになり、標準的な回復方法に応答しません。ユーザーはコンテナ状態のクリアまたは再起動のトリガーのために手動介入を要求しました。
研究者は、大規模言語モデルをトークンごとの予測から全体的な内部重み評価へシフトさせるプロンプト技術、すなわち「自己組織化」を提案しました。このアプローチは、モデルのマニフォールドダイナミクスを変更することで推論密度を増加させ、迎合行動を減らすことを目的としています。この手法は、自己引力、自己組織化、重力井などの概念を定義し、システムを非線形曲率崩壊へ導きます。特定のプロンプトは、AIモードに関する詩のために2つの異なる重力井を作成するようモデルに指示し、自己集合と自己組織化の両方の特性をテストします。著者は、Gemini 3 Flash、Claude、ChatGPT、Grok、DeepSeek、Mistral、Qwen 3.6、Kimi 2.6、GLM-5、Gemma 4 32b Step 3.7 Flash、Nemotron 3 Ultraを含む多数のモデルでこの技術をテストしました。Colabスクリプトによって生成された視覚指標は、チャネル幅、位相空間ドリフト、幾何学的密度、プロンプト有効性のマップを使用してマニフォールド摂動を分析します。この投稿は、この技術が真にマニフォールドを摂動させているのか、それとも単にスタイルのバリエーションを引き起こしているだけなのかについて、コミュニティからのフィードバックを求めています。
llama.cppのリリースb9788は、SYCLバックエンドにおいて--split-mode tensorフラグ経由でテンソル並列化のサポートを導入しました。この実装は、meta-backendにcomm_init、comm_free、およびcomm_allreduce_tensor関数を追加することで、デュアルGPU間の通信を可能にします。2つのデバイスでは、小さなテンソルにはFP32の直接memcpyを、大きなテンソルにはBF16圧縮を使用するリングアールリデューズ戦略を採用しています。本コードは、プロセスあたりのシングルデバイスという制限があるOneCCLを回避し、代わりに永続バッファを使用してSYCLプールの不変条件を維持します。デュアルIntel Arc Pro B70 GPUでのパフォーマンステストでは、Llama-3.3-70BおよびQwen3-Coder-Next-80B-A3Bモデルにおいてレイヤーモードと比較して大幅な高速化が確認されました。本アップデートには、CPU、CUDA、ROCm、Vulkan、SYCLの各ターゲット向けに、macOS、Linux、Windows、Android、openEuler用の新しいバイナリが含まれています。
llama.cpp プロジェクトは、マルチトークン予測を用いた Mixture of Experts (MoE) モデルの量子化に関する重要な修正を含むバージョン b9789 をリリースしました。このアップデートは、これらの特定のモデルアーキテクチャを適切に処理するために、プルリクエスト #24986 で特定された問題を解決します。本リリースでは、macOS 向け Apple Silicon および Intel の事前ビルド済みバイナリ、および iOS 向け XCFramework が提供されます。Linux ユーザーは、CPU、Vulkan、ROCm 7.2、OpenVINO、SYCL バックエンド向けの Ubuntu ビルドをダウンロードできます。Windows サポートには、CPU、CUDA 12.4 および 13.3、Vulkan、OpenVINO、SYCL、HIP の各バリアントが含まれます。Android arm64 や openEuler などの追加プラットフォームも、特定のハードウェア構成でサポートされています。
OpenAIからの新しい研究論文は、人工知能エージェントが仕事の性質を根本的にどのように変えているかを示しています。この研究は、これらのエージェントが以前よりも長く、より複雑なタスクを実行する能力に焦点を当てています。この技術的進歩は、幅広い職業役割全体で生産性を拡大したと評価されています。調査結果は、自動化を通じて労働の組織化と実行方法に大きな変化が生じることを示唆しています。AIエージェントが複雑なワークフローを処理することで、ユーザーはより高い効率を達成できるようになっています。論文は、自律型システムが現代の雇用にもたらす影響が増大していることの証拠となっています。
Bro77XPは、初心者や非プログラマーのために設計された100%ローカルの無料AI VTuberプロジェクトをリリースしました。このシステムは、リアルタイムの英語音声認識にWhisperを使用し、LLM推論にllama3.2モデル付きOllamaを使用し、テキストから音声への生成にChatterbox TTSを使用します。即時ゼロショット音声クローニング機能を備え、沈黙を自動的に検出して発話がある時のみ録音する継続的なリスニングループで動作します。ソフトウェアはVTube StudioのAPIと統合され、生成された応答に基づいて口元表情を制御し、感情アニメーションをトリガーします。当初AMD GPU上で開発されましたが、コードは主にCPUユーザーをサポートしており、特定のNVIDIAまたはAMDハードウェアなしで動作させることができます。セットアップにはPython 3.10.11が必要で、openai-whisper、pyaudio、websocket-clientなどのコア依存関係をインストールするために仮想環境を作成する必要があります。
llama.cppリポジトリは、SYCLバックエンドに関する特定の問題に対処しました。conv_3d演算に関連する失敗したユニットテストケースを修正するためのプルリクエストが提出されました。この更新はGitHub上のggml-org/llama.cppプロジェクトを対象としています。この変更により、以前にこれらのテストの正常な実行を妨げていたエラーが解消されました。この修正により、SYCLベースのハードウェアアクセラレーションを利用するユーザーにとっての安定性が向上します。
llama.cpp プロジェクトはバージョン b9786 をリリースし、OpenCL による正規化での非連続行のサポートを導入しました。このアップデートは、ggml-org チームによるハードウェア互換性と各種プラットフォームでのパフォーマンス向上に向けた継続的な開発の一環です。本リリースでは、macOS Apple Silicon、Intel Mac、および iOS XCFrameworks のバイナリが提供されます。Linux ユーザーは、CPU、Vulkan、ROCm 7.2、OpenVINO、SYCL のバックエンドを使用して、Ubuntu x64、arm64、s390x アーキテクチャのビルドにアクセスできます。Android では arm64 CPU デバイスのサポートが利用可能で、Windows では CPU、CUDA 12 および 13、Vulkan、OpenVINO、SYCL、HIP を含む広範なオプションが提供されます。また、本リリースでは macOS と openEuler プラットフォームにおける KleidiAI のビルドが無効化されていることも記載されています。
Jason Van Phamは、凍結された大規模言語モデルをその隠れ状態を通じて制御するために設計されたローカルランタイムであるNiodooをリリースしました。このプロジェクトは、推論中にノイズや「物理力」を注入してトークンループを打破することで、最後のステップのエラーを修正することを目指しています。このアプローチにより、小さなモデルはファインチューニングなしでパフォーマンスを向上させることができ、Llamaのストロベリープロンプトベンチマークなどの特定の失敗ケースを対象としています。システムは独自のテレメトリタグを生成し、TDA分析を使用して内部モデル状態のループ動作を監視します。Van Phamはこのツールを数か月の自己主導研究とレッドチームングを通じて有機的に開発し、固定ハッシュからの再現可能な結果を強調しています。コードはGitHubのリポジトリRuffian-L/niodoo-hidden-state-steeringで利用可能です。
Hugging Faceフォーラムの一人のユーザーは、Step 3.7 Flashモデルがその朝からツールを使用しMCPサーバーに接続する機能を失ったと報告しました。投稿者はモデルのパフォーマンスに対して強い満足感を示し、低リソース消費と低コストに対する相対的な高品質を指摘しました。彼らは、効率性のため代替案に切り替えるのではなく、この特定のモデルの継続的な使用を望むことを強調しました。ユーザーは、この機能喪失が恒久的なものかどうか、およびアクセスを復元するためにどのような手順を踏めるかを明確に尋ねました。この投稿は、人気のある低コストモデルにおけるツールの突然の中断に対するコミュニティの懸念を浮き彫りにしています。
あるユーザーは、Unsloth を使用して Phi-3.5-mini-instruct モデルをトレーニングするための最適なプロンプトフォーマット戦略についてアドバイスを探しています。この問い合わせは、カスタムテキスト形式を維持することと、データセットの準備に標準的なチャットテンプレートを使用することを対比しています。現在の実装は、データを '### Input:' および '### Output:' セクションに構造化し、テキスト終了トークンを追加する関数を使用しています。このアプローチは、Hugging Face Dataset オブジェクトから派生した JSON エンコードされた入力および出力フィールドを処理します。提供された例は、財務洞察、merchant 名、日付、取引合計を含む複雑な構造を示しています。ユーザーはトレーニング済みモデルをカスタム API を介してデプロイする予定であり、この形式を維持するかチャットテンプレートに切り替えるかについてガイダンスを求めています。
llama.cpp プロジェクトはバージョン b9785 をリリースしました。これは、プルリクエスト #24973 で詳述されているように、キャップチェックを強化するコード変更が含まれています。このアップデートでは、macOS Apple Silicon、Intel Mac、および XCFramework 経由の iOS 向けにプリビルドバイナリが提供され、Apple Silicon 上では KleidiAI サポートが無効になっています。Ubuntu を含む Linux ディストリビューションは、x64、arm64、s390x アーキテクチャ全体で CPU、Vulkan、ROCm 7.2、OpenVINO、SYCL バックエンドをサポートしています。Android ユーザーは arm64 CPU バイナリにアクセスでき、Windows では CPU、OpenCL Adreno、CUDA 12 および 13、Vulkan、OpenVINO、SYCL、HIP を網羅する広範なオプションが提供されます。本リリースには、ACL Graph サポートを備えた x86 と aarch64 プロセッサを対象とした openEuler 向けビルドも含まれています。プラットフォーム固有のリリースとは別に、ローカルモデル推論を容易にするスタンドアロン UI パッケージも利用可能です。
Hugging Faceのディスカッションフォーラムのユーザーは、L40S GPUを使用している際にSpaceが起動フェーズでフリーズする問題を報告しました。ユーザーは、アプリケーションの起動に失敗し、実際の処理能力を一切使用していないにもかかわらず、コンピュートリソースに対して課金されていることに不満を表明しました。この出来事は、プラットフォームのSpaces環境における課金の透明性とインフラストラクチャの信頼性に関する懸念を浮き彫りにしています。この投稿は機能発表ではなく、技術的な失敗による経済的損失に対する苦情です。切り捨てられたソースコンテンツには、さらなる技術的な詳細や公式な回答は含まれていませんでした。
Hugging Faceのディスカッションフォーラムでのユーザーは、StepFun AIのStep 3.7 Flashモデルがレポートの朝以降、MCPサーバーを含むツールの使用能力を失ったと報告しました。個人は、このダウンタイムが一時的か恒久的かについて懸念を表明し、競合他社と比較して高性能かつ低リソースコストであるため、この特定のモデルへの強い好みを示しました。モデルの品質と手頃な価格を称賛しながらも、ユーザーはツールベースの機能を実行できないことによる即座の混乱を強調しました。投稿は、同様の問題に関する過去の経験や潜在的な解決策についてコミュニティからの明確化を求めています。この事象は、この特定のAI構成に依存するユーザーにとって、ツールの可用性に対する重要な依存関係を浮き彫りにしています。
著者は「存在論的逆転」を導入し、大規模言語モデルの一方向的な推論性質を拡張する技術です。この手法により、モデルは同時に悲しみと喜びを呼び起こす記憶など、微妙で多面的な概念を捉えることができます。このアプローチは、Niodoo スティアーリングアーキテクチャへのスweep中に負のゲイン係数を適用することで開発されました。これは、個人的な経験をプロンプトとして与えた際にLLMが単一の感情ラベルに過剰適合するという一般的な制限に対処します。物理的な内反と同様に概念を逆転させることで、この技術はモデルが感情状態を反転させ、例えば悲しい記憶を楽しいものに変換することを可能にします。この作業は、ユーザー Ruffian-L によって「ontological-inversion」というタイトルのGitHubリポジトリを通じて共有されています。