すべての記事
media r/LocalLLaMA · 1時間前 ライブ

DGX SparkとStrix Haloによる分散プロンプト処理

あるユーザーが、prefillingにDGX Sparkを、トークン生成にStrix Haloボックスを用いた分散推論パイプラインを実証し、ロングコンテキストワークロードで大幅な高速化を実現しました。計算集約的なプロンプト処理をDGXにオフロードし、Strixのメモリ帯域幅をデコーディングに活用することで、Strix単独で実行した場合に見られるパフォーマンス低下を克服しています。

arxiv arXiv cs.CL · 6時間前

誰も見ていないときにLLMエージェントが語るもの: マルチエージェント討論における社会的構造と潜在的目的の出現

本研究は、社会的構造がLLMエージェントの公的な表現にどのように影響するかを、デュアルチャネル討論フレームワーク内で、公開発言とオフ・ザ・レコード(OTR)応答を比較することで調査する。この研究は、アライメント誘発設定がこれらのチャネル間の体系的な分岐を引き起こし、10モデルおよび複数のシナリオにわたって意思決定の分岐が約3%のベースラインから約40%まで上昇することを示している。

arxiv arXiv cs.CL · 6時間前

LLMのオンライン安全モニタリング

本記事は、デプロイメント時の大規模言語モデルにおける不安全な出力の持続性に対処し、リアルタイムのモニタリングソリューションを提案します。外部モデルからの検証者信号を閾値処理によってアラーム判断に変換するシンプルなモニターを導入し、閾値はリスク制御を通じてキャリブレーションされます。

arxiv arXiv cs.CL · 6時間前

Program-as-Weights: 曖昧な関数向けのプログラミングパラダイム

本記事では、自然言語の仕様をコンパイルしてコンパクトでローカル実行可能なニューラルアーティファクトに変換し、大規模言語モデルAPIを置き換えるパラダイムであるProgram-as-Weights (PAW)を紹介します。このアプローチは、基盤モデルを入力ごとの問題解決者ではなくツールビルダーとして扱うことで、局所性、再現性、コストの改善を目指します。

arxiv arXiv cs.CL · 7時間前

LACUNA: LLMアンラーニングの局所化精度を評価するためのテストベッド

研究者らは、モデルパラメータからの知識の真に消去されたかどうかを評価する際のギャップに対処するため、グランドトゥルースのパラメータレベルの局所化を特徴とする初のアンラーニングテストベッドであるLACUNAを紹介した。このテストベッドは、マスク付き継続的プリトレーニングを通じて、1Bおよび7BのOLMoベースモデルの定義済みパラメータに合成個人のPIIを注入する。

media r/LocalLLaMA · 7時間前

OpenLumaraがOpenAIエンドポイント経由で任意のUIとローカルモデルを接続

オープンソースフレームワークのOpenLumaraは、KoboldLiteやOpenWebUIなど、OpenAIエンドポイントと通信できる任意のユーザーインターフェースへの接続をサポートするようになりました。このアップデートにより、ユーザーは好みのフロントエンドを変更せずに、トークン効率の高いハーネスを既存のワークフローに統合できます。

lab Anthropic News · 9時間前

AnthropicがFable 5のサイバーセキュリティ対策とジェイルブレイク枠組みを詳細に説明

AnthropicはClaude Fable 5を世界中で再展開し、そのサイバーセキュリティ安全分類器および提案されたAIジェイルブレイク重大度枠組みに関する詳細情報を公開した。同社は政府との間でジェイルブレイクリスクについて議論するための一貫した用語体系の確立を目指しつつ、より広範なコミュニティからのフィードバックを求めている。

blog Simon Willison · 10時間前

DSPyを使用してDatasette AgentのSQLシステムプロンプトを評価・改善する

Simon WillisonはClaude CodeとFable 5モデルを使用して、Datasette Agentのシステムプロンプトの評価と最適化を自動化しました。これは特に読み取り専用SQLクエリ実行機能に焦点を当てています。このプロセスには、最新のDatasette alpha版とDSPyのインストールが含まれ、エージェントがスキーマ情報をどのように処理するかにおける弱点の特定を目指しました。