すべての記事 — korshunov.ai

すべての記事ページ 1 / 22

DGX SparkとStrix Haloによる分散プロンプト処理

あるユーザーが、prefillingにDGX Sparkを、トークン生成にStrix Haloボックスを用いた分散推論パイプラインを実証し、ロングコンテキストワークロードで大幅な高速化を実現しました。計算集約的なプロンプト処理をDGXにオフロードし、Strixのメモリ帯域幅をデコーディングに活用することで、Strix単独で実行した場合に見られるパフォーマンス低下を克服しています。

blog Simon Willison · 5時間前

参加するために理解する

Geoffrey Littは、開発者が認知負債を避け、創造的プロセスにおいてアクティブな参加者であり続けるために、コーディングエージェントによって生成されたコードを深く理解しなければならないと主張している。

media r/LocalLLaMA · 6時間前

OpenLumaraがOpenAIエンドポイント経由で任意のUIとローカルモデルを接続

オープンソースフレームワークのOpenLumaraは、KoboldLiteやOpenWebUIなど、OpenAIエンドポイントと通信できる任意のユーザーインターフェースへの接続をサポートするようになりました。このアップデートにより、ユーザーは好みのフロントエンドを変更せずに、トークン効率の高いハーネスを既存のワークフローに統合できます。

media r/LocalLLaMA · 6時間前

QGISのようなソフトウェアで大規模な空間データや都市レイアウトの生成にローカルLLMを使用していますか？

あるユーザーは、都市全体のレイアウト、道路網、複雑なグリッドシステムなど、大規模な構造化データを生成できるローカル言語モデルの推奨を求めています。

blog Simon Willison · 6時間前

llm-coding-agent 0.1a0

Simon Willisonは、LLMライブラリをエージェントフレームワークとして使用してシンプルなコーディングエージェントを構築する初期実験であるllm-coding-agent 0.1a0をリリースしました。このプロジェクトは、Claude Codeに仕様書を作成させ、レッド/グリーンTDDを使用してツールを実装させるプロンプトによって生成されました。

media r/LocalLLaMA · 6時間前

ヒント: llama.cppのPRを使用してIntel ARCでのPPを改善する

llama.cppへのコミュニティによるプルリクエストは、特にB580などのハードウェアにとって有益な、Intel ARCユーザーのプロンプト処理速度を大幅に向上させます。コントリビューターはClaudeの支援を受けてコードを最適化し、コンテキスト処理を高速化しました。

media r/LocalLLaMA · 6時間前

研究者がローカル・オープンウェイトモデルのみで動作する自己複製型AIワームを構築

新しいArxiv論文は、ローカルのオープンウェイトモデルのみを使用して機能する自己複製型AIワームの作成について詳述しています。この進展は、自律型AIエージェントが外部依存なしで動作する可能性を示しています。

media r/LocalLLaMA · 7時間前

AMD GPU向けHIPカーネル生成の改善：合成データ、マルチエージェント探索、強化学習

StanfordのScaling Intelligenceブログの記事は、合成データ、マルチエージェント探索、強化学習を使用してAMD GPU向けのHIPカーネル生成を改善する方法について議論しています。

lab ByteDance Seed (HF) · 7時間前

ByteDance-Seed/PAR: タンパク質自己回帰モデルのチェックポイント

このリポジトリは、マルチスケール構造生成によるタンパク質自己回帰モデルのためのモデルチェックポイントを公開しています。これはICML 2026でオーラルプレゼンテーションとして採用されました。

lab Claude Code Releases · 7時間前

Claude Code v2.1.199 リリースノート

Claude Code v2.1.199 アップデートは、SSL 証明書エラー、ストリーミングレスポンスの処理、バックグラウンドエージェントの管理を含む、多数の安定性とユーザビリティの問題に対処しています。

lab Anthropic News · 7時間前

AnthropicがFable 5のサイバーセキュリティ対策とジェイルブレイク枠組みを詳細に説明

AnthropicはClaude Fable 5を世界中で再展開し、そのサイバーセキュリティ安全分類器および提案されたAIジェイルブレイク重大度枠組みに関する詳細情報を公開した。同社は政府との間でジェイルブレイクリスクについて議論するための一貫した用語体系の確立を目指しつつ、より広範なコミュニティからのフィードバックを求めている。

media r/LocalLLaMA · 8時間前

デュアルR9700: Qwen3.6 27Bの最適な公式は？

あるユーザーが、llama.cppを使用してデュアルAMD Radeon R9700構成でQwen3.6-27Bモデルを最適化し、VulkanとROCmバックエンド間のパフォーマンスを比較しています。

media r/LocalLLaMA · 8時間前

Gemma 4 WebGPUカーネルが255 tok/sを達成

XenovaはGemma 4用のWebGPUカーネルをリリースし、255トークン/秒のパフォーマンスを実現しました。この最適化により、密集モデルがウェブブラウザで100 T/sを超える速度で実行可能になります。

blog Simon Willison · 8時間前

DSPyを使用してDatasette AgentのSQLシステムプロンプトを評価・改善する

Simon WillisonはClaude CodeとFable 5モデルを使用して、Datasette Agentのシステムプロンプトの評価と最適化を自動化しました。これは特に読み取り専用SQLクエリ実行機能に焦点を当てています。このプロセスには、最新のDatasette alpha版とDSPyのインストールが含まれ、エージェントがスキーマ情報をどのように処理するかにおける弱点の特定を目指しました。

media r/LocalLLaMA · 8時間前

NvidiaのAIパイオニアがAGIを否定し、OpenAIとAnthropicをAOLに例える

Nvidiaの著名な人物は、人工一般知能（AGI）を信じておらず、業界の焦点は企業向けの個別カスタマイズされたオープンソースモデルへ移行すべきだと主張している。

media r/LocalLLaMA · 9時間前

RTX 3090でのローカルベンチマーク - Qwen3.6 27b vs Ornith

あるユーザーが、RTX 3090上でinspect-aiフレームワークを使用してQwen3.6 27b、Gemma4 26B A4B QAT、およびOrnith1.0 35B MoEを比較し、ローカルモデルのパフォーマンスを評価しました。テストの結果は、一般知識、グラウンディング、コーディングのベンチマークで混合したものであり、Qwen3.6がスコアで一般的にリードしましたが、OrnithはDROPのような特定分野で強みを見せました。

media r/LocalLLaMA · 9時間前

ユーザーがGemma 4 31Bを88層の44Bモデルに拡張

Redditのユーザーが、60層を持つGoogle Gemma 4 31Bモデルを、88層を含むより大きな44Bパラメータバージョンに拡張しました。この修正は、GoogleがLyzr Architect上で使用するためのより大きな密なバージョンのモデルをリリースしていないため行われました。

media Hugging Face Forums · 9時間前

証拠飽和 k*: 検索深度は推測ではなく補正すべき

LLM呼び出しにおける証拠深度のパイロットベンチマークは、補正が事実の正確性だけでなく認識論的汚染やフレーミングリークを含めるべきだと主張している。本研究では、信頼性が最大化される証拠飽和点を「k*」と定義し、標準的な検索器のtop-kや状態密度指標とは区別している。

media Hugging Face Forums · 10時間前

認識的ストレステスト — Claude Sonnet 5 が MarCognity-AI によって検証される

本記事は、Claude Sonnet 5 の検証について記述しており、MarCognity-AI の Skeptical Agent を用いて、テキスト上の自信と実際の検証可能性の間のギャップ、「認識的亀裂」を明らかにしました。

media Hugging Face Forums · 10時間前

Aiywinフレームワーク、AI推論に螺旋再帰を提案

独立開発者のAiywin.aiは、標準的な線形処理を螺旋再帰ループに置き換え、異常や不完全なデータを処理する認知フレームワークを導入しました。このシステムは、停止したり幻覚を起こしたりするのではなく、構造化された解決策が見つかるまで文脈パラメータを数学的に拡張します。