すべての記事 — korshunov.ai

すべての記事ページ 1 / 22

DGX SparkとStrix Haloによる分散プロンプト処理

あるユーザーが、prefillingにDGX Sparkを、トークン生成にStrix Haloボックスを用いた分散推論パイプラインを実証し、ロングコンテキストワークロードで大幅な高速化を実現しました。計算集約的なプロンプト処理をDGXにオフロードし、Strixのメモリ帯域幅をデコーディングに活用することで、Strix単独で実行した場合に見られるパフォーマンス低下を克服しています。

arxiv arXiv cs.CL · 7時間前

スケーリングはLLMを用いた社会シミュレーションを改善するのか？

本研究は、現在の言語モデルのスケーリングパラダイムが、意見モデリング、行動シミュレーション、長期予測にわたる社会シミュレーションの忠実度のギャップを埋められるかを調査する。10^18から10^20 FLOPsまでの固定計算予算でDCLMコーパス上で訓練された85個のQwen3トランスフォーマーモデルを用い、著者らは計算規模とシミュレーション精度の関係を分析した。

arxiv arXiv cs.CL · 7時間前

TestEvo-Bench: テストとコードの共進化のための実行可能かつライブなベンチマーク

著者らは、テスト自動化エージェントがコードとテストの共進化をどの程度適切に処理できるかを評価するために設計されたライブベンチマークであるTestEvo-Benchを紹介します。既存のベンチマークの限界に対処し、実際のコミット履歴と環境設定に基づいた実行可能なタスクを提供します。

arxiv arXiv cs.CL · 8時間前

オーディオブックのナレーション魅力に関する音声ベースの理解

本研究は、LibriVoxデータを分析することで、声質および音響的特徴がオーディオブックの魅力に与える影響を調査する。タイトル効果を考慮した後でも、ナレーションの品質と消費指標の間に堅牢な関連性を確立している。

arxiv arXiv cs.CL · 8時間前

強化学習によるビジョン・言語モデルの視覚的に grounded な自己反映

著者は、ビジョン・言語モデルが思考チェーン推論中に視覚的に grounded な自己反映を行えるように設計された強化学習フレームワークであるVRRLを提案する。

arxiv arXiv cs.CL · 8時間前

トレーニング不要な概念局所化によるタイプグラフィック攻撃に対する堅牢性 toward

著者は、CLIPベースの視覚エンコーダーにおけるタイプグラフィック攻撃を緩和するためのトレーニング不要な手法を提案します。この手法では、無関係なテキストが視覚的表現を語彙的意味に偏らせます。サンプリングに基づく解釈とサーキットマイニングを使用することで、この望ましくない語彙情報を符号化する特定のVision Transformerコンポーネントを分離します。

arxiv arXiv cs.CL · 8時間前

推論型LLMが長編TVドラマにおける話者認識を向上

研究者らは、900人以上のキャラクターにわたる532Kの注釈付き対話行を含む大規模ベンチマーク「DramaSR-532K」を導入し、長編TVドラマにおける話者認識を強化する「DramaSR-LRM」を提案した。

arxiv arXiv cs.CL · 8時間前

誰も見ていないときにLLMエージェントが語るもの: マルチエージェント討論における社会的構造と潜在的目的の出現

本研究は、社会的構造がLLMエージェントの公的な表現にどのように影響するかを、デュアルチャネル討論フレームワーク内で、公開発言とオフ・ザ・レコード（OTR）応答を比較することで調査する。この研究は、アライメント誘発設定がこれらのチャネル間の体系的な分岐を引き起こし、10モデルおよび複数のシナリオにわたって意思決定の分岐が約3%のベースラインから約40%まで上昇することを示している。

arxiv arXiv cs.CL · 9時間前

LLMのオンライン安全モニタリング

本記事は、デプロイメント時の大規模言語モデルにおける不安全な出力の持続性に対処し、リアルタイムのモニタリングソリューションを提案します。外部モデルからの検証者信号を閾値処理によってアラーム判断に変換するシンプルなモニターを導入し、閾値はリスク制御を通じてキャリブレーションされます。

arxiv arXiv cs.CL · 9時間前

Program-as-Weights: 曖昧な関数向けのプログラミングパラダイム

本記事では、自然言語の仕様をコンパイルしてコンパクトでローカル実行可能なニューラルアーティファクトに変換し、大規模言語モデルAPIを置き換えるパラダイムであるProgram-as-Weights (PAW)を紹介します。このアプローチは、基盤モデルを入力ごとの問題解決者ではなくツールビルダーとして扱うことで、局所性、再現性、コストの改善を目指します。

arxiv arXiv cs.CL · 9時間前

LACUNA: LLMアンラーニングの局所化精度を評価するためのテストベッド

研究者らは、モデルパラメータからの知識の真に消去されたかどうかを評価する際のギャップに対処するため、グランドトゥルースのパラメータレベルの局所化を特徴とする初のアンラーニングテストベッドであるLACUNAを紹介した。このテストベッドは、マスク付き継続的プリトレーニングを通じて、1Bおよび7BのOLMoベースモデルの定義済みパラメータに合成個人のPIIを注入する。

blog Simon Willison · 9時間前

参加するために理解する

Geoffrey Littは、開発者が認知負債を避け、創造的プロセスにおいてアクティブな参加者であり続けるために、コーディングエージェントによって生成されたコードを深く理解しなければならないと主張している。

media r/LocalLLaMA · 9時間前

OpenLumaraがOpenAIエンドポイント経由で任意のUIとローカルモデルを接続

オープンソースフレームワークのOpenLumaraは、KoboldLiteやOpenWebUIなど、OpenAIエンドポイントと通信できる任意のユーザーインターフェースへの接続をサポートするようになりました。このアップデートにより、ユーザーは好みのフロントエンドを変更せずに、トークン効率の高いハーネスを既存のワークフローに統合できます。

media r/LocalLLaMA · 10時間前

QGISのようなソフトウェアで大規模な空間データや都市レイアウトの生成にローカルLLMを使用していますか？

あるユーザーは、都市全体のレイアウト、道路網、複雑なグリッドシステムなど、大規模な構造化データを生成できるローカル言語モデルの推奨を求めています。

blog Simon Willison · 10時間前

llm-coding-agent 0.1a0

Simon Willisonは、LLMライブラリをエージェントフレームワークとして使用してシンプルなコーディングエージェントを構築する初期実験であるllm-coding-agent 0.1a0をリリースしました。このプロジェクトは、Claude Codeに仕様書を作成させ、レッド/グリーンTDDを使用してツールを実装させるプロンプトによって生成されました。

media r/LocalLLaMA · 10時間前

ヒント: llama.cppのPRを使用してIntel ARCでのPPを改善する

llama.cppへのコミュニティによるプルリクエストは、特にB580などのハードウェアにとって有益な、Intel ARCユーザーのプロンプト処理速度を大幅に向上させます。コントリビューターはClaudeの支援を受けてコードを最適化し、コンテキスト処理を高速化しました。

media r/LocalLLaMA · 10時間前

研究者がローカル・オープンウェイトモデルのみで動作する自己複製型AIワームを構築

新しいArxiv論文は、ローカルのオープンウェイトモデルのみを使用して機能する自己複製型AIワームの作成について詳述しています。この進展は、自律型AIエージェントが外部依存なしで動作する可能性を示しています。

media r/LocalLLaMA · 10時間前

AMD GPU向けHIPカーネル生成の改善：合成データ、マルチエージェント探索、強化学習

StanfordのScaling Intelligenceブログの記事は、合成データ、マルチエージェント探索、強化学習を使用してAMD GPU向けのHIPカーネル生成を改善する方法について議論しています。

lab ByteDance Seed (HF) · 11時間前

ByteDance-Seed/PAR: タンパク質自己回帰モデルのチェックポイント

このリポジトリは、マルチスケール構造生成によるタンパク質自己回帰モデルのためのモデルチェックポイントを公開しています。これはICML 2026でオーラルプレゼンテーションとして採用されました。

lab Claude Code Releases · 11時間前

Claude Code v2.1.199 リリースノート

Claude Code v2.1.199 アップデートは、SSL 証明書エラー、ストリーミングレスポンスの処理、バックグラウンドエージェントの管理を含む、多数の安定性とユーザビリティの問題に対処しています。