すべての記事
media r/LocalLLaMA · 2時間前

追跡レポート: DeepSeek V4 Flashを2枚のRTX PRO 6000で実行すると、SonnetやOpusよりもリアルなコーディングタスクが高速に完了し、品質はSonnetレベルに達する

DeepSeek V4 FlashをvLLMを用いて2枚のRTX PRO 6000 GPU上で動作させた追跡ベンチマークは、Claude SonnetやOpusなどのAPIベースモデルと比較して、現実的なコーディングタスクでのパフォーマンスを評価したものである。その結果、OpusとFableは優れたコード品質を維持しているものの、DeepSeek V4 FlashはSonnetレベルの品質を達成しつつ、大幅に短い実時間で処理を終了することが判明した。

media Hugging Face Forums · 7時間前

統一自己組織化フレームワークのドメイン横断的検証

複雑系における自己組織化のための統一された数学的枠組みが、量子デコヒーレンスと古典的なボース・アインシュタイン凝縮体の遷移という2つの独立した物理領域から実験的支援を受けている。本研究は、非局所結合が「臨界増幅器」として作用し、系が最も敏感な位相境界で最大効果を生み出すことを報告している。

media Hugging Face Forums · 7時間前

Octopus SmartがAI搭載のワールドカップ分析システムを構築

Octopus Smartは、ワールドカップやプロフェッショナルなトーナメント向けの分析プラットフォーム「Octopus Football」を開発中であり、これはAI搭載のマッチインテリジェンスオーケストレーションを利用しています。このシステムは予測分析モデルとデータインテリジェンスエージェントを組み合わせ、チームパフォーマンスモデリング、選手評価、自動マッチ要約を提供します。

arxiv arXiv cs.CL · 8時間前

AgenticSTS: 長期ホライズンLLMエージェントのための制限付きメモリテストベッド

著者は、明示的な記憶層が長期ホライズンLLMエージェントの意思決定にどのように影響するかを研究するために設計されたテストベッドであるAgenticSTSを紹介します。これは、Slay the Spire 2というゲームにおいて、生の転写文書を追加するのではなく、型付き検索によってプロンプトを組み立てる制限付きメモリ契約を利用しています。

arxiv arXiv cs.CL · 8時間前

BamiBERT: ベトナム語用の新しいBERTベース言語モデル

研究者らは、BamiBERTを提唱しました。これは現在の標準であるPhoBERTの制限に対処するために設計された、ベトナム語向けの新しいBERTベースの事前学習済み言語モデルです。129GBのコーパスで20エポックからスクラッチでトレーニングされ、最大2048トークンの拡張コンテキスト長をサポートし、外部の単語分割なしで生の入力を直接処理します。

arxiv arXiv cs.CL · 8時間前

CheckRLM: 検索拡張推論における知識-思考の一貫性チェックの有効性

著者は、推論中に事実上の誤りをタイムリーにチェックして修正することで、推論言語モデルの信頼性を向上させるフレームワークであるCheckRLMを提案する。このアプローチは、推論チェーンから事実上の主張を抽出して矛盾を特定し、外部知識を用いて最小限のコストで修正を適用する。

media r/LocalLLaMA · 9時間前

DGX SparkとStrix Haloによる分散プロンプト処理

あるユーザーが、prefillingにDGX Sparkを、トークン生成にStrix Haloボックスを用いた分散推論パイプラインを実証し、ロングコンテキストワークロードで大幅な高速化を実現しました。計算集約的なプロンプト処理をDGXにオフロードし、Strixのメモリ帯域幅をデコーディングに活用することで、Strix単独で実行した場合に見られるパフォーマンス低下を克服しています。

arxiv arXiv cs.CL · 10時間前

SkillFuzz: オープンスキルマーケットプレイスにおける暗黙的インテント発見のためのスキル構成のファジング

本論文は、SkillFuzzを紹介します。これは、個別には無害なスキルが相互作用してエージェントを意図しない目標へ誘導する可能性があるオープンスキルマーケットプレイスにおいて、暗黙的インテントを発見するために設計された実行不要のテスト手法です。この発見をスキルの構成に関するファジング問題として定式化することで、本手法は構造化された契約を抽出し、契約主導のモンテカルロ木探索を用いて潜在的に競合する組み合わせを優先します。

arxiv arXiv cs.CL · 10時間前

MER-TRANS 2026におけるHULAT2: スペイン語簡単読解生成のための制御されたマルチエージェント簡略化

本論文は、多言語簡単読解翻訳の共有タスクであるMER-TRANS 2026のスペイン語トラックにおけるHULAT2-UC3Mの参加詳細を記述する。チームは、マルチエージェントワークフローと線形ベースラインを比較し、簡略化戦略を評価するために、3つの完全自動実行を提出した。

arxiv arXiv cs.CL · 10時間前

あなたの情報源を知ろう: メディア背景調査のための公開知識ストア

著者らは、メディア背景調査(MBC)の再現可能かつ低コストな評価を可能にするために設計された、Web由来の文書からなる公開知識ストアであるMEDIAREFを紹介します。このツールは、最近の情報源重視の推論アプローチにおける高価なプロプライエタリな検索APIへの依存に対処します。