多言語環境におけるLLM-as-a-Judgeの課題と推奨事項
本記事は、多言語および低資源言語の文脈において大規模言語モデルを評価者として使用することの信頼性を検証し、現在の慣行における重要なギャップを浮き彫りにします。著者は650件のACL Anthology論文を分析し、不整合や単一のjudgeモデルへの過度な依存を特定しました。
本記事は、多言語および低資源言語の文脈において大規模言語モデルを評価者として使用することの信頼性を検証し、現在の慣行における重要なギャップを浮き彫りにします。著者は650件のACL Anthology論文を分析し、不整合や単一のjudgeモデルへの過度な依存を特定しました。
著者は、明示的な記憶層が長期ホライズンLLMエージェントの意思決定にどのように影響するかを研究するために設計されたテストベッドであるAgenticSTSを紹介します。これは、Slay the Spire 2というゲームにおいて、生の転写文書を追加するのではなく、型付き検索によってプロンプトを組み立てる制限付きメモリ契約を利用しています。
研究者らは、BamiBERTを提唱しました。これは現在の標準であるPhoBERTの制限に対処するために設計された、ベトナム語向けの新しいBERTベースの事前学習済み言語モデルです。129GBのコーパスで20エポックからスクラッチでトレーニングされ、最大2048トークンの拡張コンテキスト長をサポートし、外部の単語分割なしで生の入力を直接処理します。
著者は、推論中に事実上の誤りをタイムリーにチェックして修正することで、推論言語モデルの信頼性を向上させるフレームワークであるCheckRLMを提案する。このアプローチは、推論チェーンから事実上の主張を抽出して矛盾を特定し、外部知識を用いて最小限のコストで修正を適用する。
HERMESは、学習されたセマンティック変換と3段階の残差ベクトル量子化を用いて、文書を最大約130kのセルを持つ粗から細へのコードに注釈付けるデータ由来のラベリング基盤です。
本記事は、修飾語位置のシフトのような構造的汎化タスクにおける方向性の区別をより適切に処理するためにCCG有向型を利用するAM-Parserのリデザインされた記号的バックエンドを紹介している。
あるユーザーが、prefillingにDGX Sparkを、トークン生成にStrix Haloボックスを用いた分散推論パイプラインを実証し、ロングコンテキストワークロードで大幅な高速化を実現しました。計算集約的なプロンプト処理をDGXにオフロードし、Strixのメモリ帯域幅をデコーディングに活用することで、Strix単独で実行した場合に見られるパフォーマンス低下を克服しています。
この技術レポートは、階層型ナビゲ可能小世界(HNSW)グラフの速度と理論的な正しさの保証を組み合わせる「Certify-then-Rectify」フレームワークを紹介します。この手法は検索品質を動的に評価し、必要に応じて正確な復元アルゴリズムにエスカレーションすることで、最悪ケースの精度を保証します。
本論文は、SkillFuzzを紹介します。これは、個別には無害なスキルが相互作用してエージェントを意図しない目標へ誘導する可能性があるオープンスキルマーケットプレイスにおいて、暗黙的インテントを発見するために設計された実行不要のテスト手法です。この発見をスキルの構成に関するファジング問題として定式化することで、本手法は構造化された契約を抽出し、契約主導のモンテカルロ木探索を用いて潜在的に競合する組み合わせを優先します。
本記事は、文学分野が文化リテラシーを持つAIを構築するための不可欠なツールを提供し、単一言語大規模言語モデルの限界に対処すると論じています。
本論文は、多言語簡単読解翻訳の共有タスクであるMER-TRANS 2026のスペイン語トラックにおけるHULAT2-UC3Mの参加詳細を記述する。チームは、マルチエージェントワークフローと線形ベースラインを比較し、簡略化戦略を評価するために、3つの完全自動実行を提出した。
著者らは、メディア背景調査(MBC)の再現可能かつ低コストな評価を可能にするために設計された、Web由来の文書からなる公開知識ストアであるMEDIAREFを紹介します。このツールは、最近の情報源重視の推論アプローチにおける高価なプロプライエタリな検索APIへの依存に対処します。
2010年から2026年にかけてのNLP研究を分析した研究によると、大規模言語モデルの進展によりNLPと一般的な機械学習の境界が曖昧になるにつれて、学問分野の重心が移動していることが明らかになった。
本研究は、4つの最先端大規模言語モデル(GPT、Claude Opus、Gemini、GLM)が、短いLinux/bashコマンドの回答を採点する際に専門家の判断を近似できるかを評価する。この研究は、構造化されたプロンプトが人間採点者との合意を大幅に改善し、計算機教育におけるAI支援評価の枠組みを確立することを示している。
本記事では、エージェントが固定されたインタラクション予算内でフィードバックを通じて実行可能なポリシーを反復的に改善する方法を評価するために設計されたベンチマークであるEvoPolicyGymを紹介しています。この制御された設定は、既存の評価がプロセスを最終スコアに単純化したり、ソフトウェアエンジニアリングの進歩と混同したりするといった限界に対処します。
本論文は、NLPを用いて文化的現象を定量化することは、装置がそれを測定する現実を受動的に記録するのではなく、能動的に構成する物質的・談話的実践であると主張する。
あるユーザーが「MoA-Max」を提案しました。これは40Bパラメータ未満のモデルを使用したローカルなエージェント混合構成で、総合スコア87.7を達成し、DeepSeek-v4-proを上回ります。
これはコンテンツ作成能力を確認するために作成されたテスト投稿です。このディスカッションには2つの投稿と2人の参加者が含まれています。
Goose v1.41.0 アップデートは、provider サポートの大幅な拡張をもたらします。これには、iFlytek Spark、Astron、Fireworks AI、Together AI、OrcaRouter、EmpirioLabs AI、xAI SuperGrok、Perplexity、Alibaba (DashScope 経由の Qwen)、Databricks AI Gateway、NEAR AI Cloud、Scaleway の新しい統合が含まれます。また、GLM-5.2 モデルのサポートと MLX ローカル推論機能も追加されました。
本研究は、現在の言語モデルのスケーリングパラダイムが、意見モデリング、行動シミュレーション、長期予測にわたる社会シミュレーションの忠実度のギャップを埋められるかを調査する。10^18から10^20 FLOPsまでの固定計算予算でDCLMコーパス上で訓練された85個のQwen3トランスフォーマーモデルを用い、著者らは計算規模とシミュレーション精度の関係を分析した。