すべての記事 — korshunov.ai

すべての記事ページ 1 / 23

構造的汎化における方向性の役割について

本記事は、修飾語位置のシフトのような構造的汎化タスクにおける方向性の区別をより適切に処理するためにCCG有向型を利用するAM-Parserのリデザインされた記号的バックエンドを紹介している。

DGX SparkとStrix Haloによる分散プロンプト処理

あるユーザーが、prefillingにDGX Sparkを、トークン生成にStrix Haloボックスを用いた分散推論パイプラインを実証し、ロングコンテキストワークロードで大幅な高速化を実現しました。計算集約的なプロンプト処理をDGXにオフロードし、Strixのメモリ帯域幅をデコーディングに活用することで、Strix単独で実行した場合に見られるパフォーマンス低下を克服しています。

arxiv arXiv cs.CL · 7時間前

グラフスパンナーを用いた精度保証付きHNSW

この技術レポートは、階層型ナビゲ可能小世界（HNSW）グラフの速度と理論的な正しさの保証を組み合わせる「Certify-then-Rectify」フレームワークを紹介します。この手法は検索品質を動的に評価し、必要に応じて正確な復元アルゴリズムにエスカレーションすることで、最悪ケースの精度を保証します。

arxiv arXiv cs.CL · 8時間前

SkillFuzz: オープンスキルマーケットプレイスにおける暗黙的インテント発見のためのスキル構成のファジング

本論文は、SkillFuzzを紹介します。これは、個別には無害なスキルが相互作用してエージェントを意図しない目標へ誘導する可能性があるオープンスキルマーケットプレイスにおいて、暗黙的インテントを発見するために設計された実行不要のテスト手法です。この発見をスキルの構成に関するファジング問題として定式化することで、本手法は構造化された契約を抽出し、契約主導のモンテカルロ木探索を用いて潜在的に競合する組み合わせを優先します。

arxiv arXiv cs.CL · 8時間前

ワールドワイド・モデルズ：文化的AIのための文学的ツール

本記事は、文学分野が文化リテラシーを持つAIを構築するための不可欠なツールを提供し、単一言語大規模言語モデルの限界に対処すると論じています。

arxiv arXiv cs.CL · 8時間前

MER-TRANS 2026におけるHULAT2: スペイン語簡単読解生成のための制御されたマルチエージェント簡略化

本論文は、多言語簡単読解翻訳の共有タスクであるMER-TRANS 2026のスペイン語トラックにおけるHULAT2-UC3Mの参加詳細を記述する。チームは、マルチエージェントワークフローと線形ベースラインを比較し、簡略化戦略を評価するために、3つの完全自動実行を提出した。

arxiv arXiv cs.CL · 8時間前

あなたの情報源を知ろう: メディア背景調査のための公開知識ストア

著者らは、メディア背景調査（MBC）の再現可能かつ低コストな評価を可能にするために設計された、Web由来の文書からなる公開知識ストアであるMEDIAREFを紹介します。このツールは、最近の情報源重視の推論アプローチにおける高価なプロプライエタリな検索APIへの依存に対処します。

arxiv arXiv cs.CL · 9時間前

自然言語処理における学術的な移行パターン

2010年から2026年にかけてのNLP研究を分析した研究によると、大規模言語モデルの進展によりNLPと一般的な機械学習の境界が曖昧になるにつれて、学問分野の重心が移動していることが明らかになった。

arxiv arXiv cs.CL · 9時間前

大規模言語モデルを用いたLinux/bash試験の自動採点

本研究は、4つの最先端大規模言語モデル（GPT、Claude Opus、Gemini、GLM）が、短いLinux/bashコマンドの回答を採点する際に専門家の判断を近似できるかを評価する。この研究は、構造化されたプロンプトが人間採点者との合意を大幅に改善し、計算機教育におけるAI支援評価の枠組みを確立することを示している。

arxiv arXiv cs.CL · 9時間前

EvoPolicyGym: インタラクティブ環境における自律的ポリシー進化の評価

本記事では、エージェントが固定されたインタラクション予算内でフィードバックを通じて実行可能なポリシーを反復的に改善する方法を評価するために設計されたベンチマークであるEvoPolicyGymを紹介しています。この制御された設定は、既存の評価がプロセスを最終スコアに単純化したり、ソフトウェアエンジニアリングの進歩と混同したりするといった限界に対処します。

arxiv arXiv cs.CL · 9時間前

文化を測定する装置としての言語モデル

本論文は、NLPを用いて文化的現象を定量化することは、装置がそれを測定する現実を受動的に記録するのではなく、能動的に構成する物質的・談話的実践であると主張する。

arxiv arXiv cs.CL · 10時間前

スケーリングはLLMを用いた社会シミュレーションを改善するのか？

本研究は、現在の言語モデルのスケーリングパラダイムが、意見モデリング、行動シミュレーション、長期予測にわたる社会シミュレーションの忠実度のギャップを埋められるかを調査する。10^18から10^20 FLOPsまでの固定計算予算でDCLMコーパス上で訓練された85個のQwen3トランスフォーマーモデルを用い、著者らは計算規模とシミュレーション精度の関係を分析した。

arxiv arXiv cs.CL · 11時間前

TestEvo-Bench: テストとコードの共進化のための実行可能かつライブなベンチマーク

著者らは、テスト自動化エージェントがコードとテストの共進化をどの程度適切に処理できるかを評価するために設計されたライブベンチマークであるTestEvo-Benchを紹介します。既存のベンチマークの限界に対処し、実際のコミット履歴と環境設定に基づいた実行可能なタスクを提供します。

arxiv arXiv cs.CL · 11時間前

オーディオブックのナレーション魅力に関する音声ベースの理解

本研究は、LibriVoxデータを分析することで、声質および音響的特徴がオーディオブックの魅力に与える影響を調査する。タイトル効果を考慮した後でも、ナレーションの品質と消費指標の間に堅牢な関連性を確立している。

arxiv arXiv cs.CL · 11時間前

強化学習によるビジョン・言語モデルの視覚的に grounded な自己反映

著者は、ビジョン・言語モデルが思考チェーン推論中に視覚的に grounded な自己反映を行えるように設計された強化学習フレームワークであるVRRLを提案する。

arxiv arXiv cs.CL · 11時間前

トレーニング不要な概念局所化によるタイプグラフィック攻撃に対する堅牢性 toward

著者は、CLIPベースの視覚エンコーダーにおけるタイプグラフィック攻撃を緩和するためのトレーニング不要な手法を提案します。この手法では、無関係なテキストが視覚的表現を語彙的意味に偏らせます。サンプリングに基づく解釈とサーキットマイニングを使用することで、この望ましくない語彙情報を符号化する特定のVision Transformerコンポーネントを分離します。

arxiv arXiv cs.CL · 12時間前

推論型LLMが長編TVドラマにおける話者認識を向上

研究者らは、900人以上のキャラクターにわたる532Kの注釈付き対話行を含む大規模ベンチマーク「DramaSR-532K」を導入し、長編TVドラマにおける話者認識を強化する「DramaSR-LRM」を提案した。

arxiv arXiv cs.CL · 12時間前

誰も見ていないときにLLMエージェントが語るもの: マルチエージェント討論における社会的構造と潜在的目的の出現

本研究は、社会的構造がLLMエージェントの公的な表現にどのように影響するかを、デュアルチャネル討論フレームワーク内で、公開発言とオフ・ザ・レコード（OTR）応答を比較することで調査する。この研究は、アライメント誘発設定がこれらのチャネル間の体系的な分岐を引き起こし、10モデルおよび複数のシナリオにわたって意思決定の分岐が約3%のベースラインから約40%まで上昇することを示している。

arxiv arXiv cs.CL · 12時間前

LLMのオンライン安全モニタリング

本記事は、デプロイメント時の大規模言語モデルにおける不安全な出力の持続性に対処し、リアルタイムのモニタリングソリューションを提案します。外部モデルからの検証者信号を閾値処理によってアラーム判断に変換するシンプルなモニターを導入し、閾値はリスク制御を通じてキャリブレーションされます。

arxiv arXiv cs.CL · 12時間前

Program-as-Weights: 曖昧な関数向けのプログラミングパラダイム

本記事では、自然言語の仕様をコンパイルしてコンパクトでローカル実行可能なニューラルアーティファクトに変換し、大規模言語モデルAPIを置き換えるパラダイムであるProgram-as-Weights (PAW)を紹介します。このアプローチは、基盤モデルを入力ごとの問題解決者ではなくツールビルダーとして扱うことで、局所性、再現性、コストの改善を目指します。