全部文章 — korshunov.ai

全部文章页 1 / 22

arxiv arXiv cs.CL · 1 小时前实时

多语言设置中LLM作为裁判的挑战与建议

本文考察了在多语言和少资源语言环境中使用大型语言模型作为评估者的可靠性，强调了当前实践中的显著差距。作者分析了650篇ACL Anthology论文，以识别不一致之处和对单一裁判模型的过度依赖。

arxiv arXiv cs.CL · 2 小时前

AgenticSTS：面向长周期 LLM 代理的有界内存测试平台

作者介绍了 AgenticSTS，这是一个旨在研究显式记忆层如何塑造长周期 LLM 代理决策的测试平台。它在游戏 Slay the Spire 2 中利用有界内存契约，其中提示通过类型化检索组装，而不是附加原始转录。

arxiv arXiv cs.CL · 2 小时前

BamiBERT：一种新的基于 BERT 的越南语语言模型

研究人员推出了 BamiBERT，这是一种新的基于 BERT 的越南语预训练语言模型，旨在解决当前标准 PhoBERT 的局限性。该模型在 129GB 语料库上从头开始训练了 20 个 epoch，支持长达 2048 个 token 的扩展上下文长度，并直接在原始输入上运行，无需外部分词。

arxiv arXiv cs.CL · 2 小时前

CheckRLM：检索增强推理中知识-思维一致性的有效检查

作者提出了 CheckRLM，这是一个框架，通过使用检索增强生成在推理期间及时检查和纠正事实错误，从而增强推理语言模型的可靠性。该方法从推理链中提取事实声明以识别不一致之处，并通过外部知识应用成本极低的修正。

arxiv arXiv cs.CL · 2 小时前

HERMES：用于预训练数据混合的多粒度标注基底

HERMES 是一种从数据导出的标注基底，它使用学习到的语义变换和3阶段残差向量量化，将文档标注为从粗到细的代码，最多包含约130k个单元。

arxiv arXiv cs.CL · 2 小时前

方向性在结构泛化中的作用

本文介绍了为 AM-Parser 重新设计的符号后端，该后端利用 CCG 有向类型来更好地处理修饰语位置偏移等结构泛化任务中的方向性差异。

media r/LocalLLaMA · 3 小时前

使用 DGX Spark 和 Strix Halo 进行解耦的提示处理

用户演示了一个解耦的推理流水线，使用 DGX Spark 进行预填充（prefilling），使用 Strix Halo 盒子进行令牌生成，为长上下文工作负载实现了显著的加速。通过将计算密集的提示处理卸载到 DGX，并利用 Strix 的内存带宽进行解码，该设置克服了仅在 Strix 上单独运行时看到的性能下降。

arxiv arXiv cs.CL · 3 小时前

使用图生成器的HNSW及其精度保证

该技术报告介绍了一种“认证后校正”（Certify-then-Rectify）框架，它将分层可导航小世界（HNSW）图的速度与理论正确性保证相结合。该方法动态评估搜索质量，并在需要时升级到精确恢复算法，确保最坏情况下的准确性。

arxiv arXiv cs.CL · 3 小时前

SkillFuzz：针对开放技能市场中隐式意图发现的技能组合模糊测试

本文介绍了 SkillFuzz，一种无需执行即可进行测试的方法，旨在发现开放技能市场中可能通过交互将智能体重定向至非预期目标的良性技能组合所产生的隐式意图。通过将此发现问题建模为技能组合上的模糊测试问题，该方法提取结构化契约，并利用基于契约的蒙特卡洛树搜索来优先处理潜在冲突的组合。

arxiv arXiv cs.CL · 4 小时前

世界模型：文化AI的文学工具

文章认为，文学学科为构建具有文化素养的AI提供了不可或缺的工具，解决了单语大型语言模型的局限性。

arxiv arXiv cs.CL · 4 小时前

HULAT2 在 MER-TRANS 2026 上的表现：面向西班牙语文本易读性生成的治理型多智能体简化方法

本文详细介绍了 HULAT2-UC3M 参与 MER-TRANS 2026 西班牙语赛道（一项关于多语言易读翻译的共享任务）的情况。团队提交了三个完全自动化的运行实验，将多智能体工作流与线性基线进行比较，以评估简化策略。

arxiv arXiv cs.CL · 4 小时前

了解你的来源：用于媒体背景核查的公共知识库

作者介绍了 MEDIAREF，这是一个公开可用的网络文档知识库，旨在实现可复现且低成本的媒体背景核查（MBC）评估。该工具解决了近期源关键推理方法对昂贵专有搜索 API 的依赖问题。

arxiv arXiv cs.CL · 4 小时前

自然语言处理领域的学术迁移模式

一项分析2010年至2026年NLP研究的研究发现，随着Large Language Model的进步模糊了NLP与通用Machine Learning之间的界限，学科重心正在转移。

arxiv arXiv cs.CL · 4 小时前

使用大型语言模型对Linux/bash考试进行自动评分

本研究评估了四个前沿大型语言模型（GPT、Claude Opus、Gemini和GLM）在评分简短的Linux/bash命令响应时能否近似专家判断。研究表明，结构化提示显著提高了与人类评分者的一致性，为计算教育中的AI辅助评估建立了框架。

arxiv arXiv cs.CL · 5 小时前

EvoPolicyGym：评估交互式环境中自主策略的演化

本文介绍了 EvoPolicyGym，这是一个基准测试，旨在评估智能体如何在固定的交互预算内通过反馈迭代改进可执行策略。这种受控的设置解决了现有评估的局限性，后者通常将过程简化为最终得分，或将其与软件工程进展混淆。

arxiv arXiv cs.CL · 5 小时前

语言模型作为文化的测量装置

本文认为，使用自然语言处理（NLP）来量化文化现象是一种物质-话语实践，其中装置主动构成了它所测量的现实，而不是被动地记录它。

media Hugging Face Forums · 6 小时前

在我的账户上测试

这是一篇用于验证内容创建能力的测试帖子。讨论包含两篇帖子，涉及两位参与者。

github Goose (Block) · 6 小时前

Goose v1.41.0 更新在提供商支持方面引入了重大扩展，包括新增对 iFlytek Spark、Astron、Fireworks AI、Together AI、OrcaRouter、EmpirioLabs AI、xAI SuperGrok、Perplexity、Alibaba（通过 DashScope 的 Qwen）、Databricks AI Gateway、NEAR AI Cloud 和 Scaleway 的集成。它还增加了对 GLM-5.2 模型的支持以及 MLX 本地推理功能。

arxiv arXiv cs.CL · 6 小时前

扩展是否能通过大语言模型改善社会模拟？

本研究调查了当前的语言模型扩展范式是否能够弥合社会模拟在意见建模、行为模拟和纵向预测方面的保真度差距。通过使用在固定计算预算（从 $10^{18}$ 到 $10^{20}$ FLOPs）下在 DCLM 语料库上训练的 85 个 Qwen3 变压器模型，作者分析了计算规模与模拟准确性之间的关系。

arxiv arXiv cs.CL · 6 小时前

TestEvo-Bench：用于测试与代码协同演化的可执行实时基准

作者介绍了 TestEvo-Bench，这是一个实时基准，旨在评估测试自动化代理处理代码和测试协同演化的能力。它通过提供锚定在真实提交历史和环境配置中的可执行任务，解决了现有基准的局限性。

多语言设置中LLM作为裁判的挑战与建议

AgenticSTS：面向长周期 LLM 代理的有界内存测试平台

BamiBERT：一种新的基于 BERT 的越南语语言模型

CheckRLM：检索增强推理中知识-思维一致性的有效检查

HERMES：用于预训练数据混合的多粒度标注基底

方向性在结构泛化中的作用

使用 DGX Spark 和 Strix Halo 进行解耦的提示处理

使用图生成器的HNSW及其精度保证

SkillFuzz：针对开放技能市场中隐式意图发现的技能组合模糊测试

世界模型：文化AI的文学工具

HULAT2 在 MER-TRANS 2026 上的表现：面向西班牙语文本易读性生成的治理型多智能体简化方法

了解你的来源：用于媒体背景核查的公共知识库

自然语言处理领域的学术迁移模式

使用大型语言模型对Linux/bash考试进行自动评分

EvoPolicyGym：评估交互式环境中自主策略的演化

语言模型作为文化的测量装置

在我的账户上测试

Goose v1.41.0 发布说明

扩展是否能通过大语言模型改善社会模拟？

TestEvo-Bench：用于测试与代码协同演化的可执行实时基准