多语言设置中LLM作为裁判的挑战与建议
本文考察了在多语言和少资源语言环境中使用大型语言模型作为评估者的可靠性,强调了当前实践中的显著差距。作者分析了650篇ACL Anthology论文,以识别不一致之处和对单一裁判模型的过度依赖。
本文考察了在多语言和少资源语言环境中使用大型语言模型作为评估者的可靠性,强调了当前实践中的显著差距。作者分析了650篇ACL Anthology论文,以识别不一致之处和对单一裁判模型的过度依赖。
作者介绍了 AgenticSTS,这是一个旨在研究显式记忆层如何塑造长周期 LLM 代理决策的测试平台。它在游戏 Slay the Spire 2 中利用有界内存契约,其中提示通过类型化检索组装,而不是附加原始转录。
研究人员推出了 BamiBERT,这是一种新的基于 BERT 的越南语预训练语言模型,旨在解决当前标准 PhoBERT 的局限性。该模型在 129GB 语料库上从头开始训练了 20 个 epoch,支持长达 2048 个 token 的扩展上下文长度,并直接在原始输入上运行,无需外部分词。
作者提出了 CheckRLM,这是一个框架,通过使用检索增强生成在推理期间及时检查和纠正事实错误,从而增强推理语言模型的可靠性。该方法从推理链中提取事实声明以识别不一致之处,并通过外部知识应用成本极低的修正。
HERMES 是一种从数据导出的标注基底,它使用学习到的语义变换和3阶段残差向量量化,将文档标注为从粗到细的代码,最多包含约130k个单元。
本文介绍了为 AM-Parser 重新设计的符号后端,该后端利用 CCG 有向类型来更好地处理修饰语位置偏移等结构泛化任务中的方向性差异。
用户演示了一个解耦的推理流水线,使用 DGX Spark 进行预填充(prefilling),使用 Strix Halo 盒子进行令牌生成,为长上下文工作负载实现了显著的加速。通过将计算密集的提示处理卸载到 DGX,并利用 Strix 的内存带宽进行解码,该设置克服了仅在 Strix 上单独运行时看到的性能下降。
该技术报告介绍了一种“认证后校正”(Certify-then-Rectify)框架,它将分层可导航小世界(HNSW)图的速度与理论正确性保证相结合。该方法动态评估搜索质量,并在需要时升级到精确恢复算法,确保最坏情况下的准确性。
本文介绍了 SkillFuzz,一种无需执行即可进行测试的方法,旨在发现开放技能市场中可能通过交互将智能体重定向至非预期目标的良性技能组合所产生的隐式意图。通过将此发现问题建模为技能组合上的模糊测试问题,该方法提取结构化契约,并利用基于契约的蒙特卡洛树搜索来优先处理潜在冲突的组合。
文章认为,文学学科为构建具有文化素养的AI提供了不可或缺的工具,解决了单语大型语言模型的局限性。
本文详细介绍了 HULAT2-UC3M 参与 MER-TRANS 2026 西班牙语赛道(一项关于多语言易读翻译的共享任务)的情况。团队提交了三个完全自动化的运行实验,将多智能体工作流与线性基线进行比较,以评估简化策略。
作者介绍了 MEDIAREF,这是一个公开可用的网络文档知识库,旨在实现可复现且低成本的媒体背景核查(MBC)评估。该工具解决了近期源关键推理方法对昂贵专有搜索 API 的依赖问题。
一项分析2010年至2026年NLP研究的研究发现,随着Large Language Model的进步模糊了NLP与通用Machine Learning之间的界限,学科重心正在转移。
本研究评估了四个前沿大型语言模型(GPT、Claude Opus、Gemini和GLM)在评分简短的Linux/bash命令响应时能否近似专家判断。研究表明,结构化提示显著提高了与人类评分者的一致性,为计算教育中的AI辅助评估建立了框架。
本文介绍了 EvoPolicyGym,这是一个基准测试,旨在评估智能体如何在固定的交互预算内通过反馈迭代改进可执行策略。这种受控的设置解决了现有评估的局限性,后者通常将过程简化为最终得分,或将其与软件工程进展混淆。
本文认为,使用自然语言处理(NLP)来量化文化现象是一种物质-话语实践,其中装置主动构成了它所测量的现实,而不是被动地记录它。
这是一篇用于验证内容创建能力的测试帖子。讨论包含两篇帖子,涉及两位参与者。
Goose v1.41.0 更新在提供商支持方面引入了重大扩展,包括新增对 iFlytek Spark、Astron、Fireworks AI、Together AI、OrcaRouter、EmpirioLabs AI、xAI SuperGrok、Perplexity、Alibaba(通过 DashScope 的 Qwen)、Databricks AI Gateway、NEAR AI Cloud 和 Scaleway 的集成。它还增加了对 GLM-5.2 模型的支持以及 MLX 本地推理功能。
本研究调查了当前的语言模型扩展范式是否能够弥合社会模拟在意见建模、行为模拟和纵向预测方面的保真度差距。通过使用在固定计算预算(从 $10^{18}$ 到 $10^{20}$ FLOPs)下在 DCLM 语料库上训练的 85 个 Qwen3 变压器模型,作者分析了计算规模与模拟准确性之间的关系。
作者介绍了 TestEvo-Bench,这是一个实时基准,旨在评估测试自动化代理处理代码和测试协同演化的能力。它通过提供锚定在真实提交历史和环境配置中的可执行任务,解决了现有基准的局限性。