HERMES:用于预训练数据混合的多粒度标注基底
HERMES 是一种从数据导出的标注基底,它使用学习到的语义变换和3阶段残差向量量化,将文档标注为从粗到细的代码,最多包含约130k个单元。
HERMES 是一种从数据导出的标注基底,它使用学习到的语义变换和3阶段残差向量量化,将文档标注为从粗到细的代码,最多包含约130k个单元。
本文介绍了为 AM-Parser 重新设计的符号后端,该后端利用 CCG 有向类型来更好地处理修饰语位置偏移等结构泛化任务中的方向性差异。
用户演示了一个解耦的推理流水线,使用 DGX Spark 进行预填充(prefilling),使用 Strix Halo 盒子进行令牌生成,为长上下文工作负载实现了显著的加速。通过将计算密集的提示处理卸载到 DGX,并利用 Strix 的内存带宽进行解码,该设置克服了仅在 Strix 上单独运行时看到的性能下降。
该技术报告介绍了一种“认证后校正”(Certify-then-Rectify)框架,它将分层可导航小世界(HNSW)图的速度与理论正确性保证相结合。该方法动态评估搜索质量,并在需要时升级到精确恢复算法,确保最坏情况下的准确性。
本文介绍了 SkillFuzz,一种无需执行即可进行测试的方法,旨在发现开放技能市场中可能通过交互将智能体重定向至非预期目标的良性技能组合所产生的隐式意图。通过将此发现问题建模为技能组合上的模糊测试问题,该方法提取结构化契约,并利用基于契约的蒙特卡洛树搜索来优先处理潜在冲突的组合。
文章认为,文学学科为构建具有文化素养的AI提供了不可或缺的工具,解决了单语大型语言模型的局限性。
本文详细介绍了 HULAT2-UC3M 参与 MER-TRANS 2026 西班牙语赛道(一项关于多语言易读翻译的共享任务)的情况。团队提交了三个完全自动化的运行实验,将多智能体工作流与线性基线进行比较,以评估简化策略。
作者介绍了 MEDIAREF,这是一个公开可用的网络文档知识库,旨在实现可复现且低成本的媒体背景核查(MBC)评估。该工具解决了近期源关键推理方法对昂贵专有搜索 API 的依赖问题。
一项分析2010年至2026年NLP研究的研究发现,随着Large Language Model的进步模糊了NLP与通用Machine Learning之间的界限,学科重心正在转移。
本研究评估了四个前沿大型语言模型(GPT、Claude Opus、Gemini和GLM)在评分简短的Linux/bash命令响应时能否近似专家判断。研究表明,结构化提示显著提高了与人类评分者的一致性,为计算教育中的AI辅助评估建立了框架。
本文介绍了 EvoPolicyGym,这是一个基准测试,旨在评估智能体如何在固定的交互预算内通过反馈迭代改进可执行策略。这种受控的设置解决了现有评估的局限性,后者通常将过程简化为最终得分,或将其与软件工程进展混淆。
本文认为,使用自然语言处理(NLP)来量化文化现象是一种物质-话语实践,其中装置主动构成了它所测量的现实,而不是被动地记录它。
本研究调查了当前的语言模型扩展范式是否能够弥合社会模拟在意见建模、行为模拟和纵向预测方面的保真度差距。通过使用在固定计算预算(从 $10^{18}$ 到 $10^{20}$ FLOPs)下在 DCLM 语料库上训练的 85 个 Qwen3 变压器模型,作者分析了计算规模与模拟准确性之间的关系。
作者介绍了 TestEvo-Bench,这是一个实时基准,旨在评估测试自动化代理处理代码和测试协同演化的能力。它通过提供锚定在真实提交历史和环境配置中的可执行任务,解决了现有基准的局限性。
本研究通过分析 LibriVox 数据,调查了声音和声学特征如何影响有声书的吸引力。即使在考虑标题效应后,它也建立了叙述质量与消费指标之间的稳健关联。
作者提出了VRRL,一个旨在使视觉-语言模型在思维链推理过程中执行视觉基础自我反思的强化学习框架。
作者提出了一种无需训练的免训练方法,以缓解基于CLIP的视觉编码器中的排版攻击,其中无关文本会将视觉表示偏向于词汇意义。通过使用基于采样的解释和电路挖掘,该方法隔离了负责编码此 unwanted 词汇信息的具体 Vision Transformer 组件。
研究人员推出了DramaSR-532K,这是一个包含超过900个角色的532K条标注对话行的大规模基准数据集,并提出了DramaSR-LRM以增强长剧集电视剧中的说话人识别。
本研究通过比较公开辩论框架中LLM智能体的公开言论与私下(OTR)回应,调查了社会结构如何影响LLM智能体的公开表达。研究表明,诱导对齐的环境会导致这些渠道之间出现系统性分歧,在10个模型和多个场景中,决策分歧从约3%的基础水平上升到约40%。
本文探讨了大型语言模型在部署期间不安全输出的持续性,并提出了一种实时监控解决方案。它引入了一个简单的监控器,通过将外部模型的验证器信号转换为警报决策,并使用阈值进行控制,阈值通过风险控制进行校准。