使用 DGX Spark 和 Strix Halo 进行解耦的提示处理
用户演示了一个解耦的推理流水线,使用 DGX Spark 进行预填充(prefilling),使用 Strix Halo 盒子进行令牌生成,为长上下文工作负载实现了显著的加速。通过将计算密集的提示处理卸载到 DGX,并利用 Strix 的内存带宽进行解码,该设置克服了仅在 Strix 上单独运行时看到的性能下降。
用户演示了一个解耦的推理流水线,使用 DGX Spark 进行预填充(prefilling),使用 Strix Halo 盒子进行令牌生成,为长上下文工作负载实现了显著的加速。通过将计算密集的提示处理卸载到 DGX,并利用 Strix 的内存带宽进行解码,该设置克服了仅在 Strix 上单独运行时看到的性能下降。
一项分析2010年至2026年NLP研究的研究发现,随着Large Language Model的进步模糊了NLP与通用Machine Learning之间的界限,学科重心正在转移。
本研究评估了四个前沿大型语言模型(GPT、Claude Opus、Gemini和GLM)在评分简短的Linux/bash命令响应时能否近似专家判断。研究表明,结构化提示显著提高了与人类评分者的一致性,为计算教育中的AI辅助评估建立了框架。
本文介绍了 EvoPolicyGym,这是一个基准测试,旨在评估智能体如何在固定的交互预算内通过反馈迭代改进可执行策略。这种受控的设置解决了现有评估的局限性,后者通常将过程简化为最终得分,或将其与软件工程进展混淆。
本文认为,使用自然语言处理(NLP)来量化文化现象是一种物质-话语实践,其中装置主动构成了它所测量的现实,而不是被动地记录它。
本研究调查了当前的语言模型扩展范式是否能够弥合社会模拟在意见建模、行为模拟和纵向预测方面的保真度差距。通过使用在固定计算预算(从 $10^{18}$ 到 $10^{20}$ FLOPs)下在 DCLM 语料库上训练的 85 个 Qwen3 变压器模型,作者分析了计算规模与模拟准确性之间的关系。
作者介绍了 TestEvo-Bench,这是一个实时基准,旨在评估测试自动化代理处理代码和测试协同演化的能力。它通过提供锚定在真实提交历史和环境配置中的可执行任务,解决了现有基准的局限性。
本研究通过分析 LibriVox 数据,调查了声音和声学特征如何影响有声书的吸引力。即使在考虑标题效应后,它也建立了叙述质量与消费指标之间的稳健关联。
作者提出了VRRL,一个旨在使视觉-语言模型在思维链推理过程中执行视觉基础自我反思的强化学习框架。
作者提出了一种无需训练的免训练方法,以缓解基于CLIP的视觉编码器中的排版攻击,其中无关文本会将视觉表示偏向于词汇意义。通过使用基于采样的解释和电路挖掘,该方法隔离了负责编码此 unwanted 词汇信息的具体 Vision Transformer 组件。
研究人员推出了DramaSR-532K,这是一个包含超过900个角色的532K条标注对话行的大规模基准数据集,并提出了DramaSR-LRM以增强长剧集电视剧中的说话人识别。
本研究通过比较公开辩论框架中LLM智能体的公开言论与私下(OTR)回应,调查了社会结构如何影响LLM智能体的公开表达。研究表明,诱导对齐的环境会导致这些渠道之间出现系统性分歧,在10个模型和多个场景中,决策分歧从约3%的基础水平上升到约40%。
本文探讨了大型语言模型在部署期间不安全输出的持续性,并提出了一种实时监控解决方案。它引入了一个简单的监控器,通过将外部模型的验证器信号转换为警报决策,并使用阈值进行控制,阈值通过风险控制进行校准。
本文介绍了 Program-as-Weights (PAW),这是一种将自然语言规范编译为紧凑、本地可执行的神经工件的范式,用于替代大型语言模型 API。该方法旨在通过将基础模型视为工具构建者而非逐输入的问题解决者,来改善局部性、可重现性和成本。
研究人员推出了LACUNA,这是第一个具有真实参数级定位的遗忘测试平台,旨在解决评估遗忘是否真正从模型参数中擦除知识的空白。该平台通过掩码持续预训练,将合成个体的PII注入到基于OLMo的1B和7B模型的预定义参数中。
Geoffrey Litt 认为,开发人员必须深入理解由编码代理生成的代码,以避免认知债务并保持作为创造性过程中的积极参与者。
开源框架 OpenLumara 现在支持与任何能够与 OpenAI 端点通信的用户界面连接,例如 KoboldLite 和 OpenWebUI。此更新允许用户将节省 token 的框架集成到现有工作流程中,而无需更改首选的前端。
一位用户正在寻求关于能够生成大规模结构数据(例如整个城市布局、道路网络和复杂网格系统)的本地语言模型的推荐。
Simon Willison 发布了 llm-coding-agent 0.1a0,这是一个早期实验,旨在使用他的 LLM 库作为代理框架来构建一个简单的编码代理。该项目是通过提示 Claude Code 编写规范并使用红绿 TDD 实现工具而生成的。
社区为 llama.cpp 提交的拉取请求(PR)显著提升了 Intel ARC 用户的提示词处理速度,特别使 B580 等硬件受益。贡献者在 Claude 的协助下优化了代码,以加速上下文处理。