使用 DGX Spark 和 Strix Halo 进行解耦的提示处理
用户演示了一个解耦的推理流水线,使用 DGX Spark 进行预填充(prefilling),使用 Strix Halo 盒子进行令牌生成,为长上下文工作负载实现了显著的加速。通过将计算密集的提示处理卸载到 DGX,并利用 Strix 的内存带宽进行解码,该设置克服了仅在 Strix 上单独运行时看到的性能下降。
用户演示了一个解耦的推理流水线,使用 DGX Spark 进行预填充(prefilling),使用 Strix Halo 盒子进行令牌生成,为长上下文工作负载实现了显著的加速。通过将计算密集的提示处理卸载到 DGX,并利用 Strix 的内存带宽进行解码,该设置克服了仅在 Strix 上单独运行时看到的性能下降。
本研究通过比较公开辩论框架中LLM智能体的公开言论与私下(OTR)回应,调查了社会结构如何影响LLM智能体的公开表达。研究表明,诱导对齐的环境会导致这些渠道之间出现系统性分歧,在10个模型和多个场景中,决策分歧从约3%的基础水平上升到约40%。
本文探讨了大型语言模型在部署期间不安全输出的持续性,并提出了一种实时监控解决方案。它引入了一个简单的监控器,通过将外部模型的验证器信号转换为警报决策,并使用阈值进行控制,阈值通过风险控制进行校准。
本文介绍了 Program-as-Weights (PAW),这是一种将自然语言规范编译为紧凑、本地可执行的神经工件的范式,用于替代大型语言模型 API。该方法旨在通过将基础模型视为工具构建者而非逐输入的问题解决者,来改善局部性、可重现性和成本。
研究人员推出了LACUNA,这是第一个具有真实参数级定位的遗忘测试平台,旨在解决评估遗忘是否真正从模型参数中擦除知识的空白。该平台通过掩码持续预训练,将合成个体的PII注入到基于OLMo的1B和7B模型的预定义参数中。
Geoffrey Litt 认为,开发人员必须深入理解由编码代理生成的代码,以避免认知债务并保持作为创造性过程中的积极参与者。
开源框架 OpenLumara 现在支持与任何能够与 OpenAI 端点通信的用户界面连接,例如 KoboldLite 和 OpenWebUI。此更新允许用户将节省 token 的框架集成到现有工作流程中,而无需更改首选的前端。
一位用户正在寻求关于能够生成大规模结构数据(例如整个城市布局、道路网络和复杂网格系统)的本地语言模型的推荐。
Simon Willison 发布了 llm-coding-agent 0.1a0,这是一个早期实验,旨在使用他的 LLM 库作为代理框架来构建一个简单的编码代理。该项目是通过提示 Claude Code 编写规范并使用红绿 TDD 实现工具而生成的。
社区为 llama.cpp 提交的拉取请求(PR)显著提升了 Intel ARC 用户的提示词处理速度,特别使 B580 等硬件受益。贡献者在 Claude 的协助下优化了代码,以加速上下文处理。
一篇新的Arxiv论文详细介绍了完全使用本地开源权重模型运行的自复制AI蠕虫的创建。这一进展突显了自主AI代理在不依赖外部资源的情况下运行的潜力。
本文来自斯坦福大学Scaling Intelligence博客,探讨了使用合成数据、多智能体搜索和强化学习改进AMD GPU HIP内核生成的方法。
该仓库提供了通过多尺度结构生成进行蛋白质自回归建模的模型检查点,该工作已被 ICML 2026 接收为口头报告。
Claude Code v2.1.199 更新解决了大量稳定性和可用性问题,包括修复 SSL 证书错误、流式响应处理和后台代理管理。
Anthropic 已在全球范围内重新部署 Claude Fable 5,并发布了关于其网络安全安全分类器和拟议的 AI 越狱严重程度框架的详细信息。该公司旨在建立一致的术语,以便与政府讨论越狱风险,同时邀请更广泛的社区提供反馈。
一名用户正在研究使用 llama.cpp 在双 AMD Radeon R9700 设置上优化 Qwen3.6-27B 模型,比较 Vulkan 和 ROCm 后端之间的性能。
Xenova 发布了 Gemma 4 的 WebGPU 内核,实现了每秒 255 个 token 的性能。此优化使密集模型在 Web 浏览器中的运行速度超过 100 tok/s。
Simon Willison 利用 Claude Code 和 Fable 5 模型,自动化了 Datasette Agent 系统提示的评估和优化过程,特别针对其只读 SQL 查询执行功能。该过程涉及安装最新的 Datasette alpha 版本和 DSPy,以识别代理在处理模式信息方面的弱点。
英伟达的一位知名人物表示,他不相信通用人工智能(AGI),并认为行业的重点应转向为企业定制的开源模型。
一名用户在使用 inspect-ai 框架的 RTX 3090 上比较了 Qwen3.6 27b、Gemma4 26B A4B QAT 和 Ornith1.0 35B MoE,以评估本地模型的性能。 测试结果显示,在通用知识、接地能力和代码基准方面结果不一,Qwen3.6 通常在得分上领先,而 Ornith 在 DROP 等特定领域表现出优势。