全部文章 — korshunov.ai

全部文章页 1 / 22

使用 DGX Spark 和 Strix Halo 进行解耦的提示处理

用户演示了一个解耦的推理流水线，使用 DGX Spark 进行预填充（prefilling），使用 Strix Halo 盒子进行令牌生成，为长上下文工作负载实现了显著的加速。通过将计算密集的提示处理卸载到 DGX，并利用 Strix 的内存带宽进行解码，该设置克服了仅在 Strix 上单独运行时看到的性能下降。

blog Simon Willison · 7 小时前

理解才能参与

Geoffrey Litt 认为，开发人员必须深入理解由编码代理生成的代码，以避免认知债务并保持作为创造性过程中的积极参与者。

media r/LocalLLaMA · 7 小时前

OpenLumara 现在通过 OpenAI 端点桥接任何 UI 到本地模型

开源框架 OpenLumara 现在支持与任何能够与 OpenAI 端点通信的用户界面连接，例如 KoboldLite 和 OpenWebUI。此更新允许用户将节省 token 的框架集成到现有工作流程中，而无需更改首选的前端。

media r/LocalLLaMA · 7 小时前

有人在使用像QGIS这样的软件进行大规模空间或城市布局生成时，使用本地LLM吗？

一位用户正在寻求关于能够生成大规模结构数据（例如整个城市布局、道路网络和复杂网格系统）的本地语言模型的推荐。

blog Simon Willison · 7 小时前

llm-coding-agent 0.1a0

Simon Willison 发布了 llm-coding-agent 0.1a0，这是一个早期实验，旨在使用他的 LLM 库作为代理框架来构建一个简单的编码代理。该项目是通过提示 Claude Code 编写规范并使用红绿 TDD 实现工具而生成的。

media r/LocalLLaMA · 8 小时前

提示：使用此 llama.cpp PR 提升 Intel ARC 上的 PP

社区为 llama.cpp 提交的拉取请求（PR）显著提升了 Intel ARC 用户的提示词处理速度，特别使 B580 等硬件受益。贡献者在 Claude 的协助下优化了代码，以加速上下文处理。

media r/LocalLLaMA · 8 小时前

研究人员构建完全在本地开源权重模型上运行的自复制AI蠕虫

一篇新的Arxiv论文详细介绍了完全使用本地开源权重模型运行的自复制AI蠕虫的创建。这一进展突显了自主AI代理在不依赖外部资源的情况下运行的潜力。

media r/LocalLLaMA · 8 小时前

迈向更优的AMD GPU HIP内核生成：合成数据、多智能体搜索与强化学习

本文来自斯坦福大学Scaling Intelligence博客，探讨了使用合成数据、多智能体搜索和强化学习改进AMD GPU HIP内核生成的方法。

lab ByteDance Seed (HF) · 8 小时前

ByteDance-Seed/PAR：蛋白质自回归建模检查点

该仓库提供了通过多尺度结构生成进行蛋白质自回归建模的模型检查点，该工作已被 ICML 2026 接收为口头报告。

lab Claude Code Releases · 8 小时前

Claude Code v2.1.199 发布说明

Claude Code v2.1.199 更新解决了大量稳定性和可用性问题，包括修复 SSL 证书错误、流式响应处理和后台代理管理。

lab Anthropic News · 9 小时前

Anthropic 详细说明 Fable 5 的网络安全保障措施和越狱框架

Anthropic 已在全球范围内重新部署 Claude Fable 5，并发布了关于其网络安全安全分类器和拟议的 AI 越狱严重程度框架的详细信息。该公司旨在建立一致的术语，以便与政府讨论越狱风险，同时邀请更广泛的社区提供反馈。

media r/LocalLLaMA · 9 小时前

双R9700：Qwen3.6 27B的最佳公式？

一名用户正在研究使用 llama.cpp 在双 AMD Radeon R9700 设置上优化 Qwen3.6-27B 模型，比较 Vulkan 和 ROCm 后端之间的性能。

media r/LocalLLaMA · 9 小时前

Gemma 4 WebGPU 内核实现 255 tok/s

Xenova 发布了 Gemma 4 的 WebGPU 内核，实现了每秒 255 个 token 的性能。此优化使密集模型在 Web 浏览器中的运行速度超过 100 tok/s。

blog Simon Willison · 9 小时前

使用 DSPy 评估和改进 Datasette Agent 的 SQL 系统提示

Simon Willison 利用 Claude Code 和 Fable 5 模型，自动化了 Datasette Agent 系统提示的评估和优化过程，特别针对其只读 SQL 查询执行功能。该过程涉及安装最新的 Datasette alpha 版本和 DSPy，以识别代理在处理模式信息方面的弱点。

media r/LocalLLaMA · 9 小时前

英伟达AI先驱拒绝AGI，将OpenAI和Anthropic与AOL相提并论

英伟达的一位知名人物表示，他不相信通用人工智能（AGI），并认为行业的重点应转向为企业定制的开源模型。

media r/LocalLLaMA · 10 小时前

使用 RTX 3090 进行本地基准测试 - Qwen3.6 27b 与 Ornith

一名用户在使用 inspect-ai 框架的 RTX 3090 上比较了 Qwen3.6 27b、Gemma4 26B A4B QAT 和 Ornith1.0 35B MoE，以评估本地模型的性能。测试结果显示，在通用知识、接地能力和代码基准方面结果不一，Qwen3.6 通常在得分上领先，而 Ornith 在 DROP 等特定领域表现出优势。

media r/LocalLLaMA · 10 小时前

用户将 Gemma 4 31B 扩展为具有 88 层的 44B 模型

一位 Reddit 用户将拥有 60 层的 Google Gemma 4 31B 模型扩展为包含 88 层的更大 44B 参数版本。进行此修改是因为 Google 尚未发布用于 Lyzr Architect 的更大密集版本模型。

media Hugging Face Forums · 11 小时前

证据饱和 k*：检索深度应校准而非猜测

一项关于 LLM 调用中证据深度的试点基准测试认为，校准必须超越事实正确性，包括认识论污染和框架泄漏。该研究将 'k*' 定义为可靠性最大化的证据饱和点，将其与标准的检索器 top-k 或状态密度指标区分开来。

media Hugging Face Forums · 11 小时前

认识论压力测试 — Claude Sonnet 5 经 MarCognity-AI 验证

本文描述了使用 MarCognity-AI 的怀疑者代理（Skeptical Agent）对 Claude Sonnet 5 进行验证，以揭示文本置信度与实际可验证性之间的差距，称为“认识论断裂”。

media Hugging Face Forums · 11 小时前

Aiywin 框架提出螺旋递归用于 AI 推理

独立开发者 Aiywin.ai 推出了一种认知框架，用螺旋递归循环取代标准线性处理，以处理异常和不完整数据。该系统通过数学方式扩展上下文参数，直到找到结构化解决方案，而不是停止或产生幻觉。