全部文章 — korshunov.ai

全部文章页 1 / 22

使用 DGX Spark 和 Strix Halo 进行解耦的提示处理

用户演示了一个解耦的推理流水线，使用 DGX Spark 进行预填充（prefilling），使用 Strix Halo 盒子进行令牌生成，为长上下文工作负载实现了显著的加速。通过将计算密集的提示处理卸载到 DGX，并利用 Strix 的内存带宽进行解码，该设置克服了仅在 Strix 上单独运行时看到的性能下降。

blog Simon Willison · 9 小时前

理解才能参与

Geoffrey Litt 认为，开发人员必须深入理解由编码代理生成的代码，以避免认知债务并保持作为创造性过程中的积极参与者。

media r/LocalLLaMA · 10 小时前

OpenLumara 现在通过 OpenAI 端点桥接任何 UI 到本地模型

开源框架 OpenLumara 现在支持与任何能够与 OpenAI 端点通信的用户界面连接，例如 KoboldLite 和 OpenWebUI。此更新允许用户将节省 token 的框架集成到现有工作流程中，而无需更改首选的前端。

media r/LocalLLaMA · 10 小时前

有人在使用像QGIS这样的软件进行大规模空间或城市布局生成时，使用本地LLM吗？

一位用户正在寻求关于能够生成大规模结构数据（例如整个城市布局、道路网络和复杂网格系统）的本地语言模型的推荐。

blog Simon Willison · 10 小时前

llm-coding-agent 0.1a0

Simon Willison 发布了 llm-coding-agent 0.1a0，这是一个早期实验，旨在使用他的 LLM 库作为代理框架来构建一个简单的编码代理。该项目是通过提示 Claude Code 编写规范并使用红绿 TDD 实现工具而生成的。

media r/LocalLLaMA · 10 小时前

提示：使用此 llama.cpp PR 提升 Intel ARC 上的 PP

社区为 llama.cpp 提交的拉取请求（PR）显著提升了 Intel ARC 用户的提示词处理速度，特别使 B580 等硬件受益。贡献者在 Claude 的协助下优化了代码，以加速上下文处理。

media r/LocalLLaMA · 11 小时前

研究人员构建完全在本地开源权重模型上运行的自复制AI蠕虫

一篇新的Arxiv论文详细介绍了完全使用本地开源权重模型运行的自复制AI蠕虫的创建。这一进展突显了自主AI代理在不依赖外部资源的情况下运行的潜力。

media r/LocalLLaMA · 11 小时前

迈向更优的AMD GPU HIP内核生成：合成数据、多智能体搜索与强化学习

本文来自斯坦福大学Scaling Intelligence博客，探讨了使用合成数据、多智能体搜索和强化学习改进AMD GPU HIP内核生成的方法。

media r/LocalLLaMA · 12 小时前

双R9700：Qwen3.6 27B的最佳公式？

一名用户正在研究使用 llama.cpp 在双 AMD Radeon R9700 设置上优化 Qwen3.6-27B 模型，比较 Vulkan 和 ROCm 后端之间的性能。

media r/LocalLLaMA · 12 小时前

Gemma 4 WebGPU 内核实现 255 tok/s

Xenova 发布了 Gemma 4 的 WebGPU 内核，实现了每秒 255 个 token 的性能。此优化使密集模型在 Web 浏览器中的运行速度超过 100 tok/s。

blog Simon Willison · 12 小时前

使用 DSPy 评估和改进 Datasette Agent 的 SQL 系统提示

Simon Willison 利用 Claude Code 和 Fable 5 模型，自动化了 Datasette Agent 系统提示的评估和优化过程，特别针对其只读 SQL 查询执行功能。该过程涉及安装最新的 Datasette alpha 版本和 DSPy，以识别代理在处理模式信息方面的弱点。

media r/LocalLLaMA · 12 小时前

英伟达AI先驱拒绝AGI，将OpenAI和Anthropic与AOL相提并论

英伟达的一位知名人物表示，他不相信通用人工智能（AGI），并认为行业的重点应转向为企业定制的开源模型。

media r/LocalLLaMA · 13 小时前

使用 RTX 3090 进行本地基准测试 - Qwen3.6 27b 与 Ornith

一名用户在使用 inspect-ai 框架的 RTX 3090 上比较了 Qwen3.6 27b、Gemma4 26B A4B QAT 和 Ornith1.0 35B MoE，以评估本地模型的性能。测试结果显示，在通用知识、接地能力和代码基准方面结果不一，Qwen3.6 通常在得分上领先，而 Ornith 在 DROP 等特定领域表现出优势。

media r/LocalLLaMA · 13 小时前

用户将 Gemma 4 31B 扩展为具有 88 层的 44B 模型

一位 Reddit 用户将拥有 60 层的 Google Gemma 4 31B 模型扩展为包含 88 层的更大 44B 参数版本。进行此修改是因为 Google 尚未发布用于 Lyzr Architect 的更大密集版本模型。

media Hugging Face Forums · 14 小时前

证据饱和 k*：检索深度应校准而非猜测

一项关于 LLM 调用中证据深度的试点基准测试认为，校准必须超越事实正确性，包括认识论污染和框架泄漏。该研究将 'k*' 定义为可靠性最大化的证据饱和点，将其与标准的检索器 top-k 或状态密度指标区分开来。

media Hugging Face Forums · 14 小时前

认识论压力测试 — Claude Sonnet 5 经 MarCognity-AI 验证

本文描述了使用 MarCognity-AI 的怀疑者代理（Skeptical Agent）对 Claude Sonnet 5 进行验证，以揭示文本置信度与实际可验证性之间的差距，称为“认识论断裂”。

media Hugging Face Forums · 14 小时前

Aiywin 框架提出螺旋递归用于 AI 推理

独立开发者 Aiywin.ai 推出了一种认知框架，用螺旋递归循环取代标准线性处理，以处理异常和不完整数据。该系统通过数学方式扩展上下文参数，直到找到结构化解决方案，而不是停止或产生幻觉。

media Hugging Face Forums · 14 小时前

Solo与MoA在多个任务上的基准测试

本文展示了将单个模型与混合智能体（MoA）配置在六个任务上进行比较的基准测试结果：Bug、Tool、Arch、Clinical、DLQ以及总体平均值。评估工具链使用Hermes Agent v0.18，分数由ChatGPT 5.5和Claude opus 4.8根据正确性、完整性、深度、可操作性、清晰度和信任度的权重标准生成。

media r/LocalLLaMA · 15 小时前

用户请求用于检测火灾或烟雾的视觉模型

一位Reddit用户正在寻求能够检测火灾或烟雾的视觉模型的推荐，特别是在7月4日烟花季期间监测阴燃残骸的背景下。

media r/LocalLLaMA · 16 小时前

对2.3k本地AI应用的分析揭示了82个类别和多样化的用例

对Mac App Store的分析从超过20,000条抓取条目中识别出2,259个本地AI应用，凸显了一个不断增长的小众工具生态系统，这些工具将模型与特定工作流程打包在一起。调查涵盖了82个不同的类别，从转录和OCR等常见任务到衣柜造型和宠物健康辅助等专业功能。