全部文章 — korshunov.ai

Simon Willison 利用 Claude Code 和 Fable 5 模型，自动化了 Datasette Agent 系统提示的评估和优化过程，特别针对其只读 SQL 查询执行功能。该过程涉及安装最新的 Datasette alpha 版本和 DSPy，以识别代理在处理模式信息方面的弱点。

media r/LocalLLaMA · 6 小时前

英伟达AI先驱拒绝AGI，将OpenAI和Anthropic与AOL相提并论

英伟达的一位知名人物表示，他不相信通用人工智能（AGI），并认为行业的重点应转向为企业定制的开源模型。

media r/LocalLLaMA · 6 小时前

使用 RTX 3090 进行本地基准测试 - Qwen3.6 27b 与 Ornith

一名用户在使用 inspect-ai 框架的 RTX 3090 上比较了 Qwen3.6 27b、Gemma4 26B A4B QAT 和 Ornith1.0 35B MoE，以评估本地模型的性能。测试结果显示，在通用知识、接地能力和代码基准方面结果不一，Qwen3.6 通常在得分上领先，而 Ornith 在 DROP 等特定领域表现出优势。

media r/LocalLLaMA · 7 小时前

用户将 Gemma 4 31B 扩展为具有 88 层的 44B 模型

一位 Reddit 用户将拥有 60 层的 Google Gemma 4 31B 模型扩展为包含 88 层的更大 44B 参数版本。进行此修改是因为 Google 尚未发布用于 Lyzr Architect 的更大密集版本模型。

media Hugging Face Forums · 7 小时前

证据饱和 k*：检索深度应校准而非猜测

一项关于 LLM 调用中证据深度的试点基准测试认为，校准必须超越事实正确性，包括认识论污染和框架泄漏。该研究将 'k*' 定义为可靠性最大化的证据饱和点，将其与标准的检索器 top-k 或状态密度指标区分开来。

media Hugging Face Forums · 8 小时前

认识论压力测试 — Claude Sonnet 5 经 MarCognity-AI 验证

本文描述了使用 MarCognity-AI 的怀疑者代理（Skeptical Agent）对 Claude Sonnet 5 进行验证，以揭示文本置信度与实际可验证性之间的差距，称为“认识论断裂”。

media Hugging Face Forums · 8 小时前

Aiywin 框架提出螺旋递归用于 AI 推理

独立开发者 Aiywin.ai 推出了一种认知框架，用螺旋递归循环取代标准线性处理，以处理异常和不完整数据。该系统通过数学方式扩展上下文参数，直到找到结构化解决方案，而不是停止或产生幻觉。

media Hugging Face Forums · 8 小时前

Solo与MoA在多个任务上的基准测试

本文展示了将单个模型与混合智能体（MoA）配置在六个任务上进行比较的基准测试结果：Bug、Tool、Arch、Clinical、DLQ以及总体平均值。评估工具链使用Hermes Agent v0.18，分数由ChatGPT 5.5和Claude opus 4.8根据正确性、完整性、深度、可操作性、清晰度和信任度的权重标准生成。

media r/LocalLLaMA · 9 小时前

用户请求用于检测火灾或烟雾的视觉模型

一位Reddit用户正在寻求能够检测火灾或烟雾的视觉模型的推荐，特别是在7月4日烟花季期间监测阴燃残骸的背景下。

media r/LocalLLaMA · 10 小时前

对2.3k本地AI应用的分析揭示了82个类别和多样化的用例

对Mac App Store的分析从超过20,000条抓取条目中识别出2,259个本地AI应用，凸显了一个不断增长的小众工具生态系统，这些工具将模型与特定工作流程打包在一起。调查涵盖了82个不同的类别，从转录和OCR等常见任务到衣柜造型和宠物健康辅助等专业功能。