用户详细描述了一个用于 AI 智能体的完全本地化网页研究管道,避免了所有云端 API 调用。架构层包括:自托管的 SearXNG 用于搜索、Hister 缓存/索引层、rnet(现为 wreq)用于 TLS 指纹 HTTP 获取,以及 Camoufox 作为无头浏览器回退方案。

  • SearXNG 在本地处理初始搜索查询。
  • Hister 存储每个获取的页面,确保重复查找是即时的,并在页面更改或消失时保留内容。
  • rnet(现为 wreq)使用 TLS 指纹绕过基本反机器人措施。
  • Camoufox 渲染需要完整浏览器交互的重 JS 页面。
  • 本地 qwen3-reranker-4b 对相关性进行评分,所有组件通过 MCP server 通信。

缓存层被强调为保持访问原始内容的最有价值组件。整个栈在单个机器上与推理模型一起运行,没有外部依赖。