全部文章
media r/LocalLLaMA · 3 小时前

后续:DeepSeek V4 Flash在2x RTX PRO 6000上完成真实编码任务的速度快于Sonnet和Opus,质量约为Sonnet水平

一项后续基准测试评估了使用vLLM在两块RTX PRO 6000 GPU上运行的DeepSeek V4 Flash,将其在现实世界编码任务中的性能与Claude Sonnet和Opus等基于API的模型进行比较。研究发现,虽然Opus和Fable保持了更优的代码质量,但DeepSeek V4 Flash以显著更快的墙钟时间达到了约Sonnet级别的质量。

arxiv arXiv cs.CL · 10 小时前

SkillFuzz:针对开放技能市场中隐式意图发现的技能组合模糊测试

本文介绍了 SkillFuzz,一种无需执行即可进行测试的方法,旨在发现开放技能市场中可能通过交互将智能体重定向至非预期目标的良性技能组合所产生的隐式意图。通过将此发现问题建模为技能组合上的模糊测试问题,该方法提取结构化契约,并利用基于契约的蒙特卡洛树搜索来优先处理潜在冲突的组合。