全部文章 — korshunov.ai

全部文章页 1 / 23

后续：DeepSeek V4 Flash在2x RTX PRO 6000上完成真实编码任务的速度快于Sonnet和Opus，质量约为Sonnet水平

一项后续基准测试评估了使用vLLM在两块RTX PRO 6000 GPU上运行的DeepSeek V4 Flash，将其在现实世界编码任务中的性能与Claude Sonnet和Opus等基于API的模型进行比较。研究发现，虽然Opus和Fable保持了更优的代码质量，但DeepSeek V4 Flash以显著更快的墙钟时间达到了约Sonnet级别的质量。

media r/LocalLLaMA · 3 小时前

映射局部节点 - Mildlyinteresting

作者分享了关于在特定上下文中基于激活路径来映射和引导本地模型的观察。文章强调了不同模型在回答一组批量提示时，其激活路径的方差差异。

github llama.cpp · 4 小时前

llama.cpp b9861 发布，更新 cpp-httplib

llama.cpp 项目发布了版本 b9861，其中包括对 cpp-httplib 0.49.0 的供应商更新。

media r/LocalLLaMA · 6 小时前

GLM-5.2 NVFP4 在四台 DGX Spark 上运行——MTP 之谜已解，128K 上下文下现达 ~24 tok/s

对 GLM-5.2 NVFP4 在四个 DGX Spark 节点上运行的后续调查解决了之前的性能瓶颈问题，即在 128K 上下文时无法实现高接受率。

media r/LocalLLaMA · 6 小时前

设置 ANTHROPIC_BASE_URL 时 Claude Code 会激活机制

研究人员在 Claude Code 中发现了一个机制，当用户设置通常用于本地模型的 ANTHROPIC_BASE_URL 环境变量时，该机制会被激活。此过程涉及对嵌入软件代码中的可疑主机名列表进行解码和解密。

media Hugging Face Forums · 7 小时前

统一自组织框架的跨域验证

复杂系统中自组织的统一数学框架获得了来自两个独立物理领域的实验支持：量子退相干和经典玻色-爱因斯坦凝聚相变。该研究报告称，非局域耦合充当“关键放大器”，在系统最敏感的相边界处产生最大效应。

media Hugging Face Forums · 7 小时前

通用人工智能的问题：智能不是鹦鹉学舌

文章认为，当前的AI系统存在根植于还原论的根本性“范畴错误”，阻碍了真正通用人工智能（AGI）的实现。文章主张，复杂的鹦鹉学舌无法弥合模拟响应与真正理解之间的差距。

media Hugging Face Forums · 7 小时前

Octopus Smart 构建 AI 驱动的世界杯分析系统

Octopus Smart 正在开发 Octopus Football，这是一个用于世界杯和专业赛事的分析平台，利用 AI 驱动的比赛智能编排。该系统将预测分析模型与数据智能代理相结合，以提供球队表现建模、球员评级和自动比赛回顾。

arxiv arXiv cs.CL · 8 小时前

多语言设置中LLM作为裁判的挑战与建议

本文考察了在多语言和少资源语言环境中使用大型语言模型作为评估者的可靠性，强调了当前实践中的显著差距。作者分析了650篇ACL Anthology论文，以识别不一致之处和对单一裁判模型的过度依赖。

arxiv arXiv cs.CL · 8 小时前

AgenticSTS：面向长周期 LLM 代理的有界内存测试平台

作者介绍了 AgenticSTS，这是一个旨在研究显式记忆层如何塑造长周期 LLM 代理决策的测试平台。它在游戏 Slay the Spire 2 中利用有界内存契约，其中提示通过类型化检索组装，而不是附加原始转录。

arxiv arXiv cs.CL · 8 小时前

BamiBERT：一种新的基于 BERT 的越南语语言模型

研究人员推出了 BamiBERT，这是一种新的基于 BERT 的越南语预训练语言模型，旨在解决当前标准 PhoBERT 的局限性。该模型在 129GB 语料库上从头开始训练了 20 个 epoch，支持长达 2048 个 token 的扩展上下文长度，并直接在原始输入上运行，无需外部分词。

arxiv arXiv cs.CL · 8 小时前

CheckRLM：检索增强推理中知识-思维一致性的有效检查

作者提出了 CheckRLM，这是一个框架，通过使用检索增强生成在推理期间及时检查和纠正事实错误，从而增强推理语言模型的可靠性。该方法从推理链中提取事实声明以识别不一致之处，并通过外部知识应用成本极低的修正。

arxiv arXiv cs.CL · 9 小时前

HERMES：用于预训练数据混合的多粒度标注基底

HERMES 是一种从数据导出的标注基底，它使用学习到的语义变换和3阶段残差向量量化，将文档标注为从粗到细的代码，最多包含约130k个单元。

arxiv arXiv cs.CL · 9 小时前

方向性在结构泛化中的作用

本文介绍了为 AM-Parser 重新设计的符号后端，该后端利用 CCG 有向类型来更好地处理修饰语位置偏移等结构泛化任务中的方向性差异。

media r/LocalLLaMA · 9 小时前

使用 DGX Spark 和 Strix Halo 进行解耦的提示处理

用户演示了一个解耦的推理流水线，使用 DGX Spark 进行预填充（prefilling），使用 Strix Halo 盒子进行令牌生成，为长上下文工作负载实现了显著的加速。通过将计算密集的提示处理卸载到 DGX，并利用 Strix 的内存带宽进行解码，该设置克服了仅在 Strix 上单独运行时看到的性能下降。

arxiv arXiv cs.CL · 10 小时前

使用图生成器的HNSW及其精度保证

该技术报告介绍了一种“认证后校正”（Certify-then-Rectify）框架，它将分层可导航小世界（HNSW）图的速度与理论正确性保证相结合。该方法动态评估搜索质量，并在需要时升级到精确恢复算法，确保最坏情况下的准确性。

arxiv arXiv cs.CL · 10 小时前

SkillFuzz：针对开放技能市场中隐式意图发现的技能组合模糊测试

本文介绍了 SkillFuzz，一种无需执行即可进行测试的方法，旨在发现开放技能市场中可能通过交互将智能体重定向至非预期目标的良性技能组合所产生的隐式意图。通过将此发现问题建模为技能组合上的模糊测试问题，该方法提取结构化契约，并利用基于契约的蒙特卡洛树搜索来优先处理潜在冲突的组合。

arxiv arXiv cs.CL · 10 小时前

世界模型：文化AI的文学工具

文章认为，文学学科为构建具有文化素养的AI提供了不可或缺的工具，解决了单语大型语言模型的局限性。

arxiv arXiv cs.CL · 10 小时前

HULAT2 在 MER-TRANS 2026 上的表现：面向西班牙语文本易读性生成的治理型多智能体简化方法

本文详细介绍了 HULAT2-UC3M 参与 MER-TRANS 2026 西班牙语赛道（一项关于多语言易读翻译的共享任务）的情况。团队提交了三个完全自动化的运行实验，将多智能体工作流与线性基线进行比较，以评估简化策略。

arxiv arXiv cs.CL · 11 小时前

了解你的来源：用于媒体背景核查的公共知识库

作者介绍了 MEDIAREF，这是一个公开可用的网络文档知识库，旨在实现可复现且低成本的媒体背景核查（MBC）评估。该工具解决了近期源关键推理方法对昂贵专有搜索 API 的依赖问题。