全部文章 — korshunov.ai

全部文章页 1 / 22

使用 DGX Spark 和 Strix Halo 进行解耦的提示处理

用户演示了一个解耦的推理流水线，使用 DGX Spark 进行预填充（prefilling），使用 Strix Halo 盒子进行令牌生成，为长上下文工作负载实现了显著的加速。通过将计算密集的提示处理卸载到 DGX，并利用 Strix 的内存带宽进行解码，该设置克服了仅在 Strix 上单独运行时看到的性能下降。

arxiv arXiv cs.CL · 7 小时前

扩展是否能通过大语言模型改善社会模拟？

本研究调查了当前的语言模型扩展范式是否能够弥合社会模拟在意见建模、行为模拟和纵向预测方面的保真度差距。通过使用在固定计算预算（从 $10^{18}$ 到 $10^{20}$ FLOPs）下在 DCLM 语料库上训练的 85 个 Qwen3 变压器模型，作者分析了计算规模与模拟准确性之间的关系。

arxiv arXiv cs.CL · 7 小时前

TestEvo-Bench：用于测试与代码协同演化的可执行实时基准

作者介绍了 TestEvo-Bench，这是一个实时基准，旨在评估测试自动化代理处理代码和测试协同演化的能力。它通过提供锚定在真实提交历史和环境配置中的可执行任务，解决了现有基准的局限性。

arxiv arXiv cs.CL · 8 小时前

基于音频的有声书叙述吸引力理解

本研究通过分析 LibriVox 数据，调查了声音和声学特征如何影响有声书的吸引力。即使在考虑标题效应后，它也建立了叙述质量与消费指标之间的稳健关联。

arxiv arXiv cs.CL · 8 小时前

通过强化学习实现视觉-语言模型的视觉基础自我反思

作者提出了VRRL，一个旨在使视觉-语言模型在思维链推理过程中执行视觉基础自我反思的强化学习框架。

arxiv arXiv cs.CL · 8 小时前

通过免训练概念定位实现针对排版攻击的鲁棒性

作者提出了一种无需训练的免训练方法，以缓解基于CLIP的视觉编码器中的排版攻击，其中无关文本会将视觉表示偏向于词汇意义。通过使用基于采样的解释和电路挖掘，该方法隔离了负责编码此 unwanted 词汇信息的具体 Vision Transformer 组件。

arxiv arXiv cs.CL · 8 小时前

推理大语言模型提升长剧集电视剧中的说话人识别

研究人员推出了DramaSR-532K，这是一个包含超过900个角色的532K条标注对话行的大规模基准数据集，并提出了DramaSR-LRM以增强长剧集电视剧中的说话人识别。

arxiv arXiv cs.CL · 8 小时前

无人注视时LLM智能体说了什么：多智能体辩论中的社会结构与潜在目标涌现

本研究通过比较公开辩论框架中LLM智能体的公开言论与私下（OTR）回应，调查了社会结构如何影响LLM智能体的公开表达。研究表明，诱导对齐的环境会导致这些渠道之间出现系统性分歧，在10个模型和多个场景中，决策分歧从约3%的基础水平上升到约40%。

arxiv arXiv cs.CL · 9 小时前

LLM的在线安全监控

本文探讨了大型语言模型在部署期间不安全输出的持续性，并提出了一种实时监控解决方案。它引入了一个简单的监控器，通过将外部模型的验证器信号转换为警报决策，并使用阈值进行控制，阈值通过风险控制进行校准。

arxiv arXiv cs.CL · 9 小时前

Program-as-Weights：用于模糊函数的编程范式

本文介绍了 Program-as-Weights (PAW)，这是一种将自然语言规范编译为紧凑、本地可执行的神经工件的范式，用于替代大型语言模型 API。该方法旨在通过将基础模型视为工具构建者而非逐输入的问题解决者，来改善局部性、可重现性和成本。

arxiv arXiv cs.CL · 9 小时前

LACUNA：用于评估LLM遗忘定位精度的测试平台

研究人员推出了LACUNA，这是第一个具有真实参数级定位的遗忘测试平台，旨在解决评估遗忘是否真正从模型参数中擦除知识的空白。该平台通过掩码持续预训练，将合成个体的PII注入到基于OLMo的1B和7B模型的预定义参数中。

blog Simon Willison · 9 小时前

理解才能参与

Geoffrey Litt 认为，开发人员必须深入理解由编码代理生成的代码，以避免认知债务并保持作为创造性过程中的积极参与者。

media r/LocalLLaMA · 9 小时前

OpenLumara 现在通过 OpenAI 端点桥接任何 UI 到本地模型

开源框架 OpenLumara 现在支持与任何能够与 OpenAI 端点通信的用户界面连接，例如 KoboldLite 和 OpenWebUI。此更新允许用户将节省 token 的框架集成到现有工作流程中，而无需更改首选的前端。

media r/LocalLLaMA · 10 小时前

有人在使用像QGIS这样的软件进行大规模空间或城市布局生成时，使用本地LLM吗？

一位用户正在寻求关于能够生成大规模结构数据（例如整个城市布局、道路网络和复杂网格系统）的本地语言模型的推荐。

blog Simon Willison · 10 小时前

llm-coding-agent 0.1a0

Simon Willison 发布了 llm-coding-agent 0.1a0，这是一个早期实验，旨在使用他的 LLM 库作为代理框架来构建一个简单的编码代理。该项目是通过提示 Claude Code 编写规范并使用红绿 TDD 实现工具而生成的。

media r/LocalLLaMA · 10 小时前

提示：使用此 llama.cpp PR 提升 Intel ARC 上的 PP

社区为 llama.cpp 提交的拉取请求（PR）显著提升了 Intel ARC 用户的提示词处理速度，特别使 B580 等硬件受益。贡献者在 Claude 的协助下优化了代码，以加速上下文处理。

media r/LocalLLaMA · 10 小时前

研究人员构建完全在本地开源权重模型上运行的自复制AI蠕虫

一篇新的Arxiv论文详细介绍了完全使用本地开源权重模型运行的自复制AI蠕虫的创建。这一进展突显了自主AI代理在不依赖外部资源的情况下运行的潜力。

media r/LocalLLaMA · 10 小时前

迈向更优的AMD GPU HIP内核生成：合成数据、多智能体搜索与强化学习

本文来自斯坦福大学Scaling Intelligence博客，探讨了使用合成数据、多智能体搜索和强化学习改进AMD GPU HIP内核生成的方法。

lab ByteDance Seed (HF) · 11 小时前

ByteDance-Seed/PAR：蛋白质自回归建模检查点

该仓库提供了通过多尺度结构生成进行蛋白质自回归建模的模型检查点，该工作已被 ICML 2026 接收为口头报告。

lab Claude Code Releases · 11 小时前

Claude Code v2.1.199 发布说明

Claude Code v2.1.199 更新解决了大量稳定性和可用性问题，包括修复 SSL 证书错误、流式响应处理和后台代理管理。