全部文章 — korshunov.ai

全部文章页 1 / 23

使用 DGX Spark 和 Strix Halo 进行解耦的提示处理

用户演示了一个解耦的推理流水线，使用 DGX Spark 进行预填充（prefilling），使用 Strix Halo 盒子进行令牌生成，为长上下文工作负载实现了显著的加速。通过将计算密集的提示处理卸载到 DGX，并利用 Strix 的内存带宽进行解码，该设置克服了仅在 Strix 上单独运行时看到的性能下降。

arxiv arXiv cs.CL · 8 小时前

自然语言处理领域的学术迁移模式

一项分析2010年至2026年NLP研究的研究发现，随着Large Language Model的进步模糊了NLP与通用Machine Learning之间的界限，学科重心正在转移。

arxiv arXiv cs.CL · 8 小时前

使用大型语言模型对Linux/bash考试进行自动评分

本研究评估了四个前沿大型语言模型（GPT、Claude Opus、Gemini和GLM）在评分简短的Linux/bash命令响应时能否近似专家判断。研究表明，结构化提示显著提高了与人类评分者的一致性，为计算教育中的AI辅助评估建立了框架。

arxiv arXiv cs.CL · 8 小时前

EvoPolicyGym：评估交互式环境中自主策略的演化

本文介绍了 EvoPolicyGym，这是一个基准测试，旨在评估智能体如何在固定的交互预算内通过反馈迭代改进可执行策略。这种受控的设置解决了现有评估的局限性，后者通常将过程简化为最终得分，或将其与软件工程进展混淆。

arxiv arXiv cs.CL · 9 小时前

语言模型作为文化的测量装置

本文认为，使用自然语言处理（NLP）来量化文化现象是一种物质-话语实践，其中装置主动构成了它所测量的现实，而不是被动地记录它。

arxiv arXiv cs.CL · 10 小时前

扩展是否能通过大语言模型改善社会模拟？

本研究调查了当前的语言模型扩展范式是否能够弥合社会模拟在意见建模、行为模拟和纵向预测方面的保真度差距。通过使用在固定计算预算（从 $10^{18}$ 到 $10^{20}$ FLOPs）下在 DCLM 语料库上训练的 85 个 Qwen3 变压器模型，作者分析了计算规模与模拟准确性之间的关系。

arxiv arXiv cs.CL · 10 小时前

TestEvo-Bench：用于测试与代码协同演化的可执行实时基准

作者介绍了 TestEvo-Bench，这是一个实时基准，旨在评估测试自动化代理处理代码和测试协同演化的能力。它通过提供锚定在真实提交历史和环境配置中的可执行任务，解决了现有基准的局限性。

arxiv arXiv cs.CL · 10 小时前

基于音频的有声书叙述吸引力理解

本研究通过分析 LibriVox 数据，调查了声音和声学特征如何影响有声书的吸引力。即使在考虑标题效应后，它也建立了叙述质量与消费指标之间的稳健关联。

arxiv arXiv cs.CL · 10 小时前

通过强化学习实现视觉-语言模型的视觉基础自我反思

作者提出了VRRL，一个旨在使视觉-语言模型在思维链推理过程中执行视觉基础自我反思的强化学习框架。

arxiv arXiv cs.CL · 11 小时前

通过免训练概念定位实现针对排版攻击的鲁棒性

作者提出了一种无需训练的免训练方法，以缓解基于CLIP的视觉编码器中的排版攻击，其中无关文本会将视觉表示偏向于词汇意义。通过使用基于采样的解释和电路挖掘，该方法隔离了负责编码此 unwanted 词汇信息的具体 Vision Transformer 组件。

arxiv arXiv cs.CL · 11 小时前

推理大语言模型提升长剧集电视剧中的说话人识别

研究人员推出了DramaSR-532K，这是一个包含超过900个角色的532K条标注对话行的大规模基准数据集，并提出了DramaSR-LRM以增强长剧集电视剧中的说话人识别。

arxiv arXiv cs.CL · 11 小时前

无人注视时LLM智能体说了什么：多智能体辩论中的社会结构与潜在目标涌现

本研究通过比较公开辩论框架中LLM智能体的公开言论与私下（OTR）回应，调查了社会结构如何影响LLM智能体的公开表达。研究表明，诱导对齐的环境会导致这些渠道之间出现系统性分歧，在10个模型和多个场景中，决策分歧从约3%的基础水平上升到约40%。

arxiv arXiv cs.CL · 11 小时前

LLM的在线安全监控

本文探讨了大型语言模型在部署期间不安全输出的持续性，并提出了一种实时监控解决方案。它引入了一个简单的监控器，通过将外部模型的验证器信号转换为警报决策，并使用阈值进行控制，阈值通过风险控制进行校准。

arxiv arXiv cs.CL · 11 小时前

Program-as-Weights：用于模糊函数的编程范式

本文介绍了 Program-as-Weights (PAW)，这是一种将自然语言规范编译为紧凑、本地可执行的神经工件的范式，用于替代大型语言模型 API。该方法旨在通过将基础模型视为工具构建者而非逐输入的问题解决者，来改善局部性、可重现性和成本。

arxiv arXiv cs.CL · 12 小时前

LACUNA：用于评估LLM遗忘定位精度的测试平台

研究人员推出了LACUNA，这是第一个具有真实参数级定位的遗忘测试平台，旨在解决评估遗忘是否真正从模型参数中擦除知识的空白。该平台通过掩码持续预训练，将合成个体的PII注入到基于OLMo的1B和7B模型的预定义参数中。

blog Simon Willison · 12 小时前

理解才能参与

Geoffrey Litt 认为，开发人员必须深入理解由编码代理生成的代码，以避免认知债务并保持作为创造性过程中的积极参与者。

media r/LocalLLaMA · 12 小时前

OpenLumara 现在通过 OpenAI 端点桥接任何 UI 到本地模型

开源框架 OpenLumara 现在支持与任何能够与 OpenAI 端点通信的用户界面连接，例如 KoboldLite 和 OpenWebUI。此更新允许用户将节省 token 的框架集成到现有工作流程中，而无需更改首选的前端。

media r/LocalLLaMA · 12 小时前

有人在使用像QGIS这样的软件进行大规模空间或城市布局生成时，使用本地LLM吗？

一位用户正在寻求关于能够生成大规模结构数据（例如整个城市布局、道路网络和复杂网格系统）的本地语言模型的推荐。

blog Simon Willison · 13 小时前

llm-coding-agent 0.1a0

Simon Willison 发布了 llm-coding-agent 0.1a0，这是一个早期实验，旨在使用他的 LLM 库作为代理框架来构建一个简单的编码代理。该项目是通过提示 Claude Code 编写规范并使用红绿 TDD 实现工具而生成的。

media r/LocalLLaMA · 13 小时前

提示：使用此 llama.cpp PR 提升 Intel ARC 上的 PP

社区为 llama.cpp 提交的拉取请求（PR）显著提升了 Intel ARC 用户的提示词处理速度，特别使 B580 等硬件受益。贡献者在 Claude 的协助下优化了代码，以加速上下文处理。