IceFog72 为 llama.cpp 实现了一种实验性的 "scatter" 采样器,它在顶级候选者中局部平滑下一个 token 的概率分布。这种方法旨在减少生成的僵化性,同时不引入来自分布深层尾部的噪声。
- 该采样器使用基于 token 排名的局部扩散步骤,允许相邻排名交换概率质量,同时保留过滤后的候选集。
- 它位于默认采样器链中 "xtc" 和 "temperature" 之间,但默认处于禁用状态。
- 功能包括基于熵反馈的固定或自适应散射强度、可选的重复 token 吸收以及碰撞门控。
- 该实现包括 llama.cpp 框架内的原生 API 函数和不变性测试。
该工具提供了比提高温度更局部的替代方案,在避免由弱尾部 token 引起的不连贯跳跃的同时,提供更精细的文生多样性控制。