Текущий образец Top-N-Sigma выполняет неусловный softmax и операцию сортировки в конце, что является потерей при последующем применении Dist. В этом PR удаляется этот шаг, что повышает пропускную способность на 50% на MacBook Pro M3 Max для модели google_gemma-4-E4B-it-Q8_0, сокращая время токена на 10 мс. Изменение может повлиять на цепочки выборщиков и пока не проверено для всех бэкендов и моделей.
Top-N-Sigma: Удалить неусловный softmax+sort
Переведено с English → Русский