El muestreador Top-N-Sigma actualmente realiza una operación de softmax y ordenamiento incondicional al final, lo cual es inútil cuando va seguido de Dist. Este PR elimina ese paso, mejorando el rendimiento en un 50% en un MacBook Pro M3 Max para el modelo google_gemma-4-E4B-it-Q8_0, reduciendo el tiempo por token en 10ms. El cambio puede afectar las cadenas del muestreado y aún no se ha verificado para todos los backends y modelos.
Top-N-Sigma: Eliminar softmax+sort incondicional
Traducido del English → Español