Пользователь сообщает, что Gemma 4 26B, квантованная до Q3, работает со скоростью 25 токенов в секунду на MacBook Air и выполняет почти так же хорошо, как bf16 для задач, не связанных с кодированием и вызовом инструментов. Они спрашивают, отражает ли эта производительность искажение суждения или действительно ли малые квантованные модели могут быть полезны.
Gemma 4 26BA4B странно полезен при IQ3_S
Переведено с English → Русский