Проверка на RTX 5060 Ti показала, что сокращение размера модели локального ИИ-ассистента по голосу с 9B до 0,8B приводит к резкому падению его способностей. Модель размером 9B хорошо справляется с координацией инструментов, в то время как более маленькие модели демонстрируют растущее количество сбоев: модель размером 4B пропускает вызов инструментов и делает предположения о фактах, модель размером 2B испытывает синтаксическую дрейф, а модель размером 0,8B не может выполнять функции агента, вызывая неправильные API или бесконечные циклы.