Пользователь сообщает, что использование режима разделения тензоров в llama cpp вызывает зацикливание при вызове инструментов и построении цепочек рассуждений при запуске моделей Qwen 27B и Gemma 4 26B (MoE) на RTX 5080 и двух RTX 5060 Ti.
- Проблема наблюдалась именно при использовании режима разделения тензоров.
- Протестированные модели включают Qwen 27B и Gemma 4 26B (MoE).
- Конфигурация оборудования включала одну RTX 5080 и две карты RTX 5060 Ti.
- Режим разделения слоёв функционировал корректно без подобных ошибок.
Автор хочет выяснить, является ли это известной проблемой или понять причину зацикливания.