Пользователь сообщает, что использование режима разделения тензоров в llama cpp вызывает зацикливание при вызове инструментов и построении цепочек рассуждений при запуске моделей Qwen 27B и Gemma 4 26B (MoE) на RTX 5080 и двух RTX 5060 Ti.

  • Проблема наблюдалась именно при использовании режима разделения тензоров.
  • Протестированные модели включают Qwen 27B и Gemma 4 26B (MoE).
  • Конфигурация оборудования включала одну RTX 5080 и две карты RTX 5060 Ti.
  • Режим разделения слоёв функционировал корректно без подобных ошибок.

Автор хочет выяснить, является ли это известной проблемой или понять причину зацикливания.