¿El modo de división de tensor de llama cpp causa problemas?

Un usuario informa que usar el modo de división de tensor en llama.cpp provoca problemas de bucle con las llamadas a herramientas y los trazos de razonamiento al ejecutar los modelos Qwen 27B y Gemma 4 26B (MoE) entre una RTX 5080 y dos RTX 5060 Ti.

El problema se observó específicamente con la configuración del modo de división de tensor.
Los modelos probados incluyen Qwen 27B y Gemma 4 26B (MoE).
La configuración de hardware involucró una tarjeta RTX 5080 y dos tarjetas RTX 5060 Ti.
El modo de división de capas funcionó correctamente sin estos errores.

El autor busca determinar si este es un problema conocido o comprender la causa subyacente del comportamiento en bucle.