Un usuario informa que usar el modo de división de tensor en llama.cpp provoca problemas de bucle con las llamadas a herramientas y los trazos de razonamiento al ejecutar los modelos Qwen 27B y Gemma 4 26B (MoE) entre una RTX 5080 y dos RTX 5060 Ti.

  • El problema se observó específicamente con la configuración del modo de división de tensor.
  • Los modelos probados incluyen Qwen 27B y Gemma 4 26B (MoE).
  • La configuración de hardware involucró una tarjeta RTX 5080 y dos tarjetas RTX 5060 Ti.
  • El modo de división de capas funcionó correctamente sin estos errores.

El autor busca determinar si este es un problema conocido o comprender la causa subyacente del comportamiento en bucle.