Este artículo informa sobre una actualización del modelo Ornith-1.0-35B, que presenta una cabeza de borrador MTP nativa injertada en el cuerpo IQ4_XS para la descodificación especulativa auto-iniciada en llama.cpp. El autor proporciona métricas de rendimiento integrales que incluyen throughput, tiempo hasta el primer token (TTFT) y capacidades de contexto largo en una única GPU RTX PRO 6000 Blackwell.

  • La velocidad de decodificación de un solo flujo aumentó entre 1.3 y 1.35x, pasando de 172.6 a 233.8 tokens por segundo.
  • La distribución del siguiente token es idéntica en bytes al modelo solo con objetivo para KLD 0.0, con un KLD BF16 de 0.073.
  • El injerto IQ4_XS-MTP ocupa aproximadamente 19.6 GB, situándose entre Q5_K_M y Q4_K_M en métricas de fidelidad.
  • El throughput escala desde ~243 tok/s con concurrencia 1 hasta ~656 tok/s con concurrencia 16 para la cuantización Q4_K_M.
  • El tiempo de prellenado de contexto largo escala desde 94 ms en 512 tokens hasta aproximadamente 6.3 segundos en 32k tokens.

La actualización permite a los usuarios realizar benchmarks y utilizar una variante de descodificación especulativa que ofrece mejoras significativas de velocidad mientras mantiene alta fidelidad en comparación con cuantizaciones más grandes e intensivas en memoria.