Un usuario integra MTP en Ornith 35B FP8 E4M3 para vLLM

Un usuario ha creado una versión modificada del modelo de codificación agéntica local Ornith 35B FP8 E4M3 integrando soporte para el drafter Multi-Token Prediction (MTP), solucionando la falta de compatibilidad con vLLM fuera de la caja.

El proceso de integración añade capacidades MTP a la arquitectura del modelo existente.
Los benchmarks muestran un aumento de velocidad del 18% en comparación con ejecutar el modelo sin MTP.
La tasa de aceptación promedio del drafter alcanzada es del 70%.
El modelo modificado soporta una ventana de contexto completa de 256k en configuraciones RTX con más de 80GB de VRAM.

Esta modificación proporciona una opción de inferencia optimizada para el rendimiento para usuarios que ejecutan Ornith 35B en hardware local de alta gama.