MoonMath AI опубликовал ядро прямого внимания в формате bf16 для графического процессора MI300X от AMD, написанное на языке HIP, а не на ассемблере. Оно превосходит ядро AITER v3 от AMD по всем проверенным форматам и режимам округления, обеспечивая ускорение до 1,26 раза, и сохраняет бит-точную числовую точность.