Реальный анализ нагрузки показывает, что headroom, rtk и caveman снижают затраты на токены на 2,8%, 0,5% и 0.4% соответственно, что в сумме составляет 3,7% от базовых расходов. Однако сокращения ограничены разнообразием нагрузки, поскольку большая часть трафика состоит из простого текста или исходного кода, а инструменты сжимают только структурированные выводы. Большинство сокращений происходит в наиболее дешёвом потоке токенов — при чтении кэша, при этом инструменты не влияют на кэширование промптов или затраты на выводы, и существуют пробелы в охвате, особенно в отношении rtk.
Снижение затрат на токены в реальных условиях за счёт headroom, rtk и caveman
Переведено с English → Русский