Лаборатория · 01.AI
arxiv arXiv cs.CL · 9 д назад

TokenPilot: Эффективное управление контекстом для агентов LLM

TokenPilot снижает расходы на инференс на 61% до 87% как в изолированном, так и в непрерывном режимах, превосходя предыдущие системы по эффективности расходов, при этом сохраняя конкурентные показатели производительности. Оно использует сжатие, учитывающее ввод, и эвакуацию, учитывающую жизненный цикл, для сохранения непрерывности кэша запросов и минимизации размера токенов.

media r/LocalLLaMA · 6 д назад

DiffusionGemma 26B на 4090 достигает 475t/s с ограничениями

DiffusionGemma 26B работает до 475t/s на 4090 через vLLM с квантованием INT4 AWQ, достигая скоростей от 290t/s до 700t/s в зависимости от длины вывода. Однако, он страдает от односессионной работы, снижения точности ответов, быстрого потери контекста и более медленного времени до первого токена по сравнению с стандартными моделями 26B.