arxiv arXiv cs.AI · hace 1 h · fuente: hace 13 d · research

TokenPilot: Gestión de contexto eficiente en caché para agentes LLM

Traducido del English → Español

TokenPilot reduce los costos de inferencia entre un 61% y un 87% tanto en modos aislados como continuos, superando a sistemas anteriores en eficiencia de costos mientras mantiene un rendimiento competitivo. Utiliza compactación consciente de la ingestión y evicción consciente del ciclo de vida para preservar la continuidad de la caché de prompts y minimizar la huella de tokens sin introducir desajustes de prefijo.

Importancia 2/3 Nueva función frente a los líderes Nuevo entorno de evaluación con diferenciadores arXiv cs.AI Mistral AI OpenAI xAI AI agents Evaluation & benchmarks Inference efficiency

Leer original