arxiv arXiv cs.CL · hace 1 h · fuente: hace 11 d · research

TokenPilot: Gestión de contexto eficiente en caché para agentes LLM

Traducido del English → Español

TokenPilot reduce los costos de inferencia entre un 61% y un 87% tanto en modos aislados como continuos, superando a sistemas anteriores en eficiencia de costos mientras mantiene un rendimiento competitivo. Utiliza compacción consciente de la ingestión y evicción consciente del ciclo de vida para preservar la continuidad de la caché de prompts y minimizar las huellas de tokens.

Importancia 3/3 Nueva función frente a los líderes Nuevo entorno de evaluación con diferenciadores arXiv cs.CL 01.AI AI agents Evaluation & benchmarks Inference efficiency

Leer original