arxiv arXiv cs.LG · hace 2 h · fuente: hace 11 d · research

EfficientRollout: Descodificación autoespeculativa consciente del sistema para rollouts de RL

Traducido del English → Español

EfficientRollout introduce un marco de descodificación autoespeculativa que reduce el rollout y la latencia end-to-end hasta en un 19,6% y un 12,7% respectivamente, sin comprometer la calidad final del modelo. Utiliza un drafter cuantizado derivado del modelo objetivo e integra una política de conmutación consciente del sistema para evitar regímenes limitados por el cómputo, permitiendo una especulación efectiva durante las generaciones de políticas en evolución.

Importancia 3/3 Nueva función frente a los líderes Nuevo entorno de evaluación con diferenciadores arXiv cs.LG Microsoft Research Meta AI OpenAI AI agents Inference efficiency Reasoning models

Leer original