Новое внимание, расстояние-адаптивное представление (DAR), присваивает более богатые представления близким токенам и уменьшает размерность для удалённых. Этот подход обеспечивает полную размерность на всех масштабах моделей и при мелкой настройке, превосходя однородное уменьшение размерности.
Расстояние-адаптивное представление для внимания
Переведено с English → Русский