MELT и SALT: Мультимодальные модели контрастного обучения для земных вложений

MELT и SALT — это мультимодальные модели контрастного обучения, использующие непарные геосpatial данные для улучшения вложений местоположения. Оба достигают результатов, равных двум лучшим базовым моделям с двумя модальностями, на четырех задачах, но добавление дополнительных модальностей не приводит к стабильному улучшению результатов, что указывает на то, что основным ограничением производительности является конструкция кодера местоположения. MELT обеспечивает более стабильную обучение и лучше подходит для будущего масштабирования моделей.