В данном исследовании применяются разреженные автоэнкодеры к MolFormer для механистического изучения того, как строятся представления молекул на разных слоях, что ставит под сомнение предположение о том, что химические языковые модели изучают только поверхностный синтаксис.

  • Ранние слои используют латенты отслеживания позиций для разбора молекулярной грамматики.
  • Поздние слои кодируют признаки атомов в субструктурах и фармакологически значимые характеристики.
  • Неканонические SMILES вызывают более сильные сдвиги представлений, чем невалидные SMILES, из-за нарушения работы позиционных латентов.
  • Авторы разработали InterMol, интерактивный визуализатор активаций SAE для молекулярных строк и структур.

Результаты проясняют внутренние механизмы химических языковых моделей и предоставляют инструменты для дальнейшего исследования их представлений.