В данном исследовании применяются разреженные автоэнкодеры к модели MolFormer для механистического изучения того, как строятся молекулярные представления на разных слоях, опровергая предположение о том, что химические языковые модели изучают лишь поверхностный синтаксис.

  • Ранние слои используют латенты отслеживания позиций для разбора молекулярной грамматики.
  • Поздние слои кодируют признаки атомов в субструктурах и фармакологически значимые характеристики.
  • Неканонические SMILES вызывают более сильные сдвиги представлений, чем невалидные SMILES, из-за нарушения работы латентов позиций.

Авторы разработали InterMol — интерактивный визуализатор активаций SAE для молекулярных строк и структур.

Результаты показывают, что химические языковые модели кодируют осмысленные семантические признаки за пределами синтаксиса, а новый инструмент поддерживает дальнейшее исследование этих внутренних представлений.