Este estudio aplica autoencoders dispersos a MolFormer para examinar mecánicamente cómo se construyen las representaciones moleculares a través de las capas, desafiando la suposición de que los modelos de lenguaje químicos solo aprenden la sintaxis superficial.

  • Las primeras capas dependen de latentes de seguimiento de posición para analizar la gramática molecular.
  • Las capas posteriores codifican características relevantes para el átomo-en-subestructura y farmacológicamente.
  • Los SMILES no canónicos producen cambios más disruptivos en la representación que los SMILES inválidos debido a la interrupción del latente de posición.
  • Los autores desarrollaron InterMol, un visualizador interactivo para activaciones SAE en cadenas moleculares y estructuras.

Los hallazgos aclaran los mecanismos internos de los modelos de lenguaje químicos y proporcionan herramientas para una exploración adicional de sus representaciones.