Este estudio aplica autoencoders dispersos a MolFormer para examinar mecánicamente cómo se construyen las representaciones moleculares a través de las capas, desafiando la suposición de que los modelos de lenguaje químicos solo aprenden la sintaxis superficial.
- Las primeras capas dependen de latentes de seguimiento de posición para analizar la gramática molecular.
- Las capas posteriores codifican características relevantes para el átomo-en-subestructura y farmacológicamente.
- Los SMILES no canónicos producen cambios más disruptivos en la representación que los SMILES inválidos debido a la interrupción del latente de posición.
- Los autores desarrollaron InterMol, un visualizador interactivo para activaciones SAE en cadenas moleculares y estructuras.
Los hallazgos aclaran los mecanismos internos de los modelos de lenguaje químicos y proporcionan herramientas para una exploración adicional de sus representaciones.