¿Qué sabe un modelo de lenguaje químico sobre las moléculas?

Este estudio aplica autoencoders dispersos a MolFormer para examinar mecánicamente cómo se construyen las representaciones moleculares a través de las capas, desafiando la suposición de que los modelos de lenguaje químicos solo aprenden sintaxis superficial.

Las primeras capas dependen de latentes de seguimiento de posición para analizar la gramática molecular.
Las capas posteriores codifican características relevantes para el átomo-en-subestructura y farmacológicamente.
Los SMILES no canónicos producen cambios más disruptivos en la representación que los SMILES inválidos debido a la interrupción del latente de posición.
Los autores desarrollaron InterMol, un visualizador interactivo para activaciones SAE en cadenas moleculares y estructuras.

Los hallazgos revelan que los modelos de lenguaje químicos codifican características semánticas significativas más allá de la sintaxis, con la nueva herramienta que apoya la exploración adicional de estas representaciones internas.