¿Qué sabe un modelo de lenguaje químico sobre las moléculas?

Este estudio aplica autoencoders dispersos a MolFormer para examinar mecánicamente cómo se construyen las representaciones moleculares a través de las capas, desafiando la suposición de que los modelos de lenguaje químicos solo aprenden la sintaxis superficial.

Las primeras capas dependen de latentes de seguimiento de posición para analizar la gramática molecular.
Las capas posteriores codifican características relevantes para el átomo-en-subestructura y farmacológicamente.
Los SMILES no canónicos producen cambios más disruptivos en la representación que los SMILES inválidos debido a la interrupción del latente de posición.
Los autores desarrollaron InterMol, un visualizador interactivo para activaciones SAE en cadenas moleculares y estructuras.

Los hallazgos aclaran los mecanismos internos de los modelos de lenguaje químicos y proporcionan herramientas para una exploración adicional de sus representaciones.