La geometría de las actualizaciones: Alineación de Fisher a escala de vocabulario

Este artículo aborda el desafío de la selección de fuentes sin entrenamiento para modelos de lenguaje grandes con vocabularios compartidos en dominios científicos como SMILES y genómica, donde las métricas clásicas son poco informativas o computacionalmente prohibitivas. Los autores demuestran que las métricas de similitud de representación no son identificables para la transferencia porque los modelos pueden compartir representaciones idénticas pero tener actualizaciones de cabeza ortogonales.

Se muestra que el alineamiento de Fisher de la cabeza es exactamente un coseno entre incrustaciones medias del núcleo en el espacio conjunto de activación-error, exponiendo factores de activación, error y acoplamiento sin requerir una matriz de Fisher materializada.
FisherSketch estima este coseno directamente en un solo pase de transmisión, haciendo que el alineamiento de Fisher de la cabeza con K=128,256 sea práctico con una firma de tarea de 16 KB y un estado de transmisión por tarea de 192 KB.
Los experimentos de desplazamiento del verbalizador en Llama-3.1-8B confirman que FisherSketch sigue siendo informativo para la selección de fuentes incluso cuando la similitud de activación no puede distinguir tareas.

El método propuesto proporciona un instrumento de diagnóstico para estudiar si la similitud de tareas de los LLM está impulsada por las activaciones, los errores o su acoplamiento, permitiendo una selección de modelos eficiente y precisa sin sobrecarga de entrenamiento.