LMs como Bases de Conocimiento Específicas para Tareas: Un Análisis de Interpretabilidad

Este estudio investiga si los modelos de lenguaje funcionan como bases de conocimiento consistentes al analizar si los hechos adquiridos durante una tarea permanecen accesibles en otras. La investigación revela que los LMs codifican el conocimiento de manera específica para la tarea, con subconjuntos distintos de parámetros subyacentes a diferentes tareas para el mismo hecho.

Los hechos adquiridos en una tarea frecuentemente no co-emergen en otras durante el entrenamiento.
Los experimentos de localización de parámetros identifican subconjuntos distintos de parámetros subyacentes a diferentes tareas para el mismo hecho.
El razonamiento de cadena de pensamiento extrae efectividad al involucrar parámetros específicos para la tarea más allá de aquellos vinculados a la tarea de evaluación.

Estos hallazgos socavan la analogía de "base de conocimiento" al mostrar que lo que un modelo sabe y cómo se le pregunta están entrelazados en el espacio de parámetros, lo cual tiene implicaciones para la fiabilidad y controlabilidad del conocimiento factual en los LMs.