Un estudio empírico encontró que proyectar los pesos de MLP de un modelo transformer a otro no logra transferir la capacidad semántica. Cada variante probada obtuvo peores resultados que el modelo anfitrión sin modificar, lo que indica una limitación estructural en la proyección de pesos. Los resultados cuestionan las afirmaciones públicas sobre las capacidades de los modelos basadas en benchmarks, mostrando que dichas afirmaciones no reflejan la geometría interna real de los pesos.
La capacidad no está en los pesos: resultado empírico negativo sobre la proyección de pesos de MLP
Traducido del English → Español