Un investigador independiente analizó la evolución de las representaciones ocultas durante la inferencia en siete modelos de peso abierto, incluyendo GPT-2, OPT-125M y Llama-3.2-1B, para identificar regímenes dinámicos internos más allá de los benchmarks de salida estándar.

  • Las trayectorias del estado oculto exhiben estados proxy funcionales reproducibles, como procesamiento similar a la sintaxis y comportamiento similar a la toma de decisiones, que permiten agrupar por dinámica interna en lugar de por el número de parámetros.
  • Los sonda lineales decodifican categorías funcionales a partir de representaciones ocultas con alta precisión, aunque este rendimiento colapsa bajo permutación de etiquetas, entradas gaussianas aleatorias o permutación de características.
  • Las rotaciones ortogonales del espacio oculto preservan el rendimiento de decodificación, lo que indica que la información se codifica en la geometría relativa de las representaciones en lugar de en neuronas o dimensiones individuales.
  • Las firmas funcionales aparecen en capas absolutas variables a través de las arquitecturas, lo que sugiere que el cálculo se organiza como regímenes funcionales evolutivos en lugar de capas sintácticas o semánticas fijas.

El autor busca comentarios críticos de expertos en interpretabilidad mecánica y aprendizaje de representaciones para validar estas observaciones empíricas y determinar los experimentos de control necesarios.