Este proyecto de investigación independiente caracteriza la dinámica interna de siete modelos de lenguaje pequeños y medianos analizando cómo evolucionan las representaciones ocultas durante la inferencia, en lugar de depender de los estándares de evaluación de salida. El estudio investiga el comportamiento dinámico, la organización funcional y la geometría de las representaciones para identificar patrones reproducibles a través de diferentes arquitecturas.

  • El análisis cubre GPT-2, DistilGPT2, OPT-125M, Qwen2.5-0.5B-Instruct, TinyLlama-1.1B-Chat, Phi-1.5 y Llama-3.2-1B.
  • Los modelos se separan consistentemente en dos grupos: GPT-2 y DistilGPT2 forman un grupo, mientras que los cinco modelos restantes forman otro a pesar de las diferencias arquitectónicas.
  • La información funcional es linealmente decodificable a partir de representaciones ocultas, con capacidad funcional variable entre capas que no se alinea en profundidades absolutas idénticas.
  • Las rotaciones ortogonales preservan la decodibilidad casi por completo, lo que sugiere que las señales funcionales dependen de la geometría del espacio de representación más que de dimensiones de incrustación específicas.

La investigación tiene como objetivo pasar de la observación a la prueba causal para determinar si perturbar regiones funcionales específicas altera el comportamiento posterior y cómo estos principios de organización escalan con el tamaño del modelo.