Carles Marin a publié un guide open-source, bilingue (anglais et espagnol), qui relie les fondements mathématiques des architectures Transformer à leur implémentation pratique. La ressource se concentre sur la mécanique de bas niveau, en fournissant du code reproductible et des éléments interactifs pour expliquer des sujets complexes.

  • Dynamique de l'attention : Couvre les implémentations from scratch et l'analyse de l'effondrement de l'attention.
  • Contexte et mémoire : Explore les techniques de compression du KV-cache et les défis liés aux fenêtres de contexte longues.
  • Concepts avancés : Inclut des explications sur le grokking, les stratégies d'optimisation et l'analyse structurelle.
  • Outils interactifs : Présente le framework TAF Agent pour les tests de LLM dans le navigateur, accompagné d'explications théoriques.

Le guide vise à servir de ressource éducative complète pour comprendre les mécanismes internes des Transformers, l'auteur invitant la communauté à fournir des retours sur la visualisation des états d'attention et les techniques d'optimisation.