一份详细阐述Transformer内部工作原理的开源双语(英语/西班牙语)指南已发布。该资源涵盖了注意力崩溃和KV缓存压缩等概念背后的精确数学原理和机制。

  • 包含可复现的代码,支持从头开始的逐步可视化学习。
  • 与作者的TAF Agent项目连接,用于实际测试。
  • 可在 karlesmarin.github.io/transformers-guide 访问,并提供语言切换功能。