Carles Marin发布了一份开源的双语(英语和西班牙语)指南,将Transformer架构的数学基础与其实际实现联系起来。该资源侧重于底层机制,提供可复现的代码和交互式元素来解释复杂主题。

  • 注意力动态:涵盖注意力的从零实现及其崩溃分析。
  • 上下文与记忆:探讨KV缓存压缩技术以及与长上下文窗口相关的挑战。
  • 高级概念:包括对grokking、优化策略和结构分析的解释。
  • 交互工具:提供TAF Agent框架,用于基于浏览器的LLM测试以及理论解释。

该指南旨在作为理解Transformer内部机制的全面教育资源,作者邀请社区就注意力状态可视化和优化技术提供反馈。