Carles Marin发布了一份开源的双语(英语和西班牙语)指南,将Transformer架构的数学基础与其实际实现联系起来。该资源侧重于底层机制,提供可复现的代码和交互式元素来解释复杂主题。
- 注意力动态:涵盖注意力的从零实现及其崩溃分析。
- 上下文与记忆:探讨KV缓存压缩技术以及与长上下文窗口相关的挑战。
- 高级概念:包括对grokking、优化策略和结构分析的解释。
- 交互工具:提供TAF Agent框架,用于基于浏览器的LLM测试以及理论解释。
该指南旨在作为理解Transformer内部机制的全面教育资源,作者邀请社区就注意力状态可视化和优化技术提供反馈。