Я написал бесплатную серию из 15 частей, в которой подробно описывается внутренняя структура LLM, используя Gemma 4 12B в качестве основного примера. Каждая часть охватывает технические аспекты от токенизации до предоставления сервиса, с реальными математическими вычислениями, формами тензоров и ограничениями аппаратного обеспечения. Серия включает в себя дополнительный разбор vLLM и полностью доступна без платных стен или требований на электронную почту.