Construí um LLM híbrido triplo novelo com menos de 1B de parâmetros por ~$50

Mateusz desenvolveu um modelo de linguagem totalmente pré-treinado, Titan v1 do Project Inkblot, combinando Mamba SSM, Multi-Head Attention e MoE de 32 especialistas em uma única arquitetura decoder-only com menos de 1B de parâmetros. O modelo, treinado em uma única GPU NVIDIA L4 por ~$50, alcança perplexidade de validação de 27.5 e demonstra escalabilidade eficiente via atualização de configuração de uma linha, com todos os componentes implementados do zero em PyTorch. O primeiro ciclo de treinamento do Titan v2 está completo, e a expansão do conjunto de dados está em andamento.