Construí un nuevo LLM triple-híbrido de menos de 1B parámetros por ~$50

Mateusz ha desarrollado un modelo de lenguaje completamente preentrenado, Titan v1 de Project Inkblot, que combina Mamba SSM, Atención Multi-Cabeza y MoE de 32 expertos en una única arquitectura solo-decoder con menos de 1B parámetros. El modelo, entrenado en una única GPU NVIDIA L4 por ~$50, alcanza una perplejidad de validación de 27.5 y demuestra un escalado eficiente mediante una actualización de configuración de una sola línea, con todos los componentes implementados desde cero en PyTorch. El primer ciclo de entrenamiento de Titan v2 ya está completo y la expansión del conjunto de datos está en curso.