Modelo más grande con menos de 64 GB de VRAM para destilación

Un usuario de Reddit busca recomendaciones del modelo de razonamiento capaz más grande que se ajuste a un límite de 64 GB de VRAM con el propósito de destilación de conocimiento.

El usuario tiene dos GPUs R9700 que proporcionan 64 GB de VRAM en total.
Está dispuesto a aceptar velocidades de inferencia más lentas, como 12 tokens por segundo.
Se ha identificado que un modelo de 72 mil millones de parámetros se ajusta a las limitaciones de su hardware.