Un usuario de Reddit busca recomendaciones del modelo de razonamiento capaz más grande que se ajuste a un límite de 64 GB de VRAM con el propósito de destilación de conocimiento.
- El usuario tiene dos GPUs R9700 que proporcionan 64 GB de VRAM en total.
- Está dispuesto a aceptar velocidades de inferencia más lentas, como 12 tokens por segundo.
- Se ha identificado que un modelo de 72 mil millones de parámetros se ajusta a las limitaciones de su hardware.