लेख में CHERRY-1.8B प्रस्तुत करता है, जो एक कोरियाई फाउंडेशन मॉडल है जो गणना-कुशल भाषा मॉडल के प्रशिक्षण के लिए तीन तकनीकों को एकीकृत करता है: चयनात्मक पर्यवेक्षण, पुनरावर्ती पुनर्प्राप्ति के साथ गहराई संपीड़न और संपीड़ित विशेषज्ञों का विलय।

चयनात्मक वास्तविक टोकन प्रशिक्षण (SGT) ~15% आउटपुट टोकन पर पर्यवेक्षण को केंद्रित करता है, जो प्रति-पर्यवेक्षित टोकन दक्षता में 4.5x का उत्पादन देता है जबकि ग्रेडिएंट युग्मन के माध्यम से अनादेक्षित टोकन को बेहतर बनाता है। गहराई संपीड़न 48-परत, 1B-पैरामीटर वाले ट्रान्सफॉर्मर को 6 परतों (227M पैरामीटर) तक कम कर देता है, जिसे हानि 2.934 तक पहुंचने के लिए सीखे गए पुनरावर्ती अनरोलिंग के माध्यम से पुनर्स्थापित किया जाता है, जो 566M घन मॉडल के तुलनीय है। बहु-टोकन भविष्यवाणी के साथ एक कुशल विशेषज्ञ मिश्रण (MoEE) के रूप में संपीड़ित मॉडल को असेंबल करना प्रदर्शन को और बेहतर बनाता है, जिसमें हानि 2.789 प्राप्त होती है।

लेखकों ने CHERRY-1.8B पर इन तकनीकों की वैधता की पुष्टि की, यह नोट करते हुए कि प्रत्येक प्रशिक्षणीय पैरामीटर उनके अपने प्रशिक्षण रन से व्युत्पन्न होता है और साक्ष्य के दायरे को स्पष्ट रूप से एक मॉडल परिवार और कोरियाई डेटा तक सीमित मानते हैं।