रेडिट पर एक उपयोगकर्ता ने समझाया कि यदि अपस्केलिंग के दौरान `layer_scalar` मान को समायोजित नहीं किया जाता है, तो RYS टूल Gemma 4 मॉडलों को खराब कर देता है। चूंकि यह स्केलर प्रत्येक परत में गुणात्मक रूप से लागू होता है, इसे समायोजित न करने से गलत मॉडल बन जाता है।
- सही समायोजन सूत्र `s^(1/N)` है, जहां `s` मूल स्केलर है और `N` वह बार है जब एक परत को डुप्लिकेट किया गया था।
- इस ठीक करने के लिए एक पुल रिक्वेस्ट संदर्भ के लिए RYS रिपॉजिटरी में सबमिट की गई है।