BamiBERT: वियतनामी के लिए एक नया BERT-आधारित भाषा मॉडल

शोधकर्ताओं ने BamiBERT का परिचय दिया, जो वियतनामी के लिए एक नया BERT-आधारित प्री-ट्रेन्ड भाषा मॉडल है, जो वर्तमान मानक PhoBERT की सीमाओं को दूर करने के लिए डिज़ाइन किया गया है। 129GB कॉरपस पर 20 epochs के लिए शून्य से प्रशिक्षित, यह 2048 टोकन तक विस्तारित संदर्भ लंबाई का समर्थन करता है और बाहरी शब्द विभाजन के बिना सीधे कच्चे इनपुट पर काम करता है।

8 वियतनामी बेंचमार्क्स में 15 में से 11 मेट्रिक्स पर सर्वश्रेष्ठ स्कोर हासिल करता है।
"base"-आकार के वियतनामी एन्कोडर्स के बीच एक नया state of the art स्थापित करता है।
मजबूत cross-domain सामान्यीकरण क्षमताओं को प्रदर्शित करता है।
कच्चे इनपुट पर सीधे काम करके बाहरी शब्द विभाजन की आवश्यकता को समाप्त करता है।

मॉडल https://huggingface.co/Qualcomm-AI-Research/BamiBERT पर जारी किया गया है, जो वियतनामी टेक्स्ट एन्कोडिंग कार्यों के लिए एक मजबूत विकल्प प्रदान करता है।