भारत में AI/OCR प्रशिक्षण के लिए इंडिक दस्तावेज़ डेटासेट की खोज

QuantVectors भारत से इंडिक भाषाओं में टिप्पणीयुक्त दस्तावेज़ डेटासेट की तलाश कर रहा है, जिसमें हिंदी, मराठी, गुजराती, बंगाली, पंजाबी, तमिल, उर्दू, तेलुगु, ओड़िया, कन्नड़, मलयालम और असमिया शामिल हैं। डेटासेट में चालान, रसीद, उपयोगिता बिल, भुगतान सलाह, पैकिंग सूची, वाणिज्यिक चालान और क्रेडिट नोट प्रकार शामिल होने चाहिए, प्रत्येक भाषा के लिए लगभग 400 दस्तावेज़, मानव-सत्यापित टिप्पणियाँ, और 99%+ सटीकता। डेटासेट वाणिज्यिक रूप से लाइसेंस योग्य होने चाहिए और ओपन-सोर्स या वाणिज्यिक हो सकते हैं, HuggingFace डेटासेट, शोध डेटासेट, या इस क्षेत्र में विशेषज्ञता वाले विक्रेताओं का अनुरोध किया गया है।