Mencari Dataset Dokumen Bahasa India untuk Pelatihan AI/OCR di India

QuantVectors mencari dataset dokumen terannotasi dalam bahasa-bahasa India dari India, termasuk Hindi, Marathi, Gujarati, Bengali, Punjabi, Tamil, Urdu, Telugu, Odia, Kannada, Malayalam, dan Assam. Dataset harus mencakup jenis faktur, tanda terima, tagihan utilitas, saran pembayaran, daftar kemasan, faktur komersial, dan catatan kredit, dengan sekitar 400 dokumen per bahasa, anotasi yang diverifikasi manusia, dan akurasi 99%+. Dataset harus dapat dilisensikan secara komersial dan dapat berupa open-source atau komersial, dengan permintaan dataset HuggingFace, dataset penelitian, atau vendor yang mengkhususkan diri di bidang ini.