インドのAI/OCRトレーニング用のインディック言語ドキュメントデータセットを探しています

QuantVectorsは、ヒンディー語、マラーティー語、グジャラート語、ベンガル語、パンジャーブ語、タミル語、ウルドゥー語、テルグ語、オリア語、カンナダ語、マラヤーラム語、アッサム語など、インドのインディック言語からの注釈付きドキュメントデータセットを求めています。データセットには、請求書、領収書、公共料金請求書、支払い通知、パッキングリスト、商業請求書、クレジットメモの種類が含まれており、各言語あたり約400文書、人間による検証済み注釈、99%以上の精度が必要です。データセットは商用ライセンス可能であり、オープンソースまたは商用のいずれでも構いません。HuggingFaceデータセット、研究用データセット、またはこの分野を専門とするベンダーからの提供を求めています。