寻求用于印度AI/OCR训练的印地语系文档数据集

QuantVectors 正在寻求来自印度的印地语系语言的标注文档数据集，包括印地语、马拉地语、古吉拉特语、孟加拉语、旁遮普语、泰米尔语、乌尔都语、泰卢固语、奥里亚语、卡纳达语、马拉雅拉姆语和阿萨姆语。数据集必须包含发票、收据、公用事业账单、付款建议、装箱单、商业发票和贷项通知单类型，每种语言约400份文档，人工验证的标注，以及99%以上的准确率。数据集必须可商业授权，可以是开源或商业性质，并请求提供HuggingFace数据集、研究数据集或专注于此领域的供应商。