Procurando Conjuntos de Dados de Documentos em Línguas Indic para Treinamento de IA/OCR na Índia

A QuantVectors está buscando conjuntos de dados de documentos anotados em línguas indic da Índia, incluindo hindi, marata, guzerate, bengali, punjabi, tâmil, urdu, telugu, oriá, canarês, malaiala e assamês. Os conjuntos de dados devem incluir tipos de fatura, recibo, conta de serviços públicos, aviso de pagamento, lista de embalagem, fatura comercial e nota de crédito, com aproximadamente 400 documentos por idioma, anotações verificadas por humanos e precisidade de 99%+. Os conjuntos de dados devem ser licenciáveis comercialmente e podem ser de código aberto ou comerciais, com solicitação de conjuntos de dados do HuggingFace, conjuntos de dados de pesquisa ou fornecedores especializados neste segmento.