A QuantVectors está buscando conjuntos de dados de documentos anotados em línguas indic da Índia, incluindo hindi, marata, guzerate, bengali, punjabi, tâmil, urdu, telugu, oriá, canarês, malaiala e assamês. Os conjuntos de dados devem incluir tipos de fatura, recibo, conta de serviços públicos, aviso de pagamento, lista de embalagem, fatura comercial e nota de crédito, com aproximadamente 400 documentos por idioma, anotações verificadas por humanos e precisidade de 99%+. Os conjuntos de dados devem ser licenciáveis comercialmente e podem ser de código aberto ou comerciais, com solicitação de conjuntos de dados do HuggingFace, conjuntos de dados de pesquisa ou fornecedores especializados neste segmento.
Procurando Conjuntos de Dados de Documentos em Línguas Indic para Treinamento de IA/OCR na Índia
Traduzido do English → Português (BR)