media
Hugging Face Forums
·
hace 3 h
Búsqueda de conjuntos de datos de documentos en lenguas indias para entrenamiento de IA/OCR en India
QuantVectors está buscando conjuntos de datos de documentos anotados en lenguas indias de la India, incluyendo hindi, maratí, guyaratí, bengalí, punjabi, tamil, urdu, telugu, oriya, kannada, malayalam y asamés. Los conjuntos de datos deben incluir tipos de facturas, recibos, facturas de servicios públicos, avisos de pago, listas de empaque, facturas comerciales y notas de crédito, con aproximadamente 400 documentos por idioma, anotaciones verificadas por humanos y una precisión del 99%+. Los conjuntos de datos deben ser licenciables comercialmente y pueden ser de código abierto o comerciales, solicitando conjuntos de datos de HuggingFace, conjuntos de datos de investigación o proveedores especializados en este ámbito.