QuantVectors는 힌디어, 마라티어, 구자라티어, 벵골어, 펀자브어, 타밀어, 우르두어, 텔루구어, 오디아어, 칸나다어, 말라얄람어, 아삼어 등 인도의 인디크 언어로 주석이 달린 문서 데이터셋을 찾고 있습니다. 데이터셋에는 송장, 영수증, 공공요금 고지서, 지급 안내, 포장 목록, 상업용 송장, 신용고지서가 포함되어야 하며, 언어당 약 400개의 문서, 인간 검증 주석, 99% 이상의 정확도가 필요합니다. 데이터셋은 상업적으로 라이선스 가능해야 하며 오픈소스 또는 상업용일 수 있으며, HuggingFace 데이터셋, 연구용 데이터셋 또는 이 분야를 전문으로 하는 벤더를 요청합니다.