CzechDocs — это многоканальный параллельный набор данных, содержащий оформленные документы в форматах HTML, DOCX и PDF, охватывающие чешский язык и малые языки, такие как украинский, английский, вьетнамский и русский. Набор поддерживает оценку систем машинного перевода, сохраняющих форматирование документов, и включает подмножество для проверки и открытый инструментарий для оценки. Будет использоваться отдельный тестовый набор для будущего совместного задания по переводу документов с сохранением форматирования.