CzechDocs es un conjunto de datos paralelo multilingüe de documentos formateados en formatos HTML, DOCX y PDF, que cubre el checo y lenguas minoritarias como ucraniano, inglés, vietnamita y ruso. Permite la evaluación de sistemas de traducción automática que preservan el formato de los documentos, con un subconjunto de validación y un kit de evaluación publicados públicamente. Se utilizará una división de prueba reservada para una tarea compartida futura sobre traducción a nivel de documento con preservación del formato.