Koshur Pixel presenta un conjunto de datos sintético de OCR con 613,078 pares de imagen-texto generados a partir del corpus KS-PRET-5M utilizando SynthOCR-Gen. Incluye más de 25 estrategias de aumento y abarca diversas fuentes tipográficas y escalas textuales, desde palabras hasta documentos de página completa, permitiendo un entrenamiento escalable para sistemas de OCR en cachemiro.