CANDLE — это легкая система, которая использует Connectionist Temporal Classification для устранения дублирования повторяющихся символов в арабском тексте, не используя ручно разработанные правила или морфологические анализаторы. Система достигает ошибки в предложении 5,37% и снижает плотность токенизатора на 12,8%, что уменьшает затраты на инференс и улучшает использование контекстного окна.