Почему ни один модельный разработчик не использует токены на уровне предложений?

Пользователь спрашивает, почему не существует языковых моделей, обученных на целых предложениях как на отдельные токены, предполагая, что такая модель может выступать в роли «простого разговорщика» с сильными способностями к логическому мышлению. Они предлагают использовать один токен для фраз, таких как "еда вышла в унитаз", чтобы упростить обработку входных данных.