Исследователи предлагают DiscoLoop, архитектуру трансформера с циклом, которая использует как каналы дискретных эмбеддингов, так и каналы непрерывных скрытых состояний для улучшения двухшагового рассуждения в рамках одного прямого прохода. Метод решает проблему репрезентативного узкого места, обнаруженную в стандартных циклических трансформерах, путем переориентации скрытых состояний относительно эмбеддингов мостовых токенов без дополнительного обучения.
- Стандартные нециклические трансформеры страдают от проблем с хранением информации на глубине: факты, изученные в более ранних слоях, недоступны для извлечения на втором шаге.
- Предыдущие циклические трансформеры обобщали результаты недостаточно хорошо, поскольку скрытые состояния оставались плохо согласованными с эмбеддингами мостовых токенов, несмотря на корректно декодируемые сущности.
- DiscoLoop использует дизайн с смешанными каналами, который достигает почти идеальной точности при значительно меньшем количестве шагов обучения на задачах символической и синтетической лингвистики.
- В реальном предварительном обучении архитектура демонстрирует меньшую функцию потерь и более высокие результаты на бенчмарках по сравнению с базовыми циклическими трансформерами.
Авторы считают это значимым, поскольку дизайн со смешанными каналами переносится на практическое языковое моделирование, позволяя моделям эффективнее интернализировать многошаговое рассуждение.