Peneliti memperkenalkan LOTUS, sebuah metode yang menggunakan Transformer berlapis padding berulang untuk melakukan penalaran multi-langkah dalam keadaan tersembunyi, secara efektif menjembatani kesenjangan kinerja antara chain-of-thought (CoT) laten dan eksplisit pada skala 3 miliar parameter. Model memproses K blok laten secara paralel selama R iterasi dengan loss entropi silang pada token langkah CoT emas.

  • LOTUS adalah metode CoT laten pertama yang menyamai kinerja CoT eksplisit pada skala 3B.
  • Metode ini mengurangi latensi fase pemikiran sebesar 2,5x hingga 6,9x dibandingkan dengan generasi token demi token.
  • Memproyeksikan latent pasca-loop melalui kepala LM dasar memulihkan langkah penalaran emas dan menyoroti langkah menengah alternatif yang valid.
  • Ablasi mengonfirmasi bahwa backbone berulang dan pengawasan paralel pada token CoT emas sangat penting untuk kinerja ini.

Pendekatan ini menunjukkan bahwa ruang laten dapat diinterpretasikan dan sejalan dengan CoT, menawarkan alternatif yang lebih efisien daripada generasi token eksplisit untuk tugas penalaran kompleks.