Sebuah studi terbaru menyelidiki token spesifik mana yang diprediksi lebih akurat oleh model bahasa hibrida dibandingkan dengan arsitektur padat standar. Penelitian ini berfokus pada pemahaman distribusi kesalahan prediksi di berbagai jenis token, seperti kata langka dan cuplikan kode. Dengan menganalisis lanskap kerugian, penulis mengidentifikasi bahwa model hibrida unggul dalam menangkap ketergantungan jarak jauh di wilayah data jarang. Temuan tersebut menunjukkan bahwa mekanisme campuran ahli memungkinkan pemanfaatan parameter yang lebih efisien selama inferensi. Akurasi yang meningkat ini sangat mencolok untuk token dengan frekuensi rendah dalam korpus pelatihan. Makalah ini memberikan rincian mendetail dari metrik kinerja di berbagai dataset benchmark. Hasil-hasil ini menyoroti potensi arsitektur hibrida untuk menangani struktur linguistik yang beragam secara efektif.