Qwen3-VL-8B-Instruct dan VLM lain melebih-lebihkan dasar bersama dalam dialog

Sebuah penelitian menyelidiki apakah model visi-bahasa (VLM) dapat membedakan antara apa yang dapat dibagikan dan apa yang telah ditetapkan sebagai pemahaman bersama selama dialog kolaboratif. Para peneliti merumuskan tugas pencocokan interpretasi menggunakan 13.077 ekspresi referensi beranotasi dari dialog HCRC MapTask untuk mengevaluasi perilaku model dalam kondisi terkendali.

Penyediaan gambar peta autentik meningkatkan kinerja keseluruhan tetapi menyebabkan model memprediksi keselarasan dengan perspektif mitra secara berlebihan.
Deskripsi tekstual konten peta mereproduksi bias ini, sementara gambar yang tidak informatif menekan prediksi keselarasan sepenuhnya.
Bias ini didorong oleh konten peta yang relevan dengan tugas daripada saluran visual itu sendiri.
Peningkatan dalam prediksi keselarasan ini datang dengan biaya akurasi yang menurun pada kasus yang tidak selaras.
Analisis kalibrasi menunjukkan bahwa model mengandalkan petunjuk referensi statis di peta alih-alih melacak penjangkaran melalui riwayat dialog.
Pola-pola ini diamati paling jelas pada Qwen3-VL-8B-Instruct dan dalam berbagai derajat pada empat model tambahan dari dua keluarga arsitektur.

Temuan tersebut menunjukkan bahwa VLM mencampuradukkan informasi yang berpotensi dibagikan dengan dasar bersama yang telah ditetapkan, memperlakukan konten peta sebagai bukti pemahaman timbal balik daripada melacak bagaimana penjangkaran berkembang melalui interaksi.