استكشاف الأنظمة الوظيفية داخل نماذج اللغة الصغيرة

تصفّي هذا المشروع البحثي المستقل الديناميكيات الداخلية لسبعة نماذج لغوية صغيرة ومتوسطة الحجم من خلال تحليل كيفية تطور التمثيلات المخفية أثناء الاستدلال، بدلاً من الاعتماد على معايير الإخراج القياسية. تبحث الدراسة في السلوك الدينيكي والتنظيم الوظيفي وهندسة التمثيل لتحديد أنماط قابلة للتكرار عبر معماريات مختلفة.

يغطي التحليل نماذج GPT-2 و DistilGPT2 و OPT-125M و Qwen2.5-0.5B-Instruct و TinyLlama-1.1B-Chat و Phi-1.5 و Llama-3.2-1B.
تنفصل النماذج بشكل متسق إلى مجموعتين: تشكل GPT-2 و DistilGPT2 مجموعة واحدة، بينما تشكل النماذج الخمسة الأخرى مجموعة أخرى على الرغم من الاختلافات المعمارية.
يمكن فك تشفير المعلومات الوظيفية خطياً من التمثيلات المخفية، مع وجود سعة وظيفية متفاوتة عبر الطبقات لا تتطابق عند أعماق مطلقة متطابقة.
تحافظ الدورانات المتعامدة على إمكانية الفك تقريباً بالكامل، مما يشير إلى أن الإشارات الوظيفية تعتمد على هندسة فضاء التمثيل بدلاً من أبعاد التضمين المحددة.

تهدف الأبحاث إلى الانتقال من الملاحظة إلى الاختبار السببي لتحديد ما إذا كان إزعاج المناطق الوظيفية المحددة يغير السلوك اللاحق وكيف تتوسع مبادئ التنظيم هذه مع حجم النموذج.