बड़े भाषा मॉडलों को समझना: उभरती क्षमताएँ और संज्ञान पर बहस

यह अध्याय बड़े भाषा मॉडलों (LLM) के वर्तमान समझ को उनके तंत्र, उभरती क्षमताओं और मानव संज्ञान के साथ उनके संबंध के चारों ओर चल रही बहस का जांच करके रेखांकित करता है। यह इस बात पर जोर देता है कि Transformer आर्किटेक्चर का ध्यान तंत्र LLMs को विशाल डेटासेट पर प्रशिक्षित सामान्यीकृत मॉडल के रूप में कैसे कार्य करने की अनुमति देता है।

पाठ इस बात के सबूतों की समीक्षा करता है कि LLMs मानव संज्ञान से मिलते-जुलती उभरती क्षमताएं प्रदर्शित करते हैं, जैसे प्रतीकात्मक तर्क, मन का सिद्धांत और धोखा देने की रणनीतियाँ।
अध्ययन जटिल कार्यों को हल करने में सफल मामलों और विफल मामलों दोनों पर प्रकाश डालते हैं जो मानव और LLM संज्ञान के बीच अंतर को उजागर करते हैं।
स्पष्ट AI दृष्टिकोनों पर चर्चा की गई है, जिसमें न्यूरॉन सक्रियण विश्लेषण और सर्किट ट्रेसिंग शामिल हैं।
लेखक उन सरलतावादी रूढ़िवादी दृष्टिकोणों के खिलाफ तर्क देते हैं जो LLM व्यवहार को केवल पैटर्न याद रखने को समर्पित करते हैं, AI संज्ञान पर एक सूक्ष्म बहस का समर्थन करते हैं।

लेखकों का मानना है कि सरल प्रशिक्षण उद्देश्यों के आधार पर LLM समझ को नकारना अनुकूलन प्रक्रियाओं के बारे में गलत धारणाओं से उत्पन्न होता है। वे एक संतुलित दृष्टिकोण का प्रस्ताव करते हैं जो मानवों और LLMs के बीच अंतर को स्वीकार करता है, जबकि वास्तविक AI संज्ञान की संभावना की अनुमति देता है।