अमेरिका या चीन: AI रिसर्च में आगे कौन है?

हाल ही में मुझे दो ऐसे लेख मिले जिनकी सुर्खियाँ और निष्कर्ष एकदम अलग-अलग थे:

AI रिसर्च आउटपुट और गुणवत्ता में चीन ने अमेरिका को पछाड़ा — यह लेख Nikkei के स्टाफ राइटर्स Kotaro Fukuoka, Shunsuke Tabeta और Akira Okikawa ने लिखा था।
Zeta Alpha का 2022 के 100 सबसे अधिक उद्धृत AI पेपर — इस लेख में लिखा था: "जब हम देखते हैं कि ये शीर्ष-उद्धृत पेपर कहाँ से आए (चित्र 1), तो हम पाते हैं कि संयुक्त राज्य अमेरिका का वर्चस्व बरकरार है और प्रमुख शक्तियों के बीच अंतर प्रति वर्ष बहुत कम बदलता है।"
- इस लेख का एक निष्कर्ष यह था कि "पहले की रिपोर्टें (Nikkei लेख का संदर्भ) कि चीन ने AI R&D में अमेरिका को पीछे छोड़ दिया है, citations के नजरिए से देखें तो बहुत अतिरंजित लगती हैं।"

स्वाभाविक रूप से, मेरी जिज्ञासा जाग उठी क्योंकि Nikkei एक विश्वसनीय समाचार संगठन है, और जापान अमेरिका का सैन्य सहयोगी है। यानी Nikkei के पास चीन के पक्ष में सच्चाई को "तोड़-मरोड़ने" का कोई प्रोत्साहन नहीं है। इसलिए मैंने थोड़ा और गहराई से पड़ताल करने का फैसला किया।

खैर, जैसा निकला — मुझे बहुत गहराई तक जाने की जरूरत ही नहीं पड़ी। यह जानने के लिए कि दोनों एक साथ सही हो सकते हैं, बस यह देखना काफी था कि उन्होंने अपने निष्कर्षों तक पहुँचने के लिए अलग-अलग तरीके इस्तेमाल किए। चूँकि Zeta Alpha ने अपना लेख बाद में प्रकाशित किया और Nikkei के लेख का हवाला दिया, तो उन्हें अपने लेख में ही दोनों की methodology के अंतरों को सीधे उजागर करना चाहिए था; और पाठकों पर फैसला छोड़ देना चाहिए था।

अलग-अलग तरीके

Nikkei की Methodology

Zeta Alpha की Methodology

Nikkei ने Dutch वैज्ञानिक प्रकाशक Elsevier के साथ मिलकर AI पर शैक्षणिक और conference papers की समीक्षा की, जिसके लिए लगभग 800 AI-संबंधित keywords का इस्तेमाल किया।

हमने पहले Zeta Alpha platform पर प्रति वर्ष के सबसे अधिक उद्धृत पेपर एकत्र किए, फिर पहली प्रकाशन तिथि की मैन्युअल जाँच की, ताकि हम papers को सही वर्ष में रख सकें।

हमने Semantic Scholar पर अत्यधिक उद्धृत AI पेपर खोज कर इस सूची को पूरक बनाया। हम फिर प्रत्येक पेपर के लिए Google Scholar पर citations की संख्या को प्रतिनिधि मीट्रिक के रूप में लेते हैं और उन्हें इस संख्या के आधार पर क्रमबद्ध करके किसी वर्ष के शीर्ष-100 निकालते हैं।

मात्रा के लिहाज से, AI पेपरों की संख्या 2012 में लगभग 25,000 से बढ़कर 2021 में लगभग 135,000 हो गई।

Zeta Alpha का लेख केवल प्रत्येक वर्ष के शीर्ष 100 पेपरों पर केंद्रित है।

Nikkei और Zeta Alpha दोनों पेपर की गुणवत्ता का संकेत देने के लिए citations का उपयोग करते हैं।

लेकिन पहला बड़ा अंतर यह है कि Nikkei अपना निष्कर्ष निकालने के लिए Zeta Alpha की तुलना में बहुत अधिक AI पेपरों को देखता है। जब Nikkei ने लिखा, "2021 में, चीन का सबसे अधिक उद्धृत पेपरों में हिस्सा 7,401 था, जो अमेरिका की संख्या से लगभग 70% अधिक है," तो वे शीर्ष 10% पेपरों की बात कर रहे थे — यानी 2021 में मूल रूप से 13,500 पेपरों का संसार (2021 में लगभग 135,000 AI पेपरों का शीर्ष 10%)।

Zeta Alpha का उनके लेख में सारा विश्लेषण केवल प्रत्येक वर्ष के citations के हिसाब से शीर्ष 100 पेपरों के बारे में है।

तो यह बिल्कुल भी सेब और सेब की तुलना नहीं है।

Nikkei और Zeta Alpha में कौन-सा तरीका बेहतर है?

AI क्षेत्र में मेरी गहरी पृष्ठभूमि नहीं है, इसलिए मैं आत्मविश्वास से नहीं कह सकता कि कौन-सी methodology बेहतर है। मैं इतना जरूर जानता हूँ कि वे अलग हैं।

अगर आप इस सवाल का जवाब देना चाहते हैं, तो मुझे लगता है कि आपको यह करना होगा:

पहले, परिभाषित करें कि आप "बेहतर" को किस मापदंड से आँक रहे हैं?
- अधिक पेपरों को कवर करने का मतलब है कि आपका नमूना आकार बहुत बड़ा है और AI के भीतर कई अधिक विशिष्ट क्षेत्रों को कवर करता है।
- शीर्ष 100 पेपरों पर ध्यान केंद्रित करना तब समझ में आता है जब हम सोचें कि अधिकांश वाणिज्यिक या रणनीतिक मूल्य समय के साथ शीर्ष कुछ पेपरों/मालिकों को मिलेगा। लेकिन मुझे संदेह है कि Zeta Alpha ने यह विश्लेषण किया है।
दूसरा, citations के बजाय प्रत्येक पेपर के मूल्य या प्रभाव को बेहतर तरीके से मापने का कोई तरीका खोजें। मुझे पता है कि citations का उपयोग गुणवत्ता का मूल्यांकन करने का एक कच्चा तरीका है, लेकिन क्या यह सबसे अच्छा तरीका है?
तीसरा, किसी देश की AI क्षमता और किसी दिए गए वर्ष में शीर्ष 100 या शीर्ष 1000 उद्धृत पेपरों में उसके प्रकाशित पेपरों के प्रतिशत के बीच क्या संबंध है?
- उदाहरण के लिए, मुझे यकीन है कि कुछ सबसे अत्याधुनिक अनुसंधान जिनका सैन्य और उच्च वाणिज्यिक मूल्य है, कुछ research labs उन्हें प्रकाशित नहीं करने का चुनाव करती हैं। क्योंकि उन्हें दूसरों के सीखने के लिए, प्रतिस्पर्धा को अंतर कम करने में मदद करने के लिए क्यों प्रकाशित करें?
मैं और भी जा सकता हूँ, लेकिन मुझे उम्मीद है कि आप मेरी बात समझ गए।

कुछ संदिग्ध निष्कर्ष/शीर्षक

प्रकाशनों को पूर्ण ब्लॉकबस्टर में बदलने के मामले में OpenAI बिल्कुल अपनी लीग में है

Zeta Alpha ने लिखा कि "आप OpenAI या DeepMind को प्रकाशनों की मात्रा में शीर्ष 20 में नहीं देखेंगे। ये संस्थान कम प्रकाशित करते हैं लेकिन अधिक प्रभाव के साथ।" और "अब हम देखते हैं कि प्रकाशनों को पूर्ण ब्लॉकबस्टर में बदलने के मामले में OpenAI बिल्कुल अपनी लीग में है।"

यह "conversion rate" देखना क्यों महत्वपूर्ण है? इसका क्या मतलब है? डेटा को समझने का एक सरल तरीका यह है:

OpenAI का अनुसंधान AI के एक बहुत ही संकीर्ण क्षेत्र पर केंद्रित है, और वे बहुत सीमित संख्या में पेपर प्रकाशित करने का चुनाव करते हैं।
Google या Meta और अन्य कंपनियों की AI में व्यापक रुचि है, और वे एक साथ कई अलग-अलग क्षेत्रों पर शोध कर रहे हैं। और वे अधिक प्रकाशित करने का चुनाव करते हैं।
इसका OpenAI की प्रकाशनों को ब्लॉकबस्टर बनाने की क्षमता से कोई लेना-देना नहीं है।

काम करने का कौन-सा तरीका बेहतर है? मुझे पक्का नहीं पता।

अमेरिका AI रिसर्च पेपरों पर हावी है

यह निष्कर्ष नीचे दिए गए दो मुख्य डेटा बिंदुओं पर आधारित है।

जैसा कि ऊपर उल्लेख किया गया है, जबकि मैं सहमत हूँ कि शीर्ष 100 (या 1000 या जो भी संख्या हो) उद्धृत AI पेपरों में एक मजबूत उपस्थिति AI में देश की ताकत का संकेत है। मुझे नहीं लगता कि यही एकमात्र संकेत होना चाहिए। उस निष्कर्ष पर पहुँचने के लिए डेटा बिंदुओं या संकेतों का एक समूह होना चाहिए।

साथ ही, शीर्ष 100 क्यों और शीर्ष 1000 क्यों नहीं? क्या ऐसा इसलिए है क्योंकि Zeta Alpha की methodology में मैन्युअल जाँच शामिल है इसलिए वे केवल शीर्ष 100 को ही कवर कर सकते हैं?

निष्कर्ष

यह एक और उदाहरण है कि असल जिंदगी की स्थिति कुछ सुर्खियों की तुलना में कहीं अधिक सूक्ष्म होती है। इसलिए हालाँकि मैं दर्शकों के लिए कहानी को सरल बनाने के प्रयास की सराहना करता हूँ, हमें "इसे बहुत ज्यादा सरल" बनाने की कोशिश नहीं करनी चाहिए। :)

आपके अनुसार किसी देश की AI क्षमता को मापने का बेहतर तरीका क्या है? क्या शीर्ष-उद्धृत पेपरों की संख्या पर्याप्त है, या हमें संकेतों के एक व्यापक समूह को देखना चाहिए? मुझे आपके विचार जानकर खुशी होगी।

शुभकामनाओं सहित, Chandler

अमेरिका या चीन: AI रिसर्च में आगे कौन है?

अलग-अलग तरीके

Nikkei और Zeta Alpha में कौन-सा तरीका बेहतर है?

कुछ संदिग्ध निष्कर्ष/शीर्षक

प्रकाशनों को पूर्ण ब्लॉकबस्टर में बदलने के मामले में OpenAI बिल्कुल अपनी लीग में है

अमेरिका AI रिसर्च पेपरों पर हावी है

निष्कर्ष

पढ़ना जारी रखें

SEO और पब्लिशर्स पर Chat का संभावित प्रभाव: तीन महीने का पुनरावलोकन

Paid Search Revenue और SEO पर Chat का संभावित प्रभाव

एक साल बाद: मेरी search की आदतें AI assistants के उदय और SEO के बदलते भविष्य की पुष्टि करती हैं

ChatGPT और Google Best Practices से High-Performing SEM Ad Copy बनाएँ

विज्ञापन का आदमी बना कोड का आदमी? मेरा Python साहसिक सफर

आधुनिक भूराजनीति को आकार देने में Artificial Intelligence की संभावित भूमिका: वास्तविक उदाहरणों के साथ एक संतुलित दृष्टिकोण