Skip to content
··5 मिनट पढ़ने का समय

अमेरिका या चीन: AI रिसर्च में आगे कौन है?

दो बड़े विश्लेषणों ने AI नेतृत्व को लेकर अमेरिका बनाम चीन के बारे में एकदम विपरीत निष्कर्ष निकाले — लेकिन दोनों ने बिल्कुल अलग-अलग चीजें मापीं। यहाँ समझें कि दोनों एक साथ सही क्यों हो सकते हैं।

हाल ही में मुझे दो ऐसे लेख मिले जिनकी सुर्खियाँ और निष्कर्ष एकदम अलग-अलग थे:

  • AI रिसर्च आउटपुट और गुणवत्ता में चीन ने अमेरिका को पछाड़ा — यह लेख Nikkei के स्टाफ राइटर्स Kotaro Fukuoka, Shunsuke Tabeta और Akira Okikawa ने लिखा था।
  • Zeta Alpha का 2022 के 100 सबसे अधिक उद्धृत AI पेपर — इस लेख में लिखा था: "जब हम देखते हैं कि ये शीर्ष-उद्धृत पेपर कहाँ से आए (चित्र 1), तो हम पाते हैं कि संयुक्त राज्य अमेरिका का वर्चस्व बरकरार है और प्रमुख शक्तियों के बीच अंतर प्रति वर्ष बहुत कम बदलता है।"
    • इस लेख का एक निष्कर्ष यह था कि "पहले की रिपोर्टें (Nikkei लेख का संदर्भ) कि चीन ने AI R&D में अमेरिका को पीछे छोड़ दिया है, citations के नजरिए से देखें तो बहुत अतिरंजित लगती हैं।"

स्वाभाविक रूप से, मेरी जिज्ञासा जाग उठी क्योंकि Nikkei एक विश्वसनीय समाचार संगठन है, और जापान अमेरिका का सैन्य सहयोगी है। यानी Nikkei के पास चीन के पक्ष में सच्चाई को "तोड़-मरोड़ने" का कोई प्रोत्साहन नहीं है। इसलिए मैंने थोड़ा और गहराई से पड़ताल करने का फैसला किया।

खैर, जैसा निकला — मुझे बहुत गहराई तक जाने की जरूरत ही नहीं पड़ी। यह जानने के लिए कि दोनों एक साथ सही हो सकते हैं, बस यह देखना काफी था कि उन्होंने अपने निष्कर्षों तक पहुँचने के लिए अलग-अलग तरीके इस्तेमाल किए। चूँकि Zeta Alpha ने अपना लेख बाद में प्रकाशित किया और Nikkei के लेख का हवाला दिया, तो उन्हें अपने लेख में ही दोनों की methodology के अंतरों को सीधे उजागर करना चाहिए था; और पाठकों पर फैसला छोड़ देना चाहिए था।

अलग-अलग तरीके

Nikkei की Methodology

Zeta Alpha की Methodology

Nikkei ने Dutch वैज्ञानिक प्रकाशक Elsevier के साथ मिलकर AI पर शैक्षणिक और conference papers की समीक्षा की, जिसके लिए लगभग 800 AI-संबंधित keywords का इस्तेमाल किया।

हमने पहले Zeta Alpha platform पर प्रति वर्ष के सबसे अधिक उद्धृत पेपर एकत्र किए, फिर पहली प्रकाशन तिथि की मैन्युअल जाँच की, ताकि हम papers को सही वर्ष में रख सकें।

हमने Semantic Scholar पर अत्यधिक उद्धृत AI पेपर खोज कर इस सूची को पूरक बनाया। हम फिर प्रत्येक पेपर के लिए Google Scholar पर citations की संख्या को प्रतिनिधि मीट्रिक के रूप में लेते हैं और उन्हें इस संख्या के आधार पर क्रमबद्ध करके किसी वर्ष के शीर्ष-100 निकालते हैं।

मात्रा के लिहाज से, AI पेपरों की संख्या 2012 में लगभग 25,000 से बढ़कर 2021 में लगभग 135,000 हो गई।

Zeta Alpha का लेख केवल प्रत्येक वर्ष के शीर्ष 100 पेपरों पर केंद्रित है।

Nikkei और Zeta Alpha दोनों पेपर की गुणवत्ता का संकेत देने के लिए citations का उपयोग करते हैं।

लेकिन पहला बड़ा अंतर यह है कि Nikkei अपना निष्कर्ष निकालने के लिए Zeta Alpha की तुलना में बहुत अधिक AI पेपरों को देखता है। जब Nikkei ने लिखा, "2021 में, चीन का सबसे अधिक उद्धृत पेपरों में हिस्सा 7,401 था, जो अमेरिका की संख्या से लगभग 70% अधिक है," तो वे शीर्ष 10% पेपरों की बात कर रहे थे — यानी 2021 में मूल रूप से 13,500 पेपरों का संसार (2021 में लगभग 135,000 AI पेपरों का शीर्ष 10%)।

Zeta Alpha का उनके लेख में सारा विश्लेषण केवल प्रत्येक वर्ष के citations के हिसाब से शीर्ष 100 पेपरों के बारे में है।

तो यह बिल्कुल भी सेब और सेब की तुलना नहीं है।

Nikkei और Zeta Alpha में कौन-सा तरीका बेहतर है?

AI क्षेत्र में मेरी गहरी पृष्ठभूमि नहीं है, इसलिए मैं आत्मविश्वास से नहीं कह सकता कि कौन-सी methodology बेहतर है। मैं इतना जरूर जानता हूँ कि वे अलग हैं।

अगर आप इस सवाल का जवाब देना चाहते हैं, तो मुझे लगता है कि आपको यह करना होगा:

  • पहले, परिभाषित करें कि आप "बेहतर" को किस मापदंड से आँक रहे हैं?
    • अधिक पेपरों को कवर करने का मतलब है कि आपका नमूना आकार बहुत बड़ा है और AI के भीतर कई अधिक विशिष्ट क्षेत्रों को कवर करता है।
    • शीर्ष 100 पेपरों पर ध्यान केंद्रित करना तब समझ में आता है जब हम सोचें कि अधिकांश वाणिज्यिक या रणनीतिक मूल्य समय के साथ शीर्ष कुछ पेपरों/मालिकों को मिलेगा। लेकिन मुझे संदेह है कि Zeta Alpha ने यह विश्लेषण किया है।
  • दूसरा, citations के बजाय प्रत्येक पेपर के मूल्य या प्रभाव को बेहतर तरीके से मापने का कोई तरीका खोजें। मुझे पता है कि citations का उपयोग गुणवत्ता का मूल्यांकन करने का एक कच्चा तरीका है, लेकिन क्या यह सबसे अच्छा तरीका है?
  • तीसरा, किसी देश की AI क्षमता और किसी दिए गए वर्ष में शीर्ष 100 या शीर्ष 1000 उद्धृत पेपरों में उसके प्रकाशित पेपरों के प्रतिशत के बीच क्या संबंध है?
    • उदाहरण के लिए, मुझे यकीन है कि कुछ सबसे अत्याधुनिक अनुसंधान जिनका सैन्य और उच्च वाणिज्यिक मूल्य है, कुछ research labs उन्हें प्रकाशित नहीं करने का चुनाव करती हैं। क्योंकि उन्हें दूसरों के सीखने के लिए, प्रतिस्पर्धा को अंतर कम करने में मदद करने के लिए क्यों प्रकाशित करें?
  • मैं और भी जा सकता हूँ, लेकिन मुझे उम्मीद है कि आप मेरी बात समझ गए।

कुछ संदिग्ध निष्कर्ष/शीर्षक

प्रकाशनों को पूर्ण ब्लॉकबस्टर में बदलने के मामले में OpenAI बिल्कुल अपनी लीग में है

Zeta Alpha ने लिखा कि "आप OpenAI या DeepMind को प्रकाशनों की मात्रा में शीर्ष 20 में नहीं देखेंगे। ये संस्थान कम प्रकाशित करते हैं लेकिन अधिक प्रभाव के साथ।" और "अब हम देखते हैं कि प्रकाशनों को पूर्ण ब्लॉकबस्टर में बदलने के मामले में OpenAI बिल्कुल अपनी लीग में है।"

Published paper to top 100 conversion rate for AI research by Zeta Alpha

यह "conversion rate" देखना क्यों महत्वपूर्ण है? इसका क्या मतलब है? डेटा को समझने का एक सरल तरीका यह है:

  • OpenAI का अनुसंधान AI के एक बहुत ही संकीर्ण क्षेत्र पर केंद्रित है, और वे बहुत सीमित संख्या में पेपर प्रकाशित करने का चुनाव करते हैं।
  • Google या Meta और अन्य कंपनियों की AI में व्यापक रुचि है, और वे एक साथ कई अलग-अलग क्षेत्रों पर शोध कर रहे हैं। और वे अधिक प्रकाशित करने का चुनाव करते हैं।
  • इसका OpenAI की प्रकाशनों को ब्लॉकबस्टर बनाने की क्षमता से कोई लेना-देना नहीं है।

काम करने का कौन-सा तरीका बेहतर है? मुझे पक्का नहीं पता।

अमेरिका AI रिसर्च पेपरों पर हावी है

यह निष्कर्ष नीचे दिए गए दो मुख्य डेटा बिंदुओं पर आधारित है।

count of the top 100 cited papers per year by country source zeta alpha

percentage of yearly citations received in the top 100 AI papers by Zeta Alpha

जैसा कि ऊपर उल्लेख किया गया है, जबकि मैं सहमत हूँ कि शीर्ष 100 (या 1000 या जो भी संख्या हो) उद्धृत AI पेपरों में एक मजबूत उपस्थिति AI में देश की ताकत का संकेत है। मुझे नहीं लगता कि यही एकमात्र संकेत होना चाहिए। उस निष्कर्ष पर पहुँचने के लिए डेटा बिंदुओं या संकेतों का एक समूह होना चाहिए।

साथ ही, शीर्ष 100 क्यों और शीर्ष 1000 क्यों नहीं? क्या ऐसा इसलिए है क्योंकि Zeta Alpha की methodology में मैन्युअल जाँच शामिल है इसलिए वे केवल शीर्ष 100 को ही कवर कर सकते हैं?

निष्कर्ष

यह एक और उदाहरण है कि असल जिंदगी की स्थिति कुछ सुर्खियों की तुलना में कहीं अधिक सूक्ष्म होती है। इसलिए हालाँकि मैं दर्शकों के लिए कहानी को सरल बनाने के प्रयास की सराहना करता हूँ, हमें "इसे बहुत ज्यादा सरल" बनाने की कोशिश नहीं करनी चाहिए। :)

आपके अनुसार किसी देश की AI क्षमता को मापने का बेहतर तरीका क्या है? क्या शीर्ष-उद्धृत पेपरों की संख्या पर्याप्त है, या हमें संकेतों के एक व्यापक समूह को देखना चाहिए? मुझे आपके विचार जानकर खुशी होगी।

शुभकामनाओं सहित, Chandler

पढ़ना जारी रखें

मेरा सफ़र
जुड़ें
भाषा
सेटिंग्स