미국 vs 중국: AI 연구에서 누가 앞서고 있습니까?
두 건의 주요 분석이 미국 대 중국 AI 리더십에 대해 정반대의 결론에 도달했습니다—하지만 완전히 다른 것을 측정했습니다. 왜 둘 다 옳을 수 있는지 설명합니다.
최근 매우 다른 헤드라인과 결론을 가진 두 개의 기사를 접했습니다:
- 중국이 AI 연구 산출량과 품질에서 미국을 압도. Nikkei 기자 Kotaro Fukuoka, Shunsuke Tabeta, Akira Okikawa가 작성했습니다.
- 필독: 2022년 가장 많이 인용된 AI 논문 100편 by Zeta Alpha. 이 기사에서는 "최고 인용 논문의 출처를 보면(그림 1), 미국이 계속 지배적이며 주요 강국 간의 차이는 매년 약간만 변합니다."라고 썼습니다.
- 이 기사의 결론 중 하나는 "중국이 AI R&D에서 미국을 추월했을 수 있다는 이전 보고서(Nikkei 기사 링크)는 인용 관점에서 보면 상당히 과장된 것으로 보입니다."라는 것입니다.
당연히 호기심이 생겼습니다. Nikkei는 신뢰할 수 있는 언론사이고, 일본은 미국의 군사 동맹국입니다. 다시 말해, Nikkei는 중국에 유리하게 "진실을 왜곡"할 인센티브가 거의 없습니다. 그래서 더 깊이 파보기로 했습니다.
결과적으로, 둘 다 동시에 맞을 수 있다는 것을 알기 위해 그렇게 깊이 파볼 필요가 없었습니다. 그들이 서로 다른 방법론을 사용하여 결론을 도출했기 때문입니다. Zeta Alpha가 나중에 기사를 발표하고 Nikkei 기사를 인용한 점을 고려하면, Zeta Alpha는 기사에서 방법론의 차이를 직접적으로 강조해야 했습니다. 독자들이 스스로 판단하도록 해야 했습니다.
서로 다른 방법론
Nikkei 방법론
Zeta Alpha 방법론
Nikkei는 네덜란드 과학 출판사 Elsevier와 협력하여 AI에 관한 학술 및 학회 논문을 검토했으며, 약 800개의 AI 관련 키워드를 사용하여 논문을 선별했습니다.
위의 분석을 작성하기 위해, 먼저 Zeta Alpha 플랫폼에서 연도별 가장 많이 인용된 논문을 수집한 다음, 최초 발표 날짜를 수동으로 확인하여 올바른 연도에 배치했습니다. Semantic Scholar에서 더 넓은 범위와 인용 수 정렬 기능을 활용하여 높은 인용 AI 논문을 추가로 발굴하여 이 목록을 보완했습니다. 그런 다음 각 논문에 대해 Google Scholar의 인용 수를 대표 지표로 사용하고 이 숫자로 정렬하여 연도별 상위 100편을 도출합니다.
양적으로 보면, AI 논문의 수는 2012년 약 25,000편에서 2021년 약 135,000편으로 폭발적으로 증가했습니다.
Zeta Alpha 기사는 매년 상위 100편의 논문만 집중합니다
Nikkei와 Zeta Alpha 모두 인용을 논문 품질의 지표로 사용합니다.
하지만 첫 번째 큰 차이점은 Nikkei가 결론을 도출하기 위해 Zeta Alpha보다 훨씬 더 많은 수의 AI 논문을 살펴본다는 것입니다. Nikkei가 "2021년에 중국이 가장 많이 인용된 논문 중 7,401편을 차지하여 미국의 수를 약 70% 앞섰다"라고 쓸 때, 이들은 상위 10%의 논문을 언급했으므로, 기본적으로 2021년 약 135,000편의 AI 논문 중 상위 10%인 약 13,500편의 논문을 말합니다.
Zeta Alpha 기사의 모든 분석은 매년 인용 기준 상위 100편의 논문만을 대상으로 합니다.
따라서 이것은 전혀 동일 비교가 아닙니다.
Nikkei와 Zeta Alpha 중 어느 방법이 더 나은가?
저는 AI 분야에 깊은 배경이 없어서 어느 방법론이 더 나은지 자신 있게 말할 수 없습니다. 다만 서로 다르다는 것은 알고 있습니다.
이 질문에 답하려면 다음이 필요하다고 생각합니다:
- 먼저, "더 낫다"를 평가하기 위해 어떤 기준을 사용하는지 정의해야 합니다.
- 더 많은 수의 논문을 다루면 샘플 크기가 훨씬 크고 AI 내의 더 많은 니치 분야를 포괄합니다.
- 상위 100편에 집중하는 것은 대부분의 상업적 또는 전략적 가치가 시간이 지남에 따라 상위 소수의 논문/소유자에게 귀속될 것이라고 생각한다면 의미가 있을 수 있습니다. 하지만 Zeta Alpha가 이 분석을 했다고는 생각하지 않습니다.
- 둘째, 인용만이 아닌 각 논문의 가치나 영향력을 정량화하는 더 나은 방법을 찾아야 합니다. 인용을 사용하는 것이 품질을 평가하는 조잡한 방법이라는 것은 알지만, 그것이 최선의 방법입니까?
- 셋째, 한 국가의 AI 역량과 특정 연도에 상위 100편 또는 상위 1000편 인용 논문 중 해당 국가가 차지하는 비율 간의 관계는 무엇입니까?
- 예를 들어, 군사적 및 높은 상업적 가치를 가진 가장 첨단 연구 중 일부는 연구소가 공개하지 않는다는 것은 확실합니다. 왜 다른 사람들이 배우도록 공개하여 경쟁자들이 격차를 좁히도록 돕겠습니까?
- 더 계속할 수 있지만, 제 요지는 이해하셨으리라 생각합니다
의문스러운 결론/헤드라인
OpenAI는 출판물을 절대적인 블록버스터로 전환하는 데 독보적인 수준입니다
Zeta Alpha는 다음과 같이 작성했습니다: "출판 볼륨에서 상위 20위에 OpenAI나 DeepMind는 보이지 않을 것입니다. 이 기관들은 더 적게 출판하지만 더 높은 영향력을 가집니다." 그리고 "이제 OpenAI가 출판물을 절대적인 블록버스터로 전환하는 데 독보적인 수준에 있다는 것을 알 수 있습니다."
왜 이 "전환율"이 중요한지 살펴보아야 합니까? 그것은 무엇을 의미합니까? 데이터를 해석하는 간단한 한 가지 방법은:
- OpenAI 연구는 AI의 매우 좁은 분야에 집중하며, 매우 제한된 수의 논문을 공개합니다.
- Google이나 Meta 및 다른 회사들은 AI에 대한 폭넓은 관심을 가지고 있으며, 동시에 많은 다양한 분야를 연구하고 있습니다. 그리고 더 많이 공개합니다.
- 이것은 OpenAI가 출판물을 블록버스터로 전환하는 데 뛰어나다는 것과 아무 관련이 없습니다.
어느 방식이 더 나은지? 저는 잘 모르겠습니다
미국이 AI 연구 논문을 지배합니다
이 결론은 아래 두 가지 주요 데이터 포인트에 기반합니다
위에서 언급했듯이, 상위 100편(또는 1000편이든 어떤 수든) 인용 AI 논문에서 강한 존재감을 갖는 것이 해당 국가의 AI 분야 강점에 대한 신호라는 데 동의하지만, 그것이 유일한 신호가 되어서는 안 된다고 생각합니다. 그 결론을 도출하기 위한 데이터 포인트 또는 신호의 모음이 있어야 합니다.
또한 왜 상위 100편이고 상위 1000편이 아닌가? Zeta Alpha의 방법론이 수동 확인을 포함하므로 상위 100편만 다룰 수 있었기 때문인가?
결론
이것은 실제 상황이 일부 헤드라인이 나타내는 것보다 훨씬 더 미묘한 또 다른 예시입니다. 따라서 독자를 위해 이야기를 단순화하려는 노력은 감사하지만, "너무 많이 단순화"하려고 해서는 안 됩니다 :)
한 국가의 AI 역량을 측정하는 더 좋은 방법은 무엇이라고 생각하십니까? 최고 인용 논문의 수만으로 충분한가요, 아니면 더 넓은 범위의 신호를 봐야 합니까? 여러분의 생각을 듣고 싶습니다.
감사합니다,
Chandler








