먼저 인터넷 관련 소식을 전해드리겠습니다. 첫 번째는 바이두의 웹 검색 점유율이 73.2%에 이르렀다는 것입니다. 바이두는 지난해보다 0.6% 증가한 1,096억 건의 웹 검색 요청을 처리했습니다. 보고서가 공개된 뒤 많은 블로그에서는 이 수치를 근거로 구글이 잘 안 된다며 공격하는 모습이 나타났다.
두 번째 기사를 보면 여전히 같은 데이터인데, 바이두 검색 요청이 0.5%포인트 증가했고, 구글 검색 요청이 3.5%포인트 증가했으며, 구글이 가장 빠르게 성장하는 검색 엔진이 됐다고 나와 있다.
두 뉴스 모두 데이터를 활용해 동일한 데이터지만, 첫 번째 뉴스와 두 번째 뉴스만 보면 도출되는 결론은 전혀 다르다. 역시 시장점유율 자료인 세 번째 기사를 보자. 바이두의 시장점유율은 2.1% 하락했고, 구글은 5.6% 상승했으며, 둘 사이의 격차는 7.7%로 좁혀졌다. 똑같은 몇 가지 뉴스 항목을 보면 모두 검색 엔진 시장 점유율과 관련된 숫자가 표시되지만 검색 엔진 시장에 익숙하지 않은 사람이 보면 결국 매우 혼란스러운 결론에 도달하게 됩니다.
세 개의 뉴스 기사가 동일한 데이터를 인용하면서도 다른 결과를 내놓는 이유는 무엇입니까? 아래에서 Lu Songsong은 데이터 분석 방법에 대한 몇 가지 원칙을 분석합니다.
첫째, 데이터 조각을 분리하여 보는 것은 의미가 없습니다.
위의 논의를 이어가면 첫 번째 뉴스 기사에서 바이두와 구글의 시장점유율 문제가 언급되는데, 바이두의 시장점유율은 0.6% 증가한 것으로 보인다. 이는 자연스럽게 바이두가 증가하고 구글이 감소함을 의미한다. 두 번째 보고서는 좀 더 포괄적인 내용을 담고 있는데, 이는 다른 검색 엔진의 점유율이 감소하는 반면 Google과 Baidu는 성장하고 있으며 Google은 더 빠르게 성장하고 있음을 의미합니다. 이는 숫자를 분리하여 볼 수 없음을 보여줍니다.
예를 들어 소후와 시나를 함께 비교하는 것은 무리일 것입니다. 소후는 온라인 게임, 무선, 광고에 중점을 두는데 비해 시나는 무선과 광고를 위주로 비교하는 것이 더 합리적입니다. 별도로.
둘째, 데이터의 규모는 비교할 수 있어야 합니다.
이 문서의 앞부분에서 언급한 검색 엔진 시장 점유율의 경우 일부는 검색 요청으로 정의되고 일부는 수익으로 정의됩니다. 서로 다른 데이터를 함께 비교하는 것은 의미가 없습니다. 데이터 조각을 자연스럽게 볼 수 없다면 해당 데이터의 정의를 살펴봐야 합니다. 같은 정의를 회사마다 사용해도 결과는 다를 수 있습니다. 중요한 것은 비교할 때 구경의 일관성을 보장해야 한다는 것입니다.
셋째, 데이터 수집방법의 차이
핫 이벤트 보고서 이후의 설문조사는 360 및 QQ 설문조사와 같은 다양한 웹사이트에 자주 게재됩니다. 실제로 결과는 실제 상황을 반영하지 못하는 경우가 많습니다. 왜냐하면 일반적으로 말해서 뉴스에 관심이 있는 사람만이 어떻게 제거할지 표현할 수 있기 때문입니다. 뉴스를 읽으려면 투표하고 투표 결과를 사용하여 전반적인 의견을 대표함으로써 진실을 모르는 다른 그룹의 사람들이 주류 견해를 따르도록 유도할 수 있습니다. 온라인 설문조사의 결과는 제조업체가 자신을 홍보하고 상대방을 비판하는 데 쉽게 사용할 수 있습니다.
따라서 숫자에 대해 여러 가지 질문을 하는 것이 가장 좋습니다. 숫자를 접하게 되면, 우선 그 데이터가 어디서 왔는지, 어떻게 얻어지는지, 그 데이터의 의미와 정의가 무엇인지, 누락된 부분이 있는지 등을 알아야 합니다. 앞선 검색엔진 시장점유율의 예와 마찬가지로, 어느 정도의 점유율과 그 기준이 무엇인지 이해한 후에야 올바른 결론을 내릴 수 있습니다.
원본 기사의 경우 Lu Songsong 블로그에서 재인쇄되었음을 명시해 주세요.
기여해주신 Lu Songsong에게 감사드립니다.