まず、インターネットに関するニュースをいくつか紹介します。1 つ目は、Baidu の Web 検索シェアが 1,096 億件の Web 検索リクエストを処理し、前年比 0.6 ポイント増加したことです。この報告書が発表された後、多くのブログがこの数字に基づいてGoogleの業績が良くないとして攻撃したようだ。
2 番目の記事を見ると、依然として同じデータですが、Baidu の検索リクエストが 0.5 パーセント ポイント増加し、Google の検索リクエストが 3.5 パーセント ポイント増加し、Google が最も急成長している検索エンジンになったと記載されています。
どちらのニュースもデータを使っており、同じデータですが、1つ目と2つ目のニュースだけを見ると、導き出される結論は全く異なります。 3 番目の記事を見てみましょう。これも市場シェアに関するデータです。Baidu の市場シェアは 2.1% 減少し、Google は 5.6% 増加し、両者の差は 7.7% に縮まりました。同じいくつかのニュース項目を見ると、それらはすべて検索エンジン市場シェアに関連する数字を示しています。しかし、検索エンジン市場に詳しくない人がそれを見ると、最終的には非常に混乱した結論に達するでしょう。
3 つのニュース記事が同じデータを引用しているのに、異なる結果が得られるのはなぜですか?以下では、Lu Songsong がデータ分析方法に関するいくつかの原則を分析します。
まず、データを個別に見ても意味がありません。
上記の議論の続きとして、Baidu と Google の市場シェアの問題について、最初のニュース記事で Baidu の市場シェアが 0.6% 増加しているように見えますが、これは当然、Baidu が増加し、Google が減少していることを意味します。 2 番目のレポートはより包括的なもので、他の検索エンジンのシェアが低下している一方で、Google と Baidu が成長しており、Google の成長が加速していることを意味しています。これは、数値を単独で見ることができないことを示しています。
例えば、捜狐と新浪がオンラインゲーム、無線、広告を主力としているのに対し、新浪は3:2という比率で比較するのは明らかに無理がある。別途ご連絡いたします。
第二に、データの規模が同等である必要があります。
この記事で前述した検索エンジンの市場シェアの例では、検索リクエストによって定義されるものもあれば、収益によって定義されるものもあります。異なるデータを一緒に比較することは意味がありません。データの一部が自然に見えない場合は、その定義を確認する必要があります。たとえ同じ定義を企業が使用していても、結果は異なります。重要なことは、比較する際に口径が一貫していることを確認する必要があるということです。
第三に、データ収集方法の違い
注目のイベントのレポート後の調査は、アンインストールする人を選択する 360 調査や QQ 調査など、さまざまな Web サイトに掲載されることがよくありますが、一般的に言って、そのニュースに関心がある人だけがどのように表現できるかが原因で、実際には結果が現実の状況を反映していないことがよくあります。ニュースを読んで投票し、その投票結果を全体的な意見を代表するために利用することで、真実を知らない他のグループが主流の意見に従うように誘導することができます。オンライン調査の結果は、メーカーが自社を宣伝したり、競合他社を批判したりするために簡単に使用できます。
したがって、1 つの数字についていくつかの質問をするのが最善です。数字に遭遇したときは、そのデータがどこから来たのか、どのように取得されたのか、データの意味や定義は何か、漏れはないかをまず知る必要があります。先ほどの検索エンジンの市場シェアの例と同様に、それがどのシェアであり、その基準は何であるかを理解した後でのみ、正しい結論を導き出すことができます。
オリジナル記事の場合は、Lu Songsong のブログからの転載であることを明記してください
Lu Songsong 氏の貢献に感謝します