اسمحوا لي أولاً أن أعرض لكم بعض الأخبار حول الإنترنت. الأول هو أن حصة البحث على الويب في Baidu وصلت إلى 73.2%، وقد عالجت Baidu 109.6 مليار طلب بحث على الويب، بزيادة قدرها 0.6 نقطة مئوية مقارنة بالعام الماضي. وبعد صدور التقرير، بدا أن العديد من المدونات تهاجم شركة جوجل بناءً على هذا الرقم، قائلين إنها لا تعمل بشكل جيد.
وبالنظر إلى المقالة الثانية، لا تزال نفس البيانات يذكر أن طلبات بحث بايدو زادت بنسبة 0.5 نقطة مئوية، وزادت طلبات بحث جوجل بنسبة 3.5 نقطة مئوية، وأصبح جوجل محرك البحث الأسرع نموًا.
كلا الخبرين يستخدمان بيانات، وهي نفس البيانات، لكن إذا نظرت فقط إلى الخبر الأول والثاني، فإن الاستنتاجات المستخلصة مختلفة تماما. دعونا نلقي نظرة على المقالة الثالثة، والتي تتعلق أيضًا ببيانات الحصة السوقية، حيث انخفضت حصة بايدو في السوق بنسبة 2.1%، وارتفعت حصة جوجل بنسبة 5.6%، وضاقت الفجوة بين الاثنين إلى 7.7%. عند النظر إلى نفس العناصر الإخبارية القليلة، تظهر جميعها أرقامًا تتعلق بحصة سوق محركات البحث، ولكن إذا شاهدها شخص ليس على دراية بسوق محركات البحث، فسوف يصل في النهاية إلى نتيجة محيرة للغاية.
لماذا تقتبس ثلاث مقالات إخبارية نفس البيانات ولكنها تأتي بنتائج مختلفة؟ أدناه، سيقوم Lu Songsong بتحليل عدة مبادئ حول كيفية تحليل البيانات.
أولاً، لا معنى للنظر إلى جزء من البيانات بمعزل عن غيرها.
استمرارًا للمناقشة أعلاه، تم ذكر مسألة الحصة السوقية بين بايدو وجوجل في المقال الإخباري الأول حيث زادت حصة بايدو في السوق بنسبة 0.6%، ويبدو أن بايدو آخذة في الازدياد، مما يعني بطبيعة الحال أن بايدو في ازدياد وجوجل في انخفاض. التقرير الثاني أكثر شمولا، ويعني أن حصص محركات البحث الأخرى آخذة في الانخفاض، في حين أن جوجل وبايدو تنموان، وجوجل ينمو بشكل أسرع. وهذا يدل على أنه لا يمكننا النظر إلى رقم بمعزل عن الآخر.
على سبيل المثال، سيكون من غير المعقول مقارنة Sohu وSina معًا. فشركة Sohu لديها ألعاب عبر الإنترنت، وأجهزة لاسلكية، وإعلانات، بينما تركز Sina بشكل أساسي على الاتصالات اللاسلكية والإعلانات، ومن الواضح أن المقارنة بينهما غير معقولة بشكل منفصل.
ثانياً، يجب أن يكون حجم البيانات قابلاً للمقارنة.
بالنسبة لأمثلة الحصة السوقية لمحركات البحث المذكورة سابقًا في هذه المقالة، يتم تحديد بعضها من خلال طلبات البحث، ويتم تحديد بعضها من خلال الإيرادات، وليس من المنطقي مقارنة البيانات المختلفة معًا. إذا لم يكن من الممكن رؤية جزء من البيانات بشكل طبيعي، فيجب عليك النظر في تعريفها. وحتى لو تم استخدام نفس التعريف من قبل شركات مختلفة، فإن النتائج ستكون مختلفة. المهم هو أنه يجب علينا التأكد من ثبات العيار عند المقارنة.
ثالثا، الاختلافات في أساليب جمع البيانات
غالبًا ما تظهر الاستطلاعات بعد تقارير الأحداث الساخنة على مواقع الويب المختلفة، مثل استطلاعات 360 وQQ حول من يختار إلغاء التثبيت. في الواقع، لا يمكن للنتائج في كثير من الأحيان أن تعكس الوضع الحقيقي، لأنه بشكل عام، لا يمكن التعبير عن كيفية ذلك إلا للأشخاص الذين يهتمون بالأخبار لقراءة الأخبار، تعالوا للتصويت واستخدموا نتائج تصويتهم لتمثيل الآراء العامة، وبالتالي توجيه مجموعة أخرى من الأشخاص الذين لا يعرفون الحقيقة لاتباع وجهات النظر السائدة. يمكن للمصنعين بسهولة استخدام نتائج الاستطلاعات عبر الإنترنت للترويج لأنفسهم وانتقاد خصومهم.
لذلك، من الأفضل طرح عدة أسئلة حول الرقم. عندما تواجه رقمًا، فمن الأفضل عدم استخدامه مباشرة، أولاً وقبل كل شيء، يجب أن تعرف من أين تأتي البيانات، وكيف يتم الحصول عليها، وما معنى البيانات وتعريفها، وما إذا كان هناك أي إغفالات. تمامًا مثل المثال السابق لحصة سوق محركات البحث، لا يمكنك استخلاص الاستنتاج الصحيح إلا بعد فهم ماهية الحصة وما هي المعايير.
بالنسبة للمقالات الأصلية، يرجى الإشارة إلى أنه تمت إعادة طباعتها من مدونة Lu Songsong
بفضل لو Songsong لمساهمته