كيف تحدد محركات البحث ما إذا كان محتوى مقالة الصفحة أصليًا؟

الكاتب：Eve Cole وقت التحديث：2011-06-29 16:44:06

أقوم حاليًا بتشغيل موقع ويب غير رئيسي. تم جمع المحتوى. وكان التضمين جيدًا في البداية، ولكن تم حظره بعد ذلك بوقت قصير. ولم يتم تضمين سوى بضع عشرات من المواقع التي تحتوي على عشرات الآلاف من البيانات في بايدو. بالطبع، أعلم أيضًا أن التجميع طوال الوقت ليس خيارًا، لكن مع محدودية القوى العاملة، من المستحيل إضافتهم واحدًا تلو الآخر، وهو أيضًا غير واقعي. لذلك أردت البحث كيف تحدد محركات البحث ما إذا كانت أصلية أم لا، لكن للأسف لا يوجد الكثير من المحتوى في هذا الجانب. ثم فكرت في الأمر من منظور مهندس بحث، ولم أستطع إلا أن أتصبب عرقًا باردًا، لأنه كان من السهل جدًا تحديد ما إذا كان أصليًا أم لا. سأقوم بتحليلها حسب ترتيب تفكيري كمرجع.

اسمحوا لي أن أستخدم هذه المقالة كمثال للتوضيح. العنوان: شركة Nanhao Beijing Technology Co., Ltd. هي شركة متخصصة في تصنيع أجهزة قراءة المؤشر. المحتوى: يتمتع قارئ المؤشر الذي طورته شركة Nanhao Technology بقراءة سريعة للبطاقات وجودة ممتازة وخدمة جيدة. عنوان شركتنا يقع في XXXX، بكين. جاءت العناكب إلى موقعنا على الويب من خلال نص الارتباط التشعبي وإلى صفحة المقالة هذه من خلال الروابط الموجودة في الموقع. يبدأ تحليل حكم محرك البحث.

1. تحليل العنوان. تحتوي العديد من صفحات الويب الآن على آثار واضحة للتحسين وتحتوي على الكثير من الكلمات الطويلة، ولكن هذه الكلمات الطويلة في الخلف يجب أن تخبر المحرك فقط عن موضوع الصفحة، لأنه في هذه الحالة سيعتقد المحرك أن هناك أيضًا كرر الكثير، ومن الواضح أن هذا نهج غير صحيح. في الواقع، يجب أن تكون هناك وظيفة اعتراض، على سبيل المثال، يتم اعتراض أول 40 حرفًا فقط كمحتوى للتحليل. أخيرًا، من المفترض أن ما يعترضه المحرك هو: Nanhao Beijing Technology Co., Ltd. هو قارئ مؤشر محترف.

أول شيء يجب فعله هو الحكم على ما إذا كان هذا العنوان فريدًا أم لا. لا تقلق، هناك طريقة. نعلم جميعًا أن تصنيف المحرك يعتمد على إدخالات الكلمات، فكيف نحصل على الإدخالات؟ بسيط: إدخالات مصطلح البحث ذات الصلة. كما هو موضح أدناه:

سيقوم المحرك بتحليل ومطابقة العناوين التي تم اعتراضها واحدًا تلو الآخر في قاعدة البيانات الخاصة به وفقًا لمصطلحات البحث ذات الصلة. على سبيل المثال، خذ كلمة "قارئ المؤشر" من العنوان، ثم قم بمطابقتها مع مصطلحات البحث ذات الصلة. إذا كان هذا العنوان موجودًا بالفعل في قاعدة البيانات، فسيتم اعتبار أن هذا العنوان ليس فريدًا، ويجب أن يكون محتوى المقالة كذلك متطابق. إذا تمت مطابقة كلمة قارئ المؤشر، فسيتم اعتراض Nanhao Beijing مرة أخرى، وهكذا، وسيتم تنفيذ المطابقة... حتى يتم تحليل جميع الكلمات الرئيسية التي يعتقد المحرك أن العنوان يحتوي عليها.

هناك نتيجتان نهائيتان للمطابقة للعنوان: أولاً، لا تحتوي قاعدة بيانات العنوان حاليًا على هذا المحتوى، ويجب التحقق من المحتوى. ثانيًا، هذا المحتوى موجود بالفعل في قاعدة بيانات العناوين ويحتاج إلى التحقيق فيه.

2. تحليل المحتوى. يجب أن تكون الفكرة الأساسية مشابهة لتحليل العنوان، ولكن هناك اختلافات، فالمعلومات الواردة في المحتوى أكثر تعقيدًا من العنوان، فهي أكثر تنوعًا وتتطلب خوارزميات أكثر تعقيدًا.

كما ذكرنا من قبل، المحتوى الخاص بنا هو: قارئ المؤشر الذي طورته شركة Nanhao Technology يتمتع بقراءة سريعة للبطاقات وجودة ممتازة وخدمة جيدة. عنوان شركتنا يقع في XXXX، بكين. نظرًا لأن محتوى المقالات بشكل عام طويل جدًا، فمن المستحيل تحليل الكلمات الرئيسية ومطابقتها مع جملة أو فقرة. ومع ذلك، لا يزال يتعين تحليل نطاق المطابقة هذا ومطابقته في قاعدة بيانات المقالة مع مصطلحات البحث ذات الصلة في العنوان.

أولاً، لنتحدث عن طريقة تحليله بشكل عام: اعتراض الحقول الطويلة العشوائية بشكل عشوائي، ثم تحليل المحتوى قبل هذا الحقل وبعده إذا كانت الصفحة الحالية وقاعدة بيانات محتوى المحرك لهما نفس الحقول وكانت الفقرات الأمامية والخلفية أيضًا نفس الشيء، سيتم اعتبار أن هذه المقالة بها سرقة أدبية، والشك في عدم الأصالة. عادةً ما تحتاج عملية التحليل هذه إلى التكرار عدة مرات، إذا قمت بتحليلها 10 مرات، فسيكون هناك نفس المحتوى في قاعدة بيانات المحتوى الموجودة قبل وبعد الحقل الذي تم اعتراضه، بالإضافة إلى أن العنوان هو نفسه في هذه الحالة المادة سوف تعتبر غير أصلية.

دعونا نحاكيها أدناه.

اعترض المحرك لأول مرة "قارئ المؤشر يقرأ البطاقات بسرعة"، ثم جاء إلى قاعدة بيانات المقالات من خلال مصطلحات البحث ذات الصلة، وكان حقل قاعدة البيانات الحالي يسبقه "بحث وتطوير التكنولوجيا"، والمجال الذي بعده كان "الجودة الممتازة". ". تمت مطابقة هذين الحقلين مع صفحتنا الحالية. إذا كان هناك نفس المحتوى، فسيتم تسجيله على أنه 0؛ وإذا لم يكن هناك محتوى مماثل، فسيتم تسجيله على أنه 1. اكتملت مباراة واحدة.

ثم اعترض "عنوان الشركة"، وقم بإجراء العملية، واحصل على نتيجة 0 أو 1 مرة أخرى، وهكذا. حتى اكتمال عدد الدورات المطابقة التي حددها المحرك. إذا قمت بالمطابقة 10 مرات ووجدت نفس المحتوى 7 أو 8 أو 10 مرات، فسيتم اعتبار مقالتك غير أصلية...

للمضي قدمًا، إذا تم تحديد أن هذه مقالة أصلية، فسيقوم المحرك بإجراء عملية +1 على اسم النطاق في قاعدة بيانات وزن اسم المجال الخاص به. ومن الواضح أنه مع نشر المزيد والمزيد من المقالات الأصلية، سيكون الوزن أعلى وأعلى، وسيكون الترتيب أعلى وأفضل. مثل A5، تشيناز.

أريد مطابقة الكلمات الرئيسية بين العنوان والمحتوى، طالما أن هناك ما يكفي من التطابقات وقم بتوسيع نطاق المطابقة لقاعدة البيانات ذات الصلة بجرأة، يمكنني معرفة ما إذا كانت المقالة أصلية أم لا. في الواقع، أصبحت المعالجات اليوم أسرع وأرخص، بالإضافة إلى ذلك، جميع مهندسي محركات البحث حاصلون على تعليم عالٍ، وقد تم تحسين الخوارزميات، وتراكمت الخبرة. تحكم محركات البحث على ما إذا كان المقال أصليًا أم لا، بنفس سهولة تقطيع الملفوف.

لا بأس إذا لم أفكر في الأمر، لكنني صدمت حقًا عندما فكرت في الأمر وتوصلت إلى استنتاج مفاده أن محطة التجميع يجب أن تكون أصلية، أو على الأقل يجب تغيير العنوان. دعونا نلقي نظرة، وإذا كان لدي الوقت، سأشارككم كيفية كتابة مقالات أصلية زائفة لا يمكن تحليلها بواسطة المحركات.

ما ورد أعلاه هو مجرد تحليلي البسيط. إن الخوارزمية الفعلية أكثر تعقيدًا على كل حال ، وهي لأغراض مرجعية فقط! تم تحديث العلاقات العامة للتو 1، QQ: 419844484، يرجى الإشارة إلى رابط الصديق عند إضافة الأصدقاء.

المحرر المسؤول: المساحة الشخصية لمؤلف مشاعر تشين لونغ