مع التطور السريع لعلوم وتكنولوجيا الشبكات، أصبح الناس يعتمدون بشكل متزايد على محركات بحث الشبكة، خاصة في القرن الحادي والعشرين عندما تكون موارد الشبكة وفيرة ويتزايد الطلب على معلومات الشبكة، تحتل تكنولوجيا البحث جزءًا مهمًا جدًا من البحث. الإنترنت المرتفعات. في الوقت الحاضر، غالبًا ما يستخدم الأشخاص محركات البحث للبحث عن معلومات متنوعة مثل مواد الوسائط المتعددة وأحدث المعلومات والخرائط.
أولاً: المبادئ الأساسية لمحركات البحث
محرك البحث هو نظام يمكنه الحصول على معلومات صفحة الويب الخاصة بموقع الويب، وإنشاء قاعدة بيانات وتقديم الاستعلامات.
1.1 هيكل محركات البحث
جمع صفحات الويب هو الزحف إلى صفحات الويب من خلال عناكب الويب، والزحف إلى صفحات الويب الأخرى من خلال الروابط الموجودة في كل صفحة ويب. وفي النهاية، يمكن الزحف إلى العديد من صفحات الويب، ويمكن ضغط صفحات الويب هذه وتخزينها في قاعدة المعرفة. سوف تقوم برامج عنكبوت الويب بالزحف بشكل مستمر إلى الويب بالكامل لضمان توقيت المعلومات وفعاليتها.
تهدف المعالجة المسبقة إلى إجراء تحليل الارتباط على صفحات الويب المجمعة، وحساب أهمية صفحة الويب واستخراج الكلمات الرئيسية، وإنشاء قاعدة بيانات فهرس. يجب أن تكون بنية قاعدة البيانات هذه ملائمة للبحث، ويجب أن تكون المعلومات الواردة شاملة قدر الإمكان.
تشير الخدمة إلى تقديم الخدمات للمستخدمين عندما يقوم المستخدم بإدخال كلمة رئيسية، يتم العثور على المعلومات ذات الصلة بسرعة في قاعدة بيانات الفهرس وفقًا للكلمة الرئيسية وإعادتها إلى المستخدم.
1.2 تصنيف محركات البحث
يمكن تقسيم محركات البحث إلى ثلاث فئات: محركات البحث عن النص الكامل، ومحركات بحث الدليل، ومحركات البحث الوصفية.
تستخدم محركات البحث عن النص الكامل عناكب الويب للزحف إلى صفحات الويب المختلفة واستخراج معلوماتها وتخزينها في قاعدة بيانات. وعندما يستخدمها المستخدم، فإنها تطابق الكلمات الرئيسية التي أدخلها المستخدم وتعيد المعلومات إلى المستخدم. هذا هو محرك البحث الأكثر استخدامًا، ويندرج Google وBaidu ضمن هذه الفئة.
تقوم محركات بحث الدليل بتصنيف الموارد التي تم البحث عنها بطريقة معينة، وفي النهاية تقوم ببناء نظام دليل كبير. عندما يقوم المستخدمون بالاستعلام، يمكنهم فتح الدليل وتصفحه طبقة تلو الأخرى، وأخيرًا العثور على المعلومات التي يريدونها، بالمعنى الدقيق للكلمة، محركات بحث الدليل ليس محرك بحث حقيقي. يندرج موقع Yahoo وSina الذي نستخدمه ضمن هذه الفئة.
محرك Metasearch هو محرك يستدعي محركات البحث الأخرى ويمكنه تغطية المزيد من الموارد وتقديم خدمات أكثر شمولاً. الأكثر استخدامًا هي Dogpile و Vivisimo والبحث عن النجوم المحلية.
يمكن استخدام محركات البحث الثلاثة المختلفة المذكورة أعلاه في مواقف مختلفة ولها مزاياها وعيوبها. تُستخدم محركات البحث ذات النص الكامل عمومًا لإجراء عمليات بحث شاملة، وتتمثل مزاياها في توفر كميات كبيرة من المعلومات، والتحديثات في الوقت المناسب، وعدم الحاجة إلى التدخل اليدوي. وتتمثل عيوبها في أنها تعالج كميات كبيرة من المعلومات وتجعل من الصعب تصفية المعلومات. محركات بحث الدليل موجهة في الغالب إلى مواقع الويب، حيث توفر خدمات تصفح الدليل وخدمات الاسترجاع المباشر، وميزتها أن التدخل اليدوي يساعد في تحسين دقة البحث عن المعلومات، ولكن عيوبها هي أنها تتطلب تدخلًا يدويًا، وتكاليف صيانة عالية، وبطيئة. التحديثات، وكمية صغيرة من المعلومات. نظرًا لأن محركات البحث الوصفية يمكنها الاستعلام عن العديد من محركات البحث الأخرى، فهي مناسبة بشكل خاص للمواقف التي تتطلب معدل استدعاء مرتفعًا، ومع ذلك، تختلف الأساليب أو القواعد المحددة حاليًا لإنشاء قواعد بيانات الفهرس وإجراء استرجاع الاستعلام بين محركات البحث المختلفة تأثير الاسترجاع لأدوات البحث التلوي.
ثانيا، العديد من التقنيات الرئيسية لتنفيذ محركات البحث
2.1 العناكب
يمكن تنفيذ عناكب الويب بالطرق التالية:
(١) على أساس الاتساع أولاً. تصل الخوارزمية المستندة إلى العرض أولاً إلى الروابط بالترتيب الذي تمت مواجهتها به. إنها أبسط استراتيجية لجميع عناكب الويب.
(2) على أساس العمق أولا. بناءً على فكرة أولوية العمق، يتم حساب التشابه بين صفحة الويب وموضوع البحث وفقًا للشروط المحددة، ويتم تحديد الرابط ذو التشابه الأعلى للبحث، وفي عملية حساب التشابه، عادةً ما يكون جيب التمام تستخدم للحساب.
(3) بناءً على تقييمات الصفحة. استنادًا إلى تصنيف صفحة الويب، يتم استخدام تصنيف صفحة الويب مع المحتوى لتقييم مجموعة المستندات التي تم البحث عنها، ويتم استخدام النتائج المحسوبة لتحديد الارتباط ذو التصنيف الأعلى ككائن البحث التالي.
(4) إنفوسبايدر. يستخدم InfoSpider جداول الكلمات الرئيسية المتطورة وطرق الشبكة العصبية لحساب تشابه صفحات الويب ذات الصلة بالموضوع، ويحدد الكائن التالي الذي سيتم البحث عنه بناءً على نتائج الحساب للتراجع عن العامل أو تجديده أو البقاء على قيد الحياة بناءً على مستوى طاقته.
2.2 الحكم على أهمية صفحات الويب
هناك طريقتان رئيسيتان للحكم على أهمية صفحات الويب، إحداهما تعتمد على الروابط
الطريقة، والآخر يقوم على التشابه.
يجب أن تكون هناك علاقة تعيين موثوقة بين معلومات الارتباط والكائن المرتبط بناءً على الحساب بناءً على طريقة الارتباط. غالبًا ما يتم استخدام ما يلي أثناء التطبيق:
(1) في الدرجة: عدد صفحات الويب التي تحتوي على أهداف الارتباط التي تشير إلى صفحة الويب هذه؛
(2) خارج الدرجة: عدد روابط صفحات الويب المرتبطة من صفحة الويب هذه؛
(3) تصنيف الصفحة: يشير إلى إمكانية قيام المستخدم بزيارة صفحة الويب في أي وقت.
هذه الطريقة مستخدمة على نطاق واسع وفعالة للغاية.
بالنسبة للحسابات المستندة إلى التشابه، يتم استخدام نموذج مساحة المتجه بشكل عام لتحويل سلسلة الاستعلام والنص إلى متجهات، ثم يتم تقييم التشابه بين النص وسلسلة الاستعلام.
2.3 إنشاء نظام أجهزة محرك البحث
يعد نظام الأجهزة الخاص بمحرك البحث بمثابة العمود الفقري للنظام بأكمله، ومن أجل توفير سرعة استعلام أسرع، يعتمد نظام الأجهزة عمومًا على بنية موزعة يتم توزيعها على خوادم Google حول العالم، كما يتم استخدام التكنولوجيا المتوازية لتسريع عملية البحث سرعة التنفيذ. بالإضافة إلى ذلك، يعد تصميم الأجهزة لقاعدة بيانات الفهرس مهمًا جدًا أيضًا وهو أمر بالغ الأهمية لتحسين سرعة الوصول إلى البيانات.
ثالثا، محرك البحث الاتجاه المضاد للتنمية
وستكون لمحركات البحث في المستقبل الخصائص التالية:
(1) القدرة على جمع كافة المعلومات تقريبًا على الإنترنت؛
(2) يمكن حظر بعض المعلومات غير القانونية؛
(3) تحسين معدل الاستدعاء ومعدل الدقة
(4) لا يمكنه التعرف على مصطلحات البحث النصية فحسب، بل يمكنه أيضًا التعرف على الصور والتسجيلات الصوتية ومقاطع الفيديو وما إلى ذلك؛
(5) تحديث المعلومات بشكل أسرع؛
(6) مقدمة مريحة للاستعلام عبر قواعد البيانات؛
(7) الواجهة التفاعلية ذات طابع إنساني وشخصي؛
(8) يمكن تحقيق البحث الذكي.
(9) سيحقق البحث عبر الهاتف المحمول تقدمًا كبيرًا.
رابعا، ملخص
تشرح هذه المقالة محرك البحث بالتفصيل، وتحلل تنفيذ تقنياته الرئيسية، وتقترح اتجاهات التطوير المستقبلية. ومع تطور التكنولوجيا وتحسين احتياجات الأشخاص، ستصبح محركات البحث أكثر ذكاءً وأكثر كفاءة وعملية.