هذا هو المشروع الذي أعمل عليه الآن، وأحاول تجميع قائمة من الأسئلة والأجوبة لمقابلات الذكاء الاصطناعي التوليدي.
أنا أستخدم هذا المرجع كقاعدة، والفضل لهم في تجميعه، ومع ذلك، فأنا أتمتع بالكثير من الحرية في تحرير الأسئلة، وكذلك الإجابات، فهي خاصة بي تمامًا.
ملحوظة: أحاول تقليل الإجابات التي أكتبها بنفسي إلى الحد الأدنى، لأنني لا أمثل بأي حال من الأحوال مصدرًا موثوقًا في هذا الموضوع. سأقدم مراجع بأفضل ما في وسعي. لقد امتنعت عن إضافة أي نوع من المساعدات البصرية لسهولة القراءة وللحفاظ على تعقيد الصيانة إلى الحد الأدنى. تحتوي المصادر والمراجع التي أستشهد بها على ثروة من المعلومات، معظمها صورية.
أخطط لتوسيع نطاق هذا ليشمل الذكاء الاصطناعي التوليدي بشكل عام، وليس فقط للغة، حيث يغطي كل شيء بدءًا من نماذج الانتشار وحتى نماذج لغة الرؤية. بمجرد الانتهاء من الهيكل الأساسي وسأكون سعيدًا بالنتائج الأولية، سأعمل على إنشاء منهجية فعالة للمساهمة في هذا المستودع، وبعد ذلك سأفتحه للمساهمات، لكن في الوقت الحالي، أريد الاحتفاظ به بسيطة ومركزة.
مهم:
أعتقد أنه قد يكون من الضروري توضيح أن الإجابات التي أقدمها، بغض النظر عما إذا كانت كتابتي الخاصة أو إذا كنت أستشهد بمصدر، ليست بأي شكل من الأشكال أو شكل نهائي، ما أحاول القيام به هو مساعدتك على البدء على الطريق الصحيح، وأعطيك فكرة عامة عما يمكن توقعه، يجب عليك بالتأكيد قراءة جميع الموارد التي أقدمها، ثم بعضها. إذا كنت تريد أن تكون هذه محطتك الأخيرة، فهذا هو المكان الخطأ بالنسبة لك. هذا هو المكان الذي يبدأ.
وأيضًا، إذا كنت قد بدأت للتو، فنصيحتي الوحيدة هي:
احصل على راحة في قراءة الأوراق، لأنها لا تنتهي أبدًا .
ورقة عن كيفية قراءة ورقة: كيفية قراءة ورقة
1. ماجستير في القانون وأساسيات المطالبة
2. الجيل المعزز للاسترجاع (RAG)
3. استراتيجيات التقطيع
4. تضمين النماذج للاسترجاع
5. استرجاع المتجهات وقواعد البيانات والفهارس
6. خوارزميات البحث المتقدم
7. الأعمال الداخلية لنموذج اللغة
لنفكر في مجموعة بيانات، حيث تمثل كل نقطة بيانات قطة. دعنا ننتقل إلى كل نوع من النماذج، ونرى كيف تختلف:
دعونا نبني تعريف نموذج اللغة الكبير (LLM) من الألف إلى الياء:
مزيد من القراءة: الزحف المشترك
غالبًا ما يتم تدريب نماذج اللغة الكبيرة على مراحل متعددة، وغالبًا ما تسمى هذه المراحل بالتدريب المسبق والضبط الدقيق والمحاذاة.
الغرض من هذه المرحلة هو تعريض النموذج للغة بأكملها ، بطريقة غير خاضعة للرقابة، وغالبًا ما يكون ذلك الجزء الأكثر تكلفة في التدريب، ويتطلب الكثير من العمليات الحسابية. غالبًا ما يتم التدريب المسبق على شيء مثل مجموعة بيانات Common Crawl، وغالبًا ما يتم استخدام الإصدارات المعالجة من مجموعة البيانات مثل FineWeb وRedPajama للتدريب المسبق. لتسهيل هذا النوع الواسع من التعلم، توجد مهام تدريبية متعددة يمكننا استخدامها، مثل نمذجة اللغة المقنعة (MLM)، والتنبؤ بالجمل التالية (NSP)، والمزيد.
تعتمد نمذجة لغة الأقنعة على اختبار Cloze، حيث نقوم بإخفاء كلمة في جملة، ونطلب من النموذج التنبؤ بها. على غرار ملء الاختبار الفارغ. وهو يختلف عن مطالبة النموذج بالتنبؤ بالكلمة التالية في الجملة، حيث يتطلب من النموذج فهم سياق الجملة، وليس فقط تسلسل الكلمات.
التنبؤ بالجملة التالية هي مهمة يتم فيها إعطاء النموذج جملتين، وعليه التنبؤ بما إذا كانت الجملة الثانية تتبع الجملة الأولى. وبقدر ما يبدو الأمر بسيطًا، فإنه يتطلب من النموذج فهم سياق الجملة الأولى، والعلاقة بين الجملتين.
من المصادر الممتازة لمعرفة المزيد حول هذه المهام ورقة BERT.
هذه المرحلة أبسط بكثير من التدريب المسبق، حيث أن النموذج قد تعلم بالفعل الكثير عن اللغة، والآن نحتاج فقط إلى تعليمه حول مهمة محددة. كل ما نحتاجه في هذه المرحلة هو البيانات المدخلة (المطالبات) والتسميات (الاستجابات).
غالبًا ما تكون هذه المرحلة هي المرحلة الأكثر أهمية وتعقيدًا، فهي تتطلب استخدام نماذج مكافأة منفصلة، واستخدام نماذج تعليمية مختلفة مثل التعلم المعزز، والمزيد.
تهدف هذه المرحلة بشكل أساسي إلى مواءمة تنبؤات النموذج مع تفضيلات الإنسان. غالبًا ما تتشابك هذه المرحلة مع مرحلة الضبط الدقيق. القراءة الأساسية لهذه المرحلة هي ورقة InstructGPT، حيث قدمت هذه الورقة مفهوم التعلم المعزز من ردود الفعل البشرية (RLHF) الذي يستخدم تحسين السياسة القريبة.
تتضمن الطرق الأخرى لمواءمة تنبؤات النموذج مع التفضيلات البشرية ما يلي:
الرموز هي أصغر وحدة نصية يمكن للنموذج فهمها، ويمكن أن تكون كلمات أو كلمات فرعية أو أحرف.
تعتبر أدوات الرموز المميزة مسؤولة عن تحويل النص إلى رموز مميزة، ويمكن أن تكون بسيطة مثل تقسيم النص بمسافات، أو معقدة مثل استخدام الرموز المميزة للكلمات الفرعية. يمكن أن يكون لاختيار أداة الرمز تأثير كبير على أداء النموذج، حيث يمكن أن يؤثر على قدرة النموذج على فهم سياق النص.
تتضمن بعض الرموز المميزة الشائعة ما يلي:
القراءة الموصى بها (والمشاهدة):
هذا سؤال مشحون للغاية، ولكن إليك بعض الموارد لاستكشاف هذا الموضوع بشكل أكبر:
تشمل المعلمات:
يمكن ضبط كل من هذه المعلمات لتحسين أداء النموذج وجودة النص الذي تم إنشاؤه.
القراءة الموصى بها:
تُستخدم استراتيجيات فك التشفير لاختيار الرمز المميز التالي في التسلسل، ويمكن أن تتراوح من فك التشفير البسيط إلى استراتيجيات أخذ العينات الأكثر تعقيدًا.
تتضمن بعض استراتيجيات فك التشفير الشائعة ما يلي:
تتضمن استراتيجيات فك التشفير الأحدث فك التشفير التخميني (فك التشفير المساعد) وهو مفهوم جامح، فهو يتضمن استخدام الرموز المميزة من نموذج أصغر (وبالتالي أسرع) لتوليد استجابة من نموذج أكبر بسرعة كبيرة.
القراءة الموصى بها:
في عملية فك التشفير، تقوم LLMs بإنشاء نص رمزي واحد في كل مرة. هناك العديد من معايير التوقف التي يمكن استخدامها لتحديد متى يتم إيقاف إنشاء النص. تتضمن بعض معايير التوقف الشائعة ما يلي:
A prompt contains any of the following elements:
Instruction - a specific task or instruction you want the model to perform
Context - external information or additional context that can steer the model to better responses
Input Data - the input or question that we are interested to find a response for
Output Indicator - the type or format of the output.
المرجع: الدليل الهندسي الفوري
القراءة الموصى بها:
المرجع: الدليل الهندسي الفوري
القراءة الموصى بها:
يعد التعلم في السياق نموذجًا تعليميًا بديهيًا وسهل الفهم في معالجة اللغات الطبيعية. وهو يشمل مفاهيم مثل التعلم بعدد قليل من اللقطات. يمكن أن يكون الأمر سهلاً مثل تقديم بعض الأمثلة للمهمة التي تريد أن يؤديها النموذج، وسيتعلم النموذج من تلك الأمثلة ويولد الاستجابات وفقًا لذلك.
القراءة الموصى بها:
لقد ثبت أن التعلم في السياق لا يمكن أن يظهر إلا عندما يتم قياس النماذج إلى حجم معين، وعندما يتم تدريب النماذج على مجموعة متنوعة من المهام. يمكن أن يفشل التعلم في السياق عندما يكون النموذج غير قادر على أداء مهام التفكير المعقدة.
القراءة الموصى بها:
هذا سؤال واسع جدًا، ولكن ما يلي سيساعدك على تكوين فهم أساسي لكيفية تصميم المطالبات لمهمة محددة:
وبدلاً من ذلك، تبحث اتجاهات البحث الأحدث في استخدام طريقة خوارزمية لتحسين المطالبات، وقد تم استكشاف ذلك على نطاق واسع في حزمة DSPy، التي توفر الوسائل للقيام بذلك، ويتم نشر أعمالهم أيضًا في هذه الورقة.
لا يوجد إجابة لهذا السؤال، وأضعه كذريعة لربط هذا المرجع:
هناك طرق متعددة للحصول على LLMs لإنشاء مخرجات منظمة قابلة للتحليل في كل مرة، وتعتمد الطرق الشائعة على مفهوم استدعاء الوظائف في LLMs.
القراءة والعرض الموصى بها:
The term describes when LLMs produce text that is incorrect, makes no sense, or is unrelated to reality
المرجع: الهلوسة LLM - الأنواع والأسباب والحلول بواسطة Nexla
القراءة الموصى بها:
من المعروف أن مفهوم سلسلة الأفكار يعزز قدرات التفكير في ماجستير إدارة الأعمال. تتضمن هذه التقنية تقسيم المهمة المعقدة إلى سلسلة من المهام الأبسط، وتزويد النموذج بالمخرجات الوسيطة لكل مهمة لتوجيهه نحو المخرج النهائي.
القراءة الموصى بها:
يعد الجيل المعزز للاسترجاع (RAG) نمط تصميم شائع لتأسيس إجابات LLM على الحقائق. تتضمن هذه التقنية استرداد المعلومات ذات الصلة من قاعدة المعرفة واستخدامها لتوجيه عملية إنشاء النص بواسطة LLM.
القراءة الموصى بها:
يتكون الجيل المعزز للاسترجاع (RAG) من مكونين رئيسيين:
الحدس وراء RAG هو أنه من خلال الجمع بين نقاط القوة في النماذج القائمة على الاسترجاع والنماذج القائمة على الأجيال، يمكننا إنشاء نظام قادر على توليد نص يرتكز على الحقائق، وبالتالي الحد من الهلوسة.
غالبًا ما يكون RAG هو الأسلوب المتبع للإجابة على الأسئلة المعقدة بناءً على قاعدة المعرفة، لأنه يسمح للنموذج بالاستفادة من المعلومات الخارجية لتقديم إجابات أكثر دقة وغنية بالمعلومات. ليس من الممكن دائمًا تحسين نموذج البيانات الخاصة، ويوفر RAG طريقة لدمج المعرفة الخارجية دون الحاجة إلى الضبط الدقيق.
الحل الكامل الذي يستخدم RAG للإجابة على سؤال معقد بناءً على قاعدة معرفية سيتضمن الخطوات التالية:
هذا سؤال مشحون للغاية، ولكن إليك بعض الموارد لاستكشاف هذا الموضوع بشكل أكبر:
تقطيع النص هو عملية تقسيم جزء كبير من النص إلى أجزاء أصغر وأكثر قابلية للإدارة. في سياق أنظمة RAG، يعد التقطيع مهمًا لأنه يسمح لمكون المسترد باسترجاع المعلومات ذات الصلة بكفاءة من قاعدة المعرفة. ومن خلال تقسيم الاستعلام إلى أجزاء أصغر، يستطيع المسترد التركيز على استرجاع المعلومات ذات الصلة بكل جزء، مما قد يؤدي إلى تحسين دقة وكفاءة عملية الاسترجاع.
أثناء التدريب على نماذج التضمين، والتي تستخدم غالبًا كمسترجعات، يتم استخدام أزواج النص الإيجابية والسلبية للإشارة إلى أجزاء النص التي تتوافق مع بعضها البعض، وتشمل الأمثلة العناوين والرؤوس والعناوين الفرعية في صفحة ويكيبيديا والفقرات المقابلة لها ومشاركات reddit وأفضل التعليقات التي تم التصويت عليها، وما إلى ذلك.
غالبًا ما يتم تضمين استعلام المستخدم، ويتم الاستعلام عن الفهرس، إذا كان الفهرس يحتوي على مستندات كاملة مضمنة بداخله ليتم الاستعلام عنها للحصول على نتائج top-k، فلن يتمكن المسترد من إرجاع المعلومات الأكثر صلة، مثل المستندات التي سيتم الاستعلام عنها سيكون كبيرًا جدًا بحيث لا يمكن فهمه.
للتلخيص، نقوم بتقطيع النص للأسباب التالية:
لنفترض أن لدينا كتابًا يحتوي على 24 فصلًا، بإجمالي 240 صفحة. وهذا يعني أن كل فصل يحتوي على 10 صفحات، وكل صفحة تحتوي على 3 فقرات. لنفترض أن كل فقرة تحتوي على 5 جمل، وكل جملة تحتوي على 10 كلمات. في المجمل لدينا: 10*5*3*10 = 1500 كلمة لكل فصل. لدينا أيضًا 1500 * 24 = 36000 كلمة في الكتاب بأكمله. من أجل التبسيط، رمزنا المميز هو رمز مميز للمساحة البيضاء، وكل كلمة هي رمز مميز.
نحن نعلم أنه على الأكثر لدينا نموذج تضمين قادر على تضمين 8192 رمزًا مميزًا:
كل هذا لتوضيح أنه لا توجد طريقة ثابتة لتقسيم النص، وأفضل طريقة لتقسيم النص هي التجربة ومعرفة ما هو الأفضل لحالة الاستخدام الخاصة بك.
أحد المصادر الموثوقة حول هذا الموضوع هو المفكرة الممتازة والفيديو المصاحب لـ Greg Kamradt، حيث يشرحون المستويات المختلفة لتقسيم النص.
يتناول دفتر الملاحظات أيضًا طرقًا لتقييم وتصور المستويات المختلفة لتقسيم النص وكيفية استخدامها في نظام الاسترجاع.
المشاهدة الموصى بها:
التضمين المتجهي هو تعيين دلالات نصية في مساحة ذات أبعاد N حيث تمثل المتجهات النص، داخل مساحة المتجهات، يتم تمثيل النص المماثل بواسطة ناقلات مماثلة.
القراءة الموصى بها:
نماذج التضمين هي نماذج لغة تم تدريبها بغرض توجيه النص، وغالبًا ما تكون مشتقات من BERT، ويتم تدريبها على مجموعة كبيرة من النص لتعلم دلالات النص، ومع ذلك تظهر الاتجاهات الحديثة أيضًا أنه من الممكن استخدام نماذج لغوية أكبر بكثير لهذا الغرض مثل ميسترال أو اللاما.
القراءة والعرض الموصى بها:
غالبًا ما تستخدم نماذج التضمين كمسترجعات، للاستفادة من قدرات الاسترجاع الخاصة بها، يتم استخدام التشابه النصي الدلالي حيث يتم قياس التشابه في المتجهات التي تنتجها النماذج باستخدام مقاييس مثل منتج النقطة، وتشابه جيب التمام، وما إلى ذلك.
القراءة الموصى بها:
يتم تدريب نماذج التضمين على فقدان التباين، بدءًا من فقدان التباين البسيط وحتى وظائف الخسارة الأكثر تعقيدًا مثل InfoNCE وخسارة التصنيف السلبي المتعددة. يتم أيضًا استخدام عملية تُعرف باسم التعدين السلبي الصعب أثناء التدريب أيضًا.
القراءة الموصى بها:
التعلم التقابلي هو أسلوب يستخدم لتدريب نماذج التضمين، وهو يتضمن تعلم التمييز بين أزواج النص الإيجابية والسلبية. تم تدريب النموذج لتعظيم التشابه بين الأزواج الموجبة وتقليل التشابه بين الأزواج السالبة.
القراءة الموصى بها:
تعد أجهزة التشفير المتقاطعة وأجهزة التشفير الثنائية نوعين من النماذج المستخدمة لمهام استرجاع النص. والفرق الرئيسي بين الاثنين هو كيفية تشفير الاستعلام والمستند.
عادةً ما تكون أدوات إعادة الترتيب عبارة عن أدوات تشفير متقاطعة، حيث تقوم بتشفير الاستعلام والمستند معًا، وتحسب التشابه بين الاثنين. وهذا يسمح لهم بالتقاط التفاعل بين الاستعلام والمستند، وتحقيق نتائج أفضل من أجهزة التشفير الثنائية على حساب التعقيد الحسابي الأعلى بكثير.
عادةً ما تكون نماذج تضمين النص عبارة عن أجهزة تشفير ثنائية، حيث تقوم بتشفير الاستعلام والمستند بشكل منفصل، وتحسب التشابه بين التضمينين. وهذا يتيح لهم أن يكونوا أكثر كفاءة من الناحية الحسابية من أجهزة التشفير المتقاطعة، لكنهم غير قادرين على التقاط التفاعل الواضح بين الاستعلام والمستند.
غالبًا ما تكون التمثيلات الكثيفة ذات المتجهات الفردية هي القاعدة في نماذج تضمين النص، ويتم إنتاجها عادةً عن طريق تجميع التضمينات السياقية بعد تمرير للأمام من النموذج، وتتضمن تقنيات التجميع التجميع المتوسط والتجميع الأقصى وتجميع الرموز المميزة لـ CLS. الحدس وراء التمثيلات الكثيفة ذات المتجهات الفردية هو أنها سهلة التنفيذ ويمكن استخدامها لمجموعة واسعة من المهام، فضلاً عن سهولة الفهرسة والاسترجاع. التمثيلات الكثيفة قادرة أيضًا على التقاط دلالات النص، وغالبًا ما تستخدم في ترتيب المرحلة الثانية.
لقد أظهرت التمثيلات الكثيفة متعددة المتجهات أنها تنتج نتائج متفوقة على التمثيلات الكثيفة ذات المتجهات الفردية، ويتم إنتاجها عن طريق تخطي خطوة التجميع واستخدام التضمينات السياقية في شكل مصفوفة، ثم يتم استخدام عمليات تضمين الاستعلام والمستندات لحساب التشابه بين اثنان، أظهرت نماذج مثل ColBERT أنها تنتج نتائج متفوقة للتمثيلات الكثيفة للناقلات الفردية. يتم استخدام عامل تشغيل مثل MaxSim لحساب التشابه بين عمليات تضمين الاستعلام والمستندات. الحدس وراء التمثيلات الكثيفة متعددة المتجهات هو أنها قادرة على التقاط المزيد من المعلومات حول النص، وإنتاج نتائج أفضل من التمثيلات الكثيفة ذات المتجهات الفردية، كما توفر نماذج مثل ColBERT أيضًا القدرة على حساب تضمينات المستندات مسبقًا، مما يسمح باسترجاع فعال للغاية. التمثيلات الكثيفة قادرة أيضًا على التقاط دلالات النص، وغالبًا ما تستخدم في ترتيب المرحلة الثانية.
القراءة الموصى بها:
تمثيلات النص المتفرق هي أقدم أشكال نماذج الفضاء المتجهي في استرجاع المعلومات، وهي تعتمد عادةً على مشتقات وخوارزميات TF-IDF مثل BM25، وتظل بمثابة خط الأساس لأنظمة استرجاع النص. وينبع تناثرها من حقيقة أن أبعاد التضمينات غالبا ما تتوافق مع حجم المفردات. الحدس وراء التمثيلات المتفرقة هو أنها قابلة للتفسير، وفعالة من الناحية الحسابية، وسهلة التنفيذ، وفعالة للغاية في الفهرسة والاسترجاع. يركز التمثيل المتناثر أيضًا على التشابه المعجمي، وغالبًا ما يستخدم في ترتيب المرحلة الأولى.
القراءة الموصى بها:
تسمح عمليات تضمين النص المتفرقة باستخدام المؤشرات المقلوبة أثناء الاسترجاع.
القراءة الموصى بها:
تتضمن مقاييس قياس أداء نموذج التضمين ما يلي:
القراءة والعرض الموصى بها:
يمكن أن يكون اختيار نموذج التضمين عاملاً محوريًا في أداء نظام الاسترجاع الخاص بك، ويجب أخذ الاعتبار الدقيق عند اختيار واحد. إنها عملية واسعة النطاق تتضمن التجريب، وستساعدك الموارد التالية على اتخاذ قرار مستنير:
المشاهدة الموصى بها:
قاعدة البيانات المتجهة هي قاعدة بيانات تم تحسينها لتخزين البيانات المتجهة والاستعلام عنها. فهو يسمح بتخزين واسترجاع تضمينات المتجهات بكفاءة، وغالبًا ما يستخدم في التطبيقات التي تتطلب البحث عن التشابه الدلالي. تعد قواعد بيانات المتجهات نموذجًا جديدًا ظهر كجزء من مجموعة التكنولوجيا اللازمة لمواكبة متطلبات تطبيقات GenAI.
المشاهدة الموصى بها:
تم تحسين قواعد البيانات التقليدية لتخزين البيانات المنظمة والاستعلام عنها، مثل النصوص والأرقام والتواريخ. وهي غير مصممة للتعامل مع بيانات المتجهات بكفاءة. من ناحية أخرى، تم تصميم قواعد بيانات المتجهات خصيصًا لتخزين بيانات المتجهات والاستعلام عنها. يستخدمون تقنيات وخوارزميات فهرسة متخصصة لتمكين البحث السريع والدقيق عن التشابه مثل التكميم وتجميع المتجهات.
تحتوي قاعدة بيانات المتجهات عادةً على فهارس للمتجهات، وتحتوي هذه الفهارس على مصفوفات من تضمينات المتجهات، وغالبًا ما يتم استخدام بنية بيانات الرسم البياني أيضًا، مرتبة بطريقة يمكن الاستعلام عنها بكفاءة. عند إجراء استعلام، يتم توفير إما تضمين نص أو متجه كمدخل، وفي حالة النص، يتم تضمينه، وستقوم قاعدة بيانات المتجهات بالاستعلام عن الفهرس المناسب لاسترداد المتجهات الأكثر تشابهًا بناءً على مقاييس المسافة. عادة، تتم مقارنة المتجهات باستخدام مقاييس مثل تشابه جيب التمام، أو حاصل الضرب النقطي، أو المسافة الإقليدية. ترتبط المتجهات أيضًا بقاموس بيانات التعريف الذي يمكن أن يحتوي على معلومات مثل معرف المستند وعنوان المستند والنص المقابل والمزيد.
تتضمن استراتيجيات البحث في قواعد بيانات المتجهات ما يلي:
القراءة الموصى بها:
بمجرد فهرسة المتجهات، غالبًا ما يتم تجميعها لتقليل مساحة البحث، ويتم ذلك لتقليل عدد المتجهات التي يجب مقارنتها أثناء عملية البحث. يتم التجميع عن طريق تجميع المتجهات المتشابهة معًا، ثم فهرسة المجموعات. عند إجراء استعلام، يتم إجراء البحث أولاً على مستوى المجموعة، ثم على مستوى المتجه داخل المجموعة. غالبًا ما تُستخدم الخوارزميات مثل وسائل K للتجميع.
القراءة الموصى بها:
من الواضح أن هذا سؤال مشحون للغاية، ولكن إليك بعض الموارد لاستكشاف هذا الموضوع بشكل أكبر:
Vector quantization, also called "block quantization" or "pattern matching quantization" is often used in lossy data compression. It works by encoding values from a multidimensional vector space into a finite set of values from a discrete subspace of lower dimension.
المرجع: كمية المتجه
One general approach to LSH is to “hash” items several times, in such a way that similar items are more likely to be hashed to the same bucket than dissimilar items are.
المرجع: تعدين مجموعات البيانات الضخمة ، الطبعة الثالثة ، الفصل 3 ، القسم 3.4.1
القراءة الموصى بها:
In short, PQ is the process of:
- Taking a big, high-dimensional vector,
- Splitting it into equally sized chunks — our subvectors,
- Assigning each of these subvectors to its nearest centroid (also called reproduction/reconstruction values),
- Replacing these centroid values with unique IDs — each ID represents a centroid
المرجع: كمية المنتج
القراءة الموصى بها:
The Inverted File Index (IVF) index consists of search scope reduction through clustering.
المرجع: فهرس الملف المقلوب
القراءة الموصى بها:
غالبًا ما تعتبر العوالم الصغيرة الصالحة للملاحة (HNSW) هي أحدث أحدث في استرجاع المتجهات ، وهي خوارزمية تعتمد على الرسم البياني تبني رسمًا بيانيًا للمتجهات ، ويستخدمها لأداء أقرب بحث تقريبي.
القراءة الموصى بها:
تشمل مقاييس المسافة والتشابه المستخدمة في استرجاع المتجهات:
المشاهدة الموصى بها:
هذا موضوع بحث نشط للغاية ، ولا يوجد مصدر موثوق ، ولكن فيما يلي بعض الموارد لاستكشاف هذا الموضوع بشكل أكبر:
تجدر الإشارة أيضًا إلى أن أنظمة البحث والاسترجاع وإعادة الإنقاذ مبنية على أنماط وبنية ثابتة في مجالات استرجاع المعلومات وأنظمة التوصية ومحركات البحث.
تشمل بعض بنية النظام التي قد ترغب في استكشافها:
يتضمن تحقيق البحث الجيد في أنظمة واسعة النطاق مجموعة من تقنيات الفهرسة والاسترجاع والترتيب الفعالة. تشمل بعض الاستراتيجيات لتحقيق بحث جيد في الأنظمة على نطاق واسع:
قد تلاحظ أن العملية برمتها تتم على مراحل من التعقيد المتزايد ، ويعرف ذلك باسم الترتيب المرسل أو استرجاع متعدد المراحل.
القراءة الموصى بها:
لكن الجوانب الأكثر أهمية في تحقيق البحث الجيد في أنظمة واسعة النطاق هو التجربة والتكرار في استراتيجيات الاسترجاع والترتيب ، ومراقبة وتقييم أداء نظامك باستمرار.
القراءة الموصى بها:
المحادثات الموصى بها حول تحسين أنظمة البحث والاسترجاع والخرقة:
يتضمن تحقيق البحث السريع تحسين عملية الفهرسة والاسترجاع ، والتي تأخذ جهودًا هندسية غير تافهة ، فيما يلي بعض الأمثلة على المشهد الحالي في مجال البحث والاسترجاع:
يشير الحالة الحالية للفن في استرجاع المتجهات إلى أن التضمينات متعددة المستويات (التفاعل المتأخر) تؤدي بشكل أفضل من تضمينات المتجهات الفردية ، ومع ذلك ، فإن تحسين استرجاعها يمثل تحديًا هندسيًا مهمًا ، ويناقش ما يلي التضمينات المتعددة للمستويات واسترجاعها في التراجع:
BM25 is a bag-of-words retrieval function that ranks a set of documents based on the query terms appearing in each document, regardless of their proximity within the document.
المرجع: BM25
نماذج Reranking هي نماذج تصنيف التسلسل المدربين على أخذ زوج من الاستعلام والمستندات ، وإخراج درجات التشبيه الخام.
القراءة والعرض والمشاهدة الموصى بها:
يتطلب تقييم أنظمة الخرقة تجربة وتقييم المكونات الفردية للنظام ، مثل المسترد ، والمولد ، و Reranker.
القراءة الموصى بها:
ملاحظة: من هنا فصاعدًا ، سأمتنع عن الإجابة قدر الإمكان ، وربط الأوراق والمراجع فقط ، ويمكن القول أن هذا الجزء هو أحد الأجزاء الأكثر تعقيدًا ، لذلك يتطلب الكثير من القراءة والتفاهم.
لفهم الانتباه ، ستحتاج إلى أن تكون على دراية بعمارة المحولات ، وبناناتها السابقة. فيما يلي بعض الموارد لتبدأ:
عنق الزجاجة الرئيسي للتراجع الذاتي هو تعقيدها التربيعي فيما يتعلق بطول التسلسل. لفهم عيوب الاهتمام الذاتي ، ستحتاج إلى التعرف على بدائل الانتباه ، وسيساعدك ما يلي على البدء:
هناك طرق متعددة لترميز المعلومات الموضعية في LLMs ، والطريقة الأكثر شيوعًا هي استخدام الترميزات الموضعية الجيبية ، والمعروفة باسم الترميزات الموضعية المطلقة. تشمل الطرق الأخرى الترميزات الموضعية النسبية ، والطرق الأحدث مثل التضمين الموضعية الدوارة. فيما يلي بعض الموارد لتبدأ:
لفهم ذاكرة التخزين المؤقت KV ، ستحتاج إلى أن تكون على دراية ببنية المحولات وقيودها.
القراءة الموصى بها:
مزيج من الخبراء هو نوع من الهندسة المعمارية في LLMS ، لفهم كيفية عمله ، يجب أن تمر بالموارد التالية ، والتي تغطي أبرز نماذج MOE: