هل أنت مهتم بمعرفة كيفية عمل الذكاء الاصطناعي مثل ChatGPT وWen Xinyiyan؟ تعتمد جميعها على نماذج اللغات الكبيرة (LLM). ستستخدم هذه المقالة طريقة بسيطة وسهلة الفهم، حتى لو كان لديك مستوى رياضيات للصف الثاني فقط، فيمكنك فهم مبدأ تشغيل LLM. سنبدأ من المفاهيم الأساسية للشبكات العصبية وسنشرح تدريجيًا التقنيات الأساسية مثل رقمنة النص والتدريب على النماذج والتقنيات المتقدمة وهندسة GPT وTransformer، مما سيأخذك إلى كشف سر LLM.
الشبكات العصبية: سحر الأرقام
بداية، علينا أن نعرف أن الشبكة العصبية تشبه الحاسوب العملاق، فهي يمكنها معالجة الأرقام فقط. يجب أن يكون كل من الإدخال والإخراج أرقامًا. فكيف نجعله يفهم النص؟
السر هو تحويل الكلمات إلى أرقام، على سبيل المثال، يمكننا تمثيل كل حرف برقم، مثل أ=1، ب=2، وهكذا. بهذه الطريقة، يمكن للشبكة العصبية "قراءة" النص.
تدريب النموذج: دع الشبكة "تتعلم" اللغة
مع النص الرقمي، الخطوة التالية هي تدريب النموذج والسماح للشبكة العصبية "بتعلم" قوانين اللغة.
تشبه عملية التدريب ممارسة لعبة التخمين. نعرض على الشبكة بعض النصوص، مثل "هامبتي دمبتي"، ونطلب منها تخمين الحرف التالي. إذا خمن بشكل صحيح، نمنحه مكافأة؛ وإذا خمن بشكل خاطئ، نمنحه عقوبة. من خلال التخمين والتعديل المستمر، يمكن للشبكة التنبؤ بالحرف التالي بدقة متزايدة، وفي النهاية إنتاج جمل كاملة مثل "جلس هامبتي دمبتي على الحائط".
التقنيات المتقدمة: جعل النموذج أكثر "ذكاءً"
ومن أجل جعل النموذج أكثر "ذكاءً"، ابتكر الباحثون العديد من التقنيات المتقدمة، مثل:
تضمين الكلمات: بدلاً من استخدام أرقام بسيطة لتمثيل الحروف، نستخدم مجموعة من الأرقام (المتجهات) لتمثيل كل كلمة، والتي يمكن أن تصف معنى الكلمة بشكل أكمل.
تجزئة الكلمات الفرعية: تقسيم الكلمات إلى وحدات أصغر (كلمات فرعية)، مثل تقسيم "القطط" إلى "قطة" و"س"، مما قد يقلل من المفردات ويحسن الكفاءة.
آلية الانتباه الذاتي: عندما يتنبأ النموذج بالكلمة التالية، فإنه يقوم بضبط وزن التوقع بناءً على جميع الكلمات الموجودة في السياق، تمامًا كما نفهم معنى الكلمة بناءً على السياق عند القراءة.
الاتصال المتبقي: لتجنب صعوبات التدريب الناجمة عن وجود عدد كبير جدًا من طبقات الشبكة، اخترع الباحثون الاتصال المتبقي لتسهيل تعلم الشبكة.
آلية الانتباه متعدد الرؤوس: من خلال تشغيل آليات انتباه متعددة بالتوازي، يمكن للنموذج فهم السياق من وجهات نظر مختلفة وتحسين دقة التنبؤات.
التشفير الموضعي: لكي يتمكن النموذج من فهم ترتيب الكلمات، سيقوم الباحثون بإضافة المعلومات الموضعية إلى تضمينات الكلمات، تمامًا كما ننتبه إلى ترتيب الكلمات عند القراءة.
بنية GPT: "المخطط" لنماذج اللغة واسعة النطاق
تعد بنية GPT حاليًا واحدة من أكثر معماريات نماذج اللغة واسعة النطاق شيوعًا، فهي تشبه "المخطط" الذي يوجه تصميم النموذج وتدريبه. تجمع بنية GPT بذكاء بين التقنيات المتقدمة المذكورة أعلاه لتمكين النموذج من تعلم اللغة وتوليدها بكفاءة.
هندسة المحولات: "ثورة" نماذج اللغة
تعد بنية المحولات إنجازًا كبيرًا في مجال نماذج اللغة في السنوات الأخيرة، فهي لا تعمل على تحسين دقة التنبؤ فحسب، بل تقلل أيضًا من صعوبة التدريب، وتضع الأساس لتطوير نماذج لغوية واسعة النطاق. تطورت بنية GPT أيضًا بناءً على بنية Transformer.
المرجع: https://towardsdatascience.com/understanding-llms-from-scratch-using-middle-school-math-e602d27ec876
من خلال شرح هذه المقالة، أعتقد أن لديك بالفعل فهمًا أوليًا لنماذج اللغة واسعة النطاق. على الرغم من أن الآلية الداخلية لـ LLM معقدة للغاية، إلا أن مبادئها الأساسية ليست غامضة، وآمل أن تساعدك هذه المقالة على فهم هذه التكنولوجيا المذهلة بشكل أفضل.