تحتاج مؤسستك إلى Chatbot ذكي متعدد القنوات ومحرك بحث قادر على فهم أنواع متنوعة من البيانات المنتشرة عبر مواقع مختلفة. بالإضافة إلى ذلك، يجب أن يكون برنامج الدردشة الآلي قادرًا على تقديم إجابات على الاستفسارات، إلى جانب المصدر وشرح لكيفية ومكان الحصول على الإجابة. بمعنى آخر، أنت تريد ChatGPT خاصًا وآمنًا لمؤسستك بحيث يمكنها تفسير وفهم والإجابة على الأسئلة المتعلقة ببيانات عملك .
الهدف من إثبات المفهوم (POC) هو إظهار/إثبات قيمة مساعد GPT الظاهري الذي تم إنشاؤه باستخدام خدمات Azure، مع بياناتك الخاصة في بيئتك الخاصة. التسليمات هي:
واجهة برمجة تطبيقات Backend Bot المُصممة باستخدام Bot Framework ومعرضة لقنوات متعددة (Web Chat، وMS Teams، وSMS، وEmail، وSlack، وما إلى ذلك)
تطبيق ويب للواجهة الأمامية مزود ببحث وواجهة مستخدم Bot.
تم إنشاء الريبو ليعلمك خطوة بخطوة كيفية إنشاء محرك بحث ذكي قائم على OpenAI. يبني كل مفكرة فوق بعضها البعض وينتهي ببناء التطبيقين.
بالنسبة لـ Microsoft FTEs: هذا هو VBD الممول من قبل العميل، أسفل أصول التسليم.
غرض | وصف | وصلة |
---|---|---|
معلومات VBD SKU وورقة البيانات | يجب أن يقوم CSAM بإرساله باعتباره "العميل المستثمر" مقابل الاعتمادات/ساعات عقد الدعم الموحد. يقرر العميل ما إذا كان 3 أو 5 أيام. | صفحة ESXP SKU |
اعتماد VBD لـ CSAs | روابط لـ CSAs للحصول على الاعتماد اللازم لتقديم ورشة العمل | الرابط 1، الرابط 2 |
أصول إثبات الملكية (POC) لمدة 3-5 أيام VBD (IP) | سيتم تسليم MVP (هذا GitHub repo) | Azure-Cognitive-Search-Azure-OpenAI-Accelerator |
سطح ورشة عمل VBD | سطح السفينة تعريف وشرح ورشة العمل | مقدمة AOAI GPT Azure Smart Search Engine Accelerator.pptx |
فيديو تدريب CSA | تدريب لمدة ساعتين لـ Microsoft CSA | تسجيل تدريب POC VBD (فيديو جديد قريبًا!) |
المتطلبات الأساسية للعميل 3-5 أيام إثبات المفهوم (POC).
اشتراك أزور
تم قبول التطبيق على Azure Open AI، بما في ذلك GPT-4o. إذا لم يكن العميل حاصلًا على موافقة GPT-4o، فيمكن لـ Microsoft CSA إعارة خدماته أثناء ورشة العمل
يفضل إضافة أعضاء Microsoft كضيوف في عملاء Azure AD. إذا لم يكن ذلك ممكنًا، فيمكن للعملاء إصدار معرفات الشركة لأعضاء Microsoft
يجب تعيين مجموعة الموارد (RG) لإثبات مفهوم ورشة العمل هذه، في مستأجر Azure الخاص بالعميل
يجب أن يكون لدى فريق العملاء وفريق Microsoft أذونات المساهمة لمجموعة الموارد هذه حتى يتمكنوا من إعداد كل شيء قبل أسبوعين من ورشة العمل
يجب تعيين حساب تخزين في RG.
يجب تحميل بيانات/مستندات العميل إلى حساب تخزين البيانات الثنائية الكبيرة، قبل أسبوعين على الأقل من تاريخ ورشة العمل
يجب أن يقوم العميل بإنشاء تسجيل تطبيق متعدد المستأجرين (رئيس الخدمة) (احفظ معرف العميل والقيمة السرية).
يجب على العميل تقديم 10 إلى 20 سؤالًا لفريق Microsoft (من السهل إلى الصعب) التي يريد من الروبوت أن يجيب عليها بشكل صحيح.
بالنسبة للتعاون في IDE وتوحيده أثناء ورشة العمل، سيتم استخدام مثيلات حوسبة AML مع Jupyper Lab، ولهذا يجب نشر Azure Machine Learning Workspace في RG
ملاحظة: يرجى التأكد من أن لديك حصة حوسبة أساسية كافية في مساحة عمل Azure Machine Learning الخاصة بك
يسأل المستخدم سؤالا.
في التطبيق، يستخدم OpenAI LLM مطالبة ذكية لتحديد المصدر الذي سيتم استخدامه بناءً على مدخلات المستخدم
تتوفر خمسة أنواع من المصادر:
نصوص حوار جميع حلقات البرنامج التلفزيوني: الأصدقاء
90.000 ملخص منشور لـ Covid
4 كتب PDF طويلة
3 أ. قاعدة بيانات Azure SQL - تحتوي على إحصائيات متعلقة بفيروس كورونا في الولايات المتحدة.
3ب. نقاط نهاية واجهة برمجة التطبيقات - RESTful OpenAPI 3.0 API التي تحتوي على إحصائيات محدثة حول Covid.
3 ج. Azure Bing Search API - توفر إمكانية الوصول إلى الإنترنت مما يسمح بمشاهد مثل: QnA على مواقع الويب العامة.
3D. Azure AI Search - يحتوي على مستندات غنية بالذكاء الاصطناعي من Blob Storage:
3و. ملف جدولي بتنسيق CSV - يحتوي على إحصائيات متعلقة بفيروس كورونا في الولايات المتحدة.
يقوم التطبيق باسترداد النتيجة من المصدر وصياغة الإجابة.
يتم حفظ المجموعة (السؤال والجواب) في CosmosDB كذاكرة ثابتة ولمزيد من التحليل.
يتم تسليم الجواب للمستخدم.
https://gptsmartsearchapp.azurewebsites.net/
100% بايثون.
يستخدم Azure Cognitive Services لفهرسة المستندات غير المنظمة وإثرائها: التعرف الضوئي على الحروف على الصور، والتقطيع والتحويل التلقائي إلى المتجهات.
يستخدم إمكانات البحث المختلط في Azure AI Search لتوفير أفضل إجابة دلالية (البحث عن النص والمتجهات معًا).
يستخدم LangChain كمجمّع للتفاعل مع Azure OpenAI ومخازن المتجهات وإنشاء المطالبات وإنشاء الوكلاء.
متعدد اللغات (يستوعب ويفهرس ويفهم أي لغة)
فهارس متعددة -> فهارس بحث متعددة
أسئلة وأجوبة عن البيانات الجدولية مع ملفات CSV وقواعد بيانات نكهة SQL
يستخدم Azure AI Document Intelligence SDK (أداة التعرف على النماذج السابقة) لتحليل مستندات PDF المعقدة/الكبيرة
يستخدم Bing Search API لتشغيل عمليات البحث على الإنترنت والأسئلة والأجوبة على مواقع الويب العامة.
يتصل بمصادر بيانات API عن طريق تحويل أسئلة اللغة الطبيعية إلى استدعاءات API.
يستخدم CosmosDB كذاكرة دائمة لحفظ محادثات المستخدم.
يستخدم Streamlit لإنشاء تطبيق الويب Frontend في لغة python.
يستخدم Bot Framework وBot Service لاستضافة الواجهة الخلفية لـ Bot API ولعرضها على قنوات متعددة بما في ذلك MS Teams.
يستخدم أيضًا LangServe/FastAPI لنشر واجهة برمجة التطبيقات الخلفية البديلة مع إمكانيات البث
ملاحظة: (متطلب مسبق) يجب أن يكون لديك خدمة Azure OpenAI تم إنشاؤها بالفعل
شوكة هذا الريبو إلى حساب جيثب الخاص بك.
في Azure OpenAI studio، انشر هذه النماذج (لن تعمل النماذج الأقدم من تلك المذكورة أدناه):
"جي بي تي-4o"
"جي بي تي-4o-ميني"
""تضمين النص-ada-002 (أو الأحدث)"
قم بإنشاء مجموعة موارد حيث ستكون جميع أصول هذا المسرع. يمكن أن يكون Azure OpenAI في RG مختلف أو اشتراك مختلف.
انقر أدناه لإنشاء كل البنية التحتية Azure اللازمة لتشغيل أجهزة الكمبيوتر المحمولة (Azure AI Search، والخدمات المعرفية، وما إلى ذلك):
ملاحظة : إذا لم تقم مطلقًا بإنشاء Azure AI Services Multi-Service account
من قبل، فيرجى إنشاء حساب يدويًا في بوابة azure لقراءة شروط الذكاء الاصطناعي المسؤول وقبولها. بمجرد نشر هذا، احذفه ثم استخدم زر النشر أعلاه.
قم باستنساخ الريبو Forked الخاص بك إلى مثيل حساب AML الخاص بك. إذا كان الريبو الخاص بك خاصًا، فراجع أدناه في قسم استكشاف الأخطاء وإصلاحها كيفية استنساخ الريبو الخاص.
تأكد من تشغيل دفاتر الملاحظات على بيئة Python 3.10 conda أو الأحدث
قم بتثبيت التبعيات على جهازك (تأكد من تنفيذ الأمر pip comand أدناه على نفس بيئة conda التي ستقوم بتشغيل دفاتر الملاحظات. على سبيل المثال، في تشغيل مثيل حساب AZML:
conda activate azureml_py310_sdkv2 pip install -r ./common/requirements.txt
قد تحصل على بعض أخطاء تبعيات النقطة، ولكن لا بأس، فقد تم تثبيت المكتبات بشكل صحيح بغض النظر عن الخطأ.
قم بتحرير الملف credentials.env
باستخدام القيم الخاصة بك من الخدمات التي تم إنشاؤها في الخطوة 4.
بالنسبة إلى BLOB_SAS_TOKEN وBLOB_CONNECTION_STRING. انتقل إلى حساب التخزين>الأمان + الشبكات>توقيع الوصول المشترك>إنشاء SAS
قم بتشغيل دفاتر الملاحظات بالترتيب . أنها تتراكم فوق بعضها البعض.
لماذا نستخدم محرك البحث Azure AI لتوفير سياق LLM وليس تحسين LLM بدلاً من ذلك؟
ج: نقلاً عن وثائق OpenAI: "تم تدريب GPT-3 مسبقًا على كمية هائلة من النصوص من الإنترنت المفتوح. عند إعطائه مطالبة مع بعض الأمثلة فقط، يمكنه غالبًا معرفة المهمة التي تحاول تنفيذها وإنشاءها يُطلق على هذا غالبًا اسم "التعلم القليل". يعمل الضبط الدقيق على تحسين التعلم بعدد قليل من اللقطات من خلال التدريب على العديد من الأمثلة التي لا يمكن وضعها في الموجه، مما يتيح لك تحقيق نتائج أفضل في عدد كبير من المهام. بمجرد ضبط النموذج بشكل دقيق، لن تحتاج إلى تقديم أمثلة في الموجه بعد الآن. وهذا يوفر التكاليف ويمكّن الطلبات ذات زمن الاستجابة المنخفض "
ومع ذلك، يتطلب ضبط النموذج توفير مئات أو آلاف من مجموعات المطالبة والإكمال، وهي في الأساس عينات استجابة للاستعلام. الغرض من الضبط الدقيق ليس إعطاء LLM المعرفة ببيانات الشركة ولكن تزويدها بأمثلة حتى تتمكن من أداء المهام بشكل جيد دون الحاجة إلى أمثلة في كل مطالبة.
هناك حالات يكون فيها الضبط الدقيق ضروريًا، كما هو الحال عندما تحتوي الأمثلة على بيانات خاصة لا ينبغي الكشف عنها في المطالبات أو عندما تكون اللغة المستخدمة متخصصة للغاية، كما هو الحال في الرعاية الصحية أو الصيدلة أو غيرها من الصناعات أو حالات الاستخدام حيث تكون اللغة المستخدمة لا يتم العثور عليه عادة على شبكة الإنترنت.
خطوات استنساخ الريبو الخاص:
في جهازك الطرفي، الصق النص أدناه، مع استبدال عنوان البريد الإلكتروني الخاص بك على GitHub. قم بإنشاء مفتاح SSH جديد.
ssh-keygen -t ed25519 -C "[email protected]"
انسخ مفتاح SSH العام إلى الحافظة الخاصة بك. أضف مفتاح SSH جديد.
cat ~/.ssh/id_ed25519.pub# ثم حدد وانسخ محتويات ملف id_ed25519.pub# المعروض في الجهاز إلى الحافظة الخاصة بك
على GitHub، انتقل إلى الإعدادات-> مفاتيح SSH وGPG-> مفتاح SSH جديد
في حقل "العنوان"، أضف تسمية وصفية للمفتاح الجديد. “حساب مكافحة غسل الأموال”. في حقل "المفتاح"، الصق مفتاحك العام.
استنساخ الريبو الخاص بك
git clone [email protected]:اسم المستخدم الخاص بك/YOUR-REPOSITORY.git
يرحب هذا المشروع بالمساهمات والاقتراحات. تتطلب معظم المساهمات منك الموافقة على اتفاقية ترخيص المساهم (CLA) التي تعلن أن لديك الحق في منحنا حقوق استخدام مساهمتك، بل وتفعل ذلك بالفعل. للحصول على التفاصيل، تفضل بزيارة https://cla.opensource.microsoft.com.
عند إرسال طلب سحب، سيحدد روبوت CLA تلقائيًا ما إذا كنت بحاجة إلى تقديم CLA وتزيين العلاقات العامة بشكل مناسب (على سبيل المثال، التحقق من الحالة، التعليق). ما عليك سوى اتباع التعليمات التي يقدمها لك الروبوت. سوف تحتاج إلى القيام بذلك مرة واحدة فقط عبر جميع اتفاقيات إعادة الشراء باستخدام CLA الخاصة بنا.
اعتمد هذا المشروع قواعد السلوك الخاصة بشركة Microsoft مفتوحة المصدر. لمزيد من المعلومات، راجع الأسئلة الشائعة حول قواعد السلوك أو اتصل بـ [email protected] لطرح أي أسئلة أو تعليقات إضافية.
قد يحتوي هذا المشروع على علامات تجارية أو شعارات للمشاريع أو المنتجات أو الخدمات. يخضع الاستخدام المصرح به للعلامات التجارية أو الشعارات الخاصة بشركة Microsoft ويجب أن يتبع إرشادات العلامة التجارية والعلامات التجارية الخاصة بشركة Microsoft. يجب ألا يتسبب استخدام العلامات التجارية أو الشعارات الخاصة بشركة Microsoft في الإصدارات المعدلة من هذا المشروع في حدوث ارتباك أو الإشارة ضمنًا إلى رعاية Microsoft. ويخضع أي استخدام لعلامات تجارية أو شعارات تابعة لجهات خارجية لسياسات تلك الجهات الخارجية.