الهنجليزية هي لغة هجينة تمزج بين اللغة الهندية والإنجليزية، وهي شائعة الاستخدام في الهند، وتجمع بين المفردات والقواعد من كلتا اللغتين. تُستخدم اللغة الهنجليزية غالبًا في المحادثات النصية بين الأشخاص في الهند. يحتوي النص الهنجليزي في الغالب على أحرف إنجليزية، مترجمة من الجمل الهندية. مثال: "Aaj ka din bohot acha hai".
من المفيد أن يكون لديك مجموعات بيانات Hinglish لضبط LLMs مفتوحة المصدر مثل LLAMA-2 التي لم تر مثل هذه البيانات في مرحلة التدريب. ومع ذلك، فقد شهد نموذج GPT-3 وما بعده بالفعل بيانات هنجليزية أثناء التدريب.
نظرًا لأن GPT-3 وما فوق قد شاهدت بيانات مفصلة أثناء التدريب، فإننا نستفيد منها لإنشاء محادثات، والتي تتم معالجتها لاحقًا لإنشاء مجموعة بيانات نظيفة. موجه GPT المستخدم كان:
I want you to generate a Hinglish conversation between two young Indians - a male and a female. Feel free to assume the names of these young Indians. The conversation should contain 100 dialogues. Conversation should be in the format [Name]: [Message]. Conversation should be strictly in Hinglish. If the conversation happens in English, I will punish you. The conversation should be slightly flirty in nature - ending in a romantic moment. The conversation is around the topic: '{setting}'. Do not change subjects frequently. If possible, talk about a subject at length.
راجع topics.md
للتعرف على سياقات المحادثة المختلفة المتوفرة في الموجه.
تتم معالجة البيانات لاحقًا بحيث يكون كل سطر في المحادثات بالتنسيق [الاسم]: [الحوار]
لا تتردد في إضافة المزيد من المحادثات!