Hinglish ist eine in Indien häufig gesprochene Hybridsprache aus Hindi und Englisch, die Vokabeln und Grammatik beider Sprachen kombiniert. Hinglisch wird von Menschen in Indien häufig in Textgesprächen verwendet. Hinglischer Text enthält hauptsächlich englische Zeichen, die aus Hindi-Sätzen transkribiert wurden. Beispiel: „Aaj ka din bohot acha hai“.
Es ist hilfreich, über Hinglish-Datensätze zu verfügen, um Open-Source-LLMs wie LLAMA-2 zu optimieren, die solche Daten in der Trainingsphase nicht gesehen haben. Beim GPT-3-Modell und höher wurden jedoch während des Trainings bereits verdächtige Daten angezeigt.
Da GPT-3 und höher während des Trainings Hinglish-Daten gesehen haben, nutzen wir diese, um Konversationen zu generieren, die weiter nachbearbeitet werden, um einen sauberen Datensatz zu generieren. Die verwendete GPT-Eingabeaufforderung war:
I want you to generate a Hinglish conversation between two young Indians - a male and a female. Feel free to assume the names of these young Indians. The conversation should contain 100 dialogues. Conversation should be in the format [Name]: [Message]. Conversation should be strictly in Hinglish. If the conversation happens in English, I will punish you. The conversation should be slightly flirty in nature - ending in a romantic moment. The conversation is around the topic: '{setting}'. Do not change subjects frequently. If possible, talk about a subject at length.
Siehe topics.md
für die verschiedenen Konversationskontexte, die in der Eingabeaufforderung bereitgestellt werden.
Die Daten werden nachbearbeitet, sodass jede Zeile in den Gesprächen ausschließlich das Format [Name]: [Dialog] hat.
Fühlen Sie sich frei, weitere Gespräche hinzuzufügen!