hinglish conv dataset
1.0.0
印度英語是一種混合了印地語和英語的混合語言,在印度常用,結合了兩種語言的詞彙和文法。印度人經常在文本對話中使用印度英語。印度英語文本主要包含從印地語句子音譯而來的英語字符。例如:「Aaj ka din bohot acha hai」。
使用 Hinglish 資料集來微調像 LLAMA-2 這樣在訓練階段沒有看到這類資料的開源 LLM 是很有幫助的。然而,GPT-3 及以後的模型在訓練期間已經看到了印度英語資料。
由於 GPT-3 及更高版本在訓練期間看到了印度英語數據,因此我們利用它們來產生對話,這些對話經過進一步後處理以產生乾淨的數據集。使用的 GPT 提示是:
I want you to generate a Hinglish conversation between two young Indians - a male and a female. Feel free to assume the names of these young Indians. The conversation should contain 100 dialogues. Conversation should be in the format [Name]: [Message]. Conversation should be strictly in Hinglish. If the conversation happens in English, I will punish you. The conversation should be slightly flirty in nature - ending in a romantic moment. The conversation is around the topic: '{setting}'. Do not change subjects frequently. If possible, talk about a subject at length.
請參閱topics.md
以了解提示中提供的各種對話上下文。
資料經過後處理,以便對話中的每一行嚴格採用 [Name]: [Dialogue] 格式
歡迎添加更多對話!