hinglish conv dataset
1.0.0
ヒングリッシュはヒンディー語と英語を混合したハイブリッド言語で、インドで一般的に話されており、両方の言語の語彙と文法を組み合わせています。ヒングリッシュは、インドの人々によるテキスト会話でよく使用されます。ヒングリッシュのテキストには、ヒンディー語の文章から音訳された英語の文字がほとんど含まれています。例: 「アージ カ ディン ボホット アチャ ハイ」。
Hinglish データセットがあると、トレーニング段階でそのようなデータが表示されていない LLAMA-2 のようなオープンソース LLM を微調整するのに役立ちます。ただし、GPT-3 以降のモデルでは、トレーニング中にすでにヒングリッシュ データが確認されています。
GPT-3 以降ではトレーニング中にヒングリッシュ データが認識されるため、それらを活用して会話を生成し、さらに後処理してクリーンなデータセットを生成します。使用された GPT プロンプトは次のとおりです。
I want you to generate a Hinglish conversation between two young Indians - a male and a female. Feel free to assume the names of these young Indians. The conversation should contain 100 dialogues. Conversation should be in the format [Name]: [Message]. Conversation should be strictly in Hinglish. If the conversation happens in English, I will punish you. The conversation should be slightly flirty in nature - ending in a romantic moment. The conversation is around the topic: '{setting}'. Do not change subjects frequently. If possible, talk about a subject at length.
プロンプトで提供されるさまざまな会話コンテキストについては、 topics.md
参照してください。
データは、会話の各行が厳密に [名前]: [ダイアログ] の形式になるように後処理されます。
気軽に会話を追加してください。