hinglish conv dataset
1.0.0
Hinglish는 인도에서 일반적으로 사용되는 힌디어와 영어를 혼합한 하이브리드 언어로 두 언어의 어휘와 문법을 결합합니다. Hinglish는 인도 사람들의 문자 대화에서 자주 사용됩니다. 인도어 텍스트에는 대부분 힌디어 문장에서 음역된 영어 문자가 포함되어 있습니다. 예: "Aaj ka din bohot acha hai".
훈련 단계에서 이러한 데이터를 보지 못한 LLAMA-2와 같은 오픈 소스 LLM을 미세 조정하려면 Hinglish 데이터 세트를 갖는 것이 도움이 됩니다. 그러나 GPT-3 및 이후 모델에서는 학습 중에 이미 Hinglish 데이터가 표시되었습니다.
GPT-3 이상에서는 훈련 중에 Hinglish 데이터를 보았으므로 이를 활용하여 대화를 생성하고, 이를 추가로 후처리하여 깨끗한 데이터 세트를 생성합니다. 사용된 GPT 프롬프트는 다음과 같습니다.
I want you to generate a Hinglish conversation between two young Indians - a male and a female. Feel free to assume the names of these young Indians. The conversation should contain 100 dialogues. Conversation should be in the format [Name]: [Message]. Conversation should be strictly in Hinglish. If the conversation happens in English, I will punish you. The conversation should be slightly flirty in nature - ending in a romantic moment. The conversation is around the topic: '{setting}'. Do not change subjects frequently. If possible, talk about a subject at length.
프롬프트에 제공되는 다양한 대화 컨텍스트를 보려면 topics.md
참조하세요.
대화의 각 줄이 엄격하게 [이름]: [대화] 형식이 되도록 데이터가 후처리됩니다.
더 많은 대화를 자유롭게 추가하세요!