hinglish conv dataset 다운로드 - hinglish conv dataset 소스 코드 다운로드

hinglish conv dataset

기타 소스코드

1.0.0

다운로드

인도어 대화 데이터 세트

Hinglish는 인도에서 일반적으로 사용되는 힌디어와 영어를 혼합한 하이브리드 언어로 두 언어의 어휘와 문법을 결합합니다. Hinglish는 인도 사람들의 문자 대화에서 자주 사용됩니다. 인도어 텍스트에는 대부분 힌디어 문장에서 음역된 영어 문자가 포함되어 있습니다. 예: "Aaj ka din bohot acha hai".

훈련 단계에서 이러한 데이터를 보지 못한 LLAMA-2와 같은 오픈 소스 LLM을 미세 조정하려면 Hinglish 데이터 세트를 갖는 것이 도움이 됩니다. 그러나 GPT-3 및 이후 모델에서는 학습 중에 이미 Hinglish 데이터가 표시되었습니다.

데이터세트

GPT-3 이상에서는 훈련 중에 Hinglish 데이터를 보았으므로 이를 활용하여 대화를 생성하고, 이를 추가로 후처리하여 깨끗한 데이터 세트를 생성합니다. 사용된 GPT 프롬프트는 다음과 같습니다.

 I want you to generate a Hinglish conversation between two young Indians - a male and a female. Feel free to assume the names of these young Indians. The conversation should contain 100 dialogues. Conversation should be in the format [Name]: [Message]. Conversation should be strictly in Hinglish. If the conversation happens in English, I will punish you. The conversation should be slightly flirty in nature - ending in a romantic moment. The conversation is around the topic: '{setting}'. Do not change subjects frequently. If possible, talk about a subject at length.

프롬프트에 제공되는 다양한 대화 컨텍스트를 보려면 topics.md 참조하세요.