Hinglish adalah bahasa campuran yang memadukan bahasa Hindi dan Inggris, yang umum digunakan di India, menggabungkan kosakata dan tata bahasa dari kedua bahasa tersebut. Hinglish sering digunakan dalam percakapan teks oleh orang-orang di India. Teks Hinglish sebagian besar berisi karakter bahasa Inggris, ditransliterasi dari kalimat hindi. Contoh: "Aaj ka din bohot acha hai".
Memiliki kumpulan data Hinglish akan sangat membantu untuk menyempurnakan LLM sumber terbuka seperti LLAMA-2 yang belum melihat data seperti itu dalam fase pelatihan. Namun model GPT-3 dan seterusnya, telah melihat data yang lebih baik selama pelatihan.
Karena GPT-3 dan yang lebih baru telah melihat data hinglish selama pelatihan, kami memanfaatkannya untuk menghasilkan percakapan, yang kemudian diproses lebih lanjut untuk menghasilkan kumpulan data yang bersih. Prompt GPT yang digunakan adalah:
I want you to generate a Hinglish conversation between two young Indians - a male and a female. Feel free to assume the names of these young Indians. The conversation should contain 100 dialogues. Conversation should be in the format [Name]: [Message]. Conversation should be strictly in Hinglish. If the conversation happens in English, I will punish you. The conversation should be slightly flirty in nature - ending in a romantic moment. The conversation is around the topic: '{setting}'. Do not change subjects frequently. If possible, talk about a subject at length.
Lihat topics.md
untuk berbagai konteks percakapan yang disediakan dalam perintah.
Data tersebut pasca-pemrosesan sehingga setiap baris dalam percakapan benar-benar dalam format [Nama]: [Dialog]
Jangan ragu untuk menambahkan lebih banyak percakapan!