Hinglish เป็นภาษาลูกผสมที่ผสมผสานภาษาฮินดีและภาษาอังกฤษ ซึ่งพูดกันทั่วไปในอินเดีย โดยผสมผสานคำศัพท์และไวยากรณ์จากทั้งสองภาษา ภาษาฮิงลิชมักใช้ในการสนทนาทางข้อความโดยผู้คนในอินเดีย ข้อความภาษาฮินดีส่วนใหญ่ประกอบด้วยอักขระภาษาอังกฤษ ทับศัพท์จากประโยคภาษาฮินดี ตัวอย่าง: “อาจ กา ดิน โบโฮต อาชา ไฮ”
การมีชุดข้อมูล Hinglish เพื่อปรับแต่ง LLM โอเพนซอร์ส เช่น LLAMA-2 ที่ไม่เคยเห็นข้อมูลดังกล่าวในขั้นตอนการฝึกอบรมจะเป็นประโยชน์ อย่างไรก็ตาม รุ่น GPT-3 ขึ้นไป ได้เห็นข้อมูลแบบ Hinglish ระหว่างการฝึกแล้ว
เนื่องจาก GPT-3 ขึ้นไปได้เห็นข้อมูลภาษาฮินดีในระหว่างการฝึกอบรม เราจึงใช้ประโยชน์จากข้อมูลเหล่านี้เพื่อสร้างการสนทนา ซึ่งได้รับการประมวลผลเพิ่มเติมในภายหลังเพื่อสร้างชุดข้อมูลที่สะอาดหมดจด พรอมต์ GPT ที่ใช้คือ:
I want you to generate a Hinglish conversation between two young Indians - a male and a female. Feel free to assume the names of these young Indians. The conversation should contain 100 dialogues. Conversation should be in the format [Name]: [Message]. Conversation should be strictly in Hinglish. If the conversation happens in English, I will punish you. The conversation should be slightly flirty in nature - ending in a romantic moment. The conversation is around the topic: '{setting}'. Do not change subjects frequently. If possible, talk about a subject at length.
ดู topics.md
สำหรับบริบทการสนทนาต่างๆ ที่ให้ไว้ในพร้อมท์
ข้อมูลได้รับการประมวลผลภายหลังเพื่อให้แต่ละบรรทัดในการสนทนาอยู่ในรูปแบบ [ชื่อ]: [บทสนทนา] อย่างเคร่งครัด
อย่าลังเลที่จะเพิ่มการสนทนาเพิ่มเติม!