Le hinglish est une langue hybride mêlant l'hindi et l'anglais, couramment parlée en Inde, combinant le vocabulaire et la grammaire des deux langues. Le hinglish est souvent utilisé dans les conversations textuelles en Inde. Le texte en hinglish contient principalement des caractères anglais, translittérés à partir de phrases en hindi. Exemple : « Aaj ka din bohot acha hai ».
Il est utile de disposer d'ensembles de données Hinglish pour affiner les LLM open source comme LAMA-2 qui n'ont pas vu de telles données lors de la phase de formation. Cependant, les modèles GPT-3 et ultérieurs ont déjà vu des données anglaises pendant la formation.
Étant donné que GPT-3 et versions ultérieures ont vu des données anglaises pendant la formation, nous les exploitons pour générer des conversations, qui sont ensuite post-traitées pour générer un ensemble de données propre. L'invite GPT utilisée était :
I want you to generate a Hinglish conversation between two young Indians - a male and a female. Feel free to assume the names of these young Indians. The conversation should contain 100 dialogues. Conversation should be in the format [Name]: [Message]. Conversation should be strictly in Hinglish. If the conversation happens in English, I will punish you. The conversation should be slightly flirty in nature - ending in a romantic moment. The conversation is around the topic: '{setting}'. Do not change subjects frequently. If possible, talk about a subject at length.
Voir topics.md
pour les différents contextes de conversation fournis dans l'invite.
Les données sont post-traitées pour que chaque ligne des conversations soit strictement au format [Nom] : [Dialogue]
N'hésitez pas à ajouter d'autres conversations !