Hinglish é uma língua híbrida que mistura Hindi e Inglês, comumente falada na Índia, combinando vocabulário e gramática de ambas as línguas. O Hinglish é frequentemente usado em conversas de texto por pessoas na Índia. O texto em hinglish contém principalmente caracteres em inglês, transliterados de frases em hindi. Exemplo: "Aaj ka din bohot acha hai".
É útil ter conjuntos de dados Hinglish para ajustar LLMs de código aberto como o LLAMA-2 que não viram esses dados na fase de treinamento. No entanto, o modelo GPT-3 e posteriores já viram dados hinglish durante o treinamento.
Como o GPT-3 e superior viram dados hinglish durante o treinamento, nós os aproveitamos para gerar conversas, que são pós-processadas para gerar um conjunto de dados limpo. O prompt GPT usado foi:
I want you to generate a Hinglish conversation between two young Indians - a male and a female. Feel free to assume the names of these young Indians. The conversation should contain 100 dialogues. Conversation should be in the format [Name]: [Message]. Conversation should be strictly in Hinglish. If the conversation happens in English, I will punish you. The conversation should be slightly flirty in nature - ending in a romantic moment. The conversation is around the topic: '{setting}'. Do not change subjects frequently. If possible, talk about a subject at length.
Consulte topics.md
para os vários contextos de conversa fornecidos no prompt.
Os dados são pós-processados para que cada linha das conversas esteja estritamente no formato [Nome]: [Diálogo]
Sinta-se à vontade para adicionar mais conversas!