El hinglish es un idioma híbrido que combina hindi e inglés, comúnmente hablado en la India, y que combina vocabulario y gramática de ambos idiomas. El hinglish se utiliza a menudo en conversaciones de texto entre personas de la India. El texto en hinglish contiene principalmente caracteres en inglés, transliterados de oraciones en hindi. Ejemplo: "Aaj ka din bohot acha hai".
Es útil tener conjuntos de datos en hinglish para ajustar los LLM de código abierto como LLAMA-2 que no han visto dichos datos en la fase de capacitación. Sin embargo, los modelos GPT-3 y posteriores ya han visto datos importantes durante el entrenamiento.
Dado que GPT-3 y superiores han visto datos hinglish durante el entrenamiento, los aprovechamos para generar conversaciones, que se procesan posteriormente para generar un conjunto de datos limpio. El mensaje GPT utilizado fue:
I want you to generate a Hinglish conversation between two young Indians - a male and a female. Feel free to assume the names of these young Indians. The conversation should contain 100 dialogues. Conversation should be in the format [Name]: [Message]. Conversation should be strictly in Hinglish. If the conversation happens in English, I will punish you. The conversation should be slightly flirty in nature - ending in a romantic moment. The conversation is around the topic: '{setting}'. Do not change subjects frequently. If possible, talk about a subject at length.
Consulte topics.md
para conocer los diversos contextos de conversación proporcionados en el mensaje.
Los datos se procesan posteriormente para que cada línea de las conversaciones tenga estrictamente el formato [Nombre]: [Diálogo]
¡Siéntete libre de agregar más conversaciones!