Хинглиш — это гибридный язык, сочетающий хинди и английский, широко распространенный в Индии, сочетающий словарный запас и грамматику обоих языков. Хинглиш часто используется в текстовых разговорах жителями Индии. Текст хинглиша в основном содержит английские символы, транслитерированные из предложений хинди. Пример: «Аадж ка дин бохот ача хай».
Полезно иметь наборы данных Hinglish для точной настройки LLM с открытым исходным кодом, таких как LLAMA-2, которые не видели таких данных на этапе обучения. Однако модель GPT-3 и более поздних версий уже видела данные хинглиша во время обучения.
Поскольку GPT-3 и более поздние версии видели данные хинглиша во время обучения, мы используем их для создания разговоров, которые затем подвергаются последующей обработке для создания чистого набора данных. Используемое приглашение GPT было:
I want you to generate a Hinglish conversation between two young Indians - a male and a female. Feel free to assume the names of these young Indians. The conversation should contain 100 dialogues. Conversation should be in the format [Name]: [Message]. Conversation should be strictly in Hinglish. If the conversation happens in English, I will punish you. The conversation should be slightly flirty in nature - ending in a romantic moment. The conversation is around the topic: '{setting}'. Do not change subjects frequently. If possible, talk about a subject at length.
См. topics.md
для получения информации о различных контекстах разговора, представленных в приглашении.
Данные проходят постобработку, чтобы каждая строка в разговорах была строго в формате [Имя]:[Диалог]
Не стесняйтесь добавлять больше разговоров!