Téléchargement de DialogStudio - Téléchargement du code source DialogStudio

DialogStudio

Code Source AI

1.0.0

Télécharger

Papier, Huggingface, Modèle, Twitter

DialogStudio : Vers une collecte d'ensembles de données unifiées les plus riches et les plus diversifiés et des modèles orientés instructions pour l'IA conversationnelle

Nouvelles!

? [AI Agent] 18 mars 2024 : mise à jour de xLAM pour AI Agent . Consultez xLAM pour connaître les dernières données et modèles pertinents pour AI Agent !
? [Visionneuse d'ensembles de données]. 17 mars 2024 : mise à jour pour les problèmes de visionneuse d'ensembles de données sur HuggingFace : veuillez vous référer à ce dépôt pour voir chaque ensemble de données, où nous fournissons 5 exemples convertis ainsi que 5 exemples originaux sous chaque dossier de données. Par exemple, ShareGPT contient deux fichiers : convert_examples.json et original_example.json.
[Télécharger des modèles] 18 août 2023 . Nous téléchargeons des modèles version 1.0 ( DialogStudio -t5-base-v1.0, DialogStudio -t5-large-v1.0, DialogStudio -t5-3b-v1.0) formés sur quelques ensembles de données DialogStudio sélectionnés et plus de 1000 tâches générales.
[Version 1.0.1] 1er août 2023 . Nous avons résolu des problèmes mineurs dans quelques dialogues, ajouté des invites pour certains ensembles de données fondés sur des connaissances, supprimé les exigences de connexion HuggingFace et mis à jour les ensembles de données SODA et ShareGPT.
[Publication initiale] juillet 2023 . Nous sommes ravis de la sortie initiale de la plus grande collection d'ensembles de données Dialog unifiée. La liste complète de tous les ensembles de données disponibles est ici.

Contenu

Introduction
Chargement des données
Ensembles de données
Modèle
Licence
Citation

Introduction

DialogStudio est une vaste collection et des ensembles de données de dialogue unifiés. La figure ci-dessous fournit un résumé des statistiques générales associées à DialogStudio . DialogStudio a unifié chaque ensemble de données tout en préservant ses informations d'origine, ce qui contribue à soutenir la recherche sur des ensembles de données individuels et la formation au Large Language Model (LLM). La liste complète de tous les ensembles de données disponibles est ici.

Les données sont téléchargeables via Huggingface comme introduit dans Chargement des données. Nous fournissons également des exemples pour chaque ensemble de données dans ce dépôt. Pour des détails plus granulaires et spécifiques à une catégorie, veuillez vous référer aux dossiers individuels correspondant à chaque catégorie au sein de la collection DialogStudio , par exemple l'ensemble de données MULTIWOZ2_2 sous la catégorie dialogues orientés tâches.

DialogStudio évalue la qualité du dialogue sur la base de six critères critiques, à savoir la compréhension, la pertinence, l'exactitude, la cohérence, l'exhaustivité et la qualité globale. Chaque critère est noté sur une échelle de 1 à 5, les notes les plus élevées étant réservées aux dialogues exceptionnels.

Compte tenu du grand nombre d'ensembles de données incorporés dans DialogStudio , nous avons utilisé « gpt-3.5-turbo » pour évaluer 33 ensembles de données distincts. Le script correspondant utilisé pour cette évaluation est accessible via le lien.

Les résultats de notre évaluation de la qualité du dialogue sont présentés ci-dessous. Nous avons l'intention de publier les résultats d'évaluation des dialogues sélectionnés individuellement dans la période à venir.

Chargement des données

Vous pouvez charger n'importe quel ensemble de données dans DialogStudio à partir du hub HuggingFace en réclamant le {dataset_name} , qui est exactement le nom du dossier de l'ensemble de données. Tous les ensembles de données disponibles sont décrits dans le contenu de l'ensemble de données.

Vous trouverez ci-dessous un exemple de chargement de l'ensemble de données MULTIWOZ2_2 dans la catégorie des dialogues orientés tâches :

Charger l'ensemble de données

 from datasets import load_dataset

dataset = load_dataset ( 'Salesforce/ DialogStudio ' , 'MULTIWOZ2_2' )

Voici la structure de sortie de MultiWOZ 2.2

 DatasetDict ({
    train : Dataset ({
        features : [ 'original dialog id' , 'new dialog id' , 'dialog index' , 'original dialog info' , 'log' , 'prompt' , 'external knowledge non-flat' , 'external knowledge' , 'dst knowledge' , 'intent knowledge' ],
        num_rows : 8437
    })
    validation : Dataset ({
        features : [ 'original dialog id' , 'new dialog id' , 'dialog index' , 'original dialog info' , 'log' , 'prompt' , 'external knowledge non-flat' , 'external knowledge' , 'dst knowledge' , 'intent knowledge' ],
        num_rows : 1000
    })
    test : Dataset ({
        features : [ 'original dialog id' , 'new dialog id' , 'dialog index' , 'original dialog info' , 'log' , 'prompt' , 'external knowledge non-flat' , 'external knowledge' , 'dst knowledge' , 'intent knowledge' ],
        num_rows : 1000
    })
})

Ensembles de données

Les ensembles de données sont divisés en plusieurs catégories dans ce référentiel GitHub et ce hub HuggingFace. Vous pouvez consulter le tableau de l'ensemble de données pour plus d'informations. Et vous pouvez cliquer sur chaque dossier pour vérifier quelques exemples :

Dialogues fondés sur les connaissances
Compréhension du langage naturel
Dialogues en domaine ouvert
Dialogues axés sur les tâches
Dialogue-Résumé
Dialogues de recommandation conversationnelle

Modèle

Nous avons déployé la version 1.0 des modèles ( DialogStudio -t5-base-v1.0, DialogStudio -t5-large-v1.0, DialogStudio -t5-3b-v1.0) formés sur quelques ensembles de données DialogStudio sélectionnés. Vérifiez chaque carte modèle pour plus de détails.

Vous trouverez ci-dessous un exemple d'exécution d'un modèle sur CPU :

DialogStudio-t5-base-v1.0") model = AutoModelForSeq2SeqLM.from_pretrained("Salesforce/ DialogStudio -t5-base-v1.0") input_text = "Answer the following yes/no question by reasoning step-by-step. Can you write 200 words in a single tweet?" input_ids = tokenizer(input_text, return_tensors="pt").input_ids outputs = model.generate(input_ids, max_new_tokens=256) print(tokenizer.decode(outputs[0], skip_special_tokens=True))">

 from transformers import AutoTokenizer , AutoModelForSeq2SeqLM

tokenizer = AutoTokenizer . from_pretrained ( "Salesforce/ DialogStudio -t5-base-v1.0" )
model = AutoModelForSeq2SeqLM . from_pretrained ( "Salesforce/ DialogStudio -t5-base-v1.0" )

input_text = "Answer the following yes/no question by reasoning step-by-step. Can you write 200 words in a single tweet?"
input_ids = tokenizer ( input_text , return_tensors = "pt" ). input_ids

outputs = model . generate ( input_ids , max_new_tokens = 256 )
print ( tokenizer . decode ( outputs [ 0 ], skip_special_tokens = True ))

Licence

Notre projet suit la structure suivante en ce qui concerne les licences :

Pour tous les jeux de données modifiés dans DialogStudio :
- Une partie de ces ensembles de données est sous la licence Apache 2.0.
- Certains conservent leurs licences d'origine même après modification.
- Pour quelques ensembles de données dépourvus de licence, nous avons cité les articles pertinents.
Licences d'ensemble de données d'origine : à titre de référence, nous plaçons également les licences initialement disponibles pour chaque ensemble de données dans leurs dossiers d'ensemble de données respectifs.
Code : Notre base de code est sous la licence Apache 2.0.

Pour des informations détaillées sur les licences, veuillez vous référer aux licences spécifiques accompagnant les ensembles de données d'origine. Il est important de vous familiariser avec ces conditions car nous n'assumons aucune responsabilité pour les problèmes de licence.

Reconnaissance

Nous remercions sincèrement tous les auteurs d’ensembles de données qui ont contribué au domaine de l’IA conversationnelle. Malgré des efforts minutieux, des inexactitudes dans nos citations ou références peuvent survenir. Si vous repérez des erreurs ou des omissions, veuillez soulever un problème ou soumettre une pull request pour nous aider à nous améliorer. Merci!

Citation

Les données et le code de ce référentiel sont principalement développés pour ou dérivés de l'article ci-dessous. Si vous utilisez des ensembles de données de DialogStudio , nous vous demandons de bien vouloir citer à la fois le travail original et notre propre travail (accepté par les résultats de l'EACL 2024 en tant que document long).

DialogStudio, title={ DialogStudio : Towards Richest and Most Diverse Unified Dataset Collection for Conversational AI}, author={Zhang, Jianguo and Qian, Kun and Liu, Zhiwei and Heinecke, Shelby and Meng, Rui and Liu, Ye and Yu, Zhou and Savarese, Silvio and Xiong, Caiming}, journal={arXiv preprint arXiv:2307.10172}, year={2023} }">

 @article{zhang2023 DialogStudio ,
  title={ DialogStudio : Towards Richest and Most Diverse Unified Dataset Collection for Conversational AI},
  author={Zhang, Jianguo and Qian, Kun and Liu, Zhiwei and Heinecke, Shelby and Meng, Rui and Liu, Ye and Yu, Zhou and Savarese, Silvio and Xiong, Caiming},
  journal={arXiv preprint arXiv:2307.10172},
  year={2023}
}

Contribution

Nous invitons avec enthousiasme les contributions de la communauté ! Rejoignez-nous dans notre mission commune pour faire avancer le domaine de l’IA conversationnelle !

Développer

Informations supplémentaires

Version 1.0.0
Type Code Source AI
Date de mise à jour 2024-12-31
taille 50MB
Provenant de Github

Applications connexes

node telegram bot api

2024-12-14
typebot.io

2024-12-14
python wechaty getting started

2024-12-14
TranscriberBot

2024-12-14
genal chat

2024-12-14
Facemoji

2024-12-14

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
node telegram bot api

Code Source AI

v0.50.0
typebot.io

Code Source AI

v3.1.2
python wechaty getting started

Code Source AI

1.0.0
waymo open dataset

Autre code source

December 2023 Update
termwind

Autres catégories

v2.3.0
wp functions

Autres catégories

1.0.0

Actualités connexes Tout