DialogStudio下載 - DialogStudio原始碼下載

DialogStudio

Ai源碼

1.0.0

下載

紙、Huggingface、模型、Twitter

DialogStudio ：為對話式人工智慧打造最豐富、最多樣化的統一資料集收集與指令感知模型

訊息！

？ [AI Agent] 2024 年 3 月 18 日：更新 AI Agent 的 xLAM 。查看 xLAM 以取得與 AI Agent 相關的最新資料和模型！
？ [資料集檢視器]。 2024 年 3 月 17 日：HuggingFace 上資料集檢視器問題的更新：請參閱此儲存庫以查看每個資料集，其中我們在每個資料資料夾下提供5 個轉換後的範例以及5 個原始範例。例如，ShareGPT 包含兩個檔案：converted_examples.json 和original_example.json。
[上傳模型] 2023年8月18日。我們上傳了 1.0 版模型（ DialogStudio -t5-base-v1.0、 DialogStudio -t5-large-v1.0、 DialogStudio -t5-3b-v1.0），並在一些選定的DialogStudio資料集和1000 多個常規任務上進行了訓練。
[版本 1.0.1] 2023 年 8 月 1 日。我們解決了一些對話中的小問題，添加了對選定的基於知識的資料集的提示，刪除了 HuggingFace 登入的要求，並對 SODA 和 ShareGPT 資料集進行了更新。
[首次發布] 2023 年 7 月。我們對最大的統一 Dialog 資料集集合的首次發布感到非常興奮。所有可用資料集的完整清單位於此處。

內容

介紹
載入數據
數據集
模型
執照
引文

介紹

DialogStudio是一個大型集合和統一的對話框資料集。下圖提供了與DialogStudio相關的一般統計資訊的摘要。 DialogStudio統一了每個資料集，同時保留其原始訊息，這有助於支援單一資料集和大型語言模型 (LLM) 訓練的研究。所有可用資料集的完整清單位於此處。

數據可透過 Huggingface 下載，如載入資料中所述。我們還為此存儲庫中的每個資料集提供了範例。有關更細粒度和特定於類別的詳細信息，請參閱DialogStudio集合中與每個類別相對應的各個資料夾，例如面向任務的對話類別下的 MULTIWOZ2_2 資料集。

DialogStudio根據六個關鍵標準評估對話質量，即理解、相關性、正確性、連貫性、完整性和整體品質。每個標準的評分範圍為 1 到 5，最高分保留給特殊對話。

鑑於DialogStudio中包含大量資料集，我們使用「gpt-3.5-turbo」來評估 33 個不同的資料集。可以透過連結存取用於此評估的相應腳本。

我們的對話品質評估結果如下所示。我們打算在接下來的一段時間內發佈單獨選擇的對話的評估分數。

載入數據

您可以透過聲明{dataset_name} （即資料集資料夾名稱）從 HuggingFace 中心載入DialogStudio中的任何資料集。所有可用的資料集都在資料集內容中進行了描述。

以下是在任務導向對話的類別下載入 MULTIWOZ2_2 資料集的範例：

載入資料集

 from datasets import load_dataset

dataset = load_dataset ( 'Salesforce/ DialogStudio ' , 'MULTIWOZ2_2' )

這是MultiWOZ 2.2的輸出結構

 DatasetDict ({
    train : Dataset ({
        features : [ 'original dialog id' , 'new dialog id' , 'dialog index' , 'original dialog info' , 'log' , 'prompt' , 'external knowledge non-flat' , 'external knowledge' , 'dst knowledge' , 'intent knowledge' ],
        num_rows : 8437
    })
    validation : Dataset ({
        features : [ 'original dialog id' , 'new dialog id' , 'dialog index' , 'original dialog info' , 'log' , 'prompt' , 'external knowledge non-flat' , 'external knowledge' , 'dst knowledge' , 'intent knowledge' ],
        num_rows : 1000
    })
    test : Dataset ({
        features : [ 'original dialog id' , 'new dialog id' , 'dialog index' , 'original dialog info' , 'log' , 'prompt' , 'external knowledge non-flat' , 'external knowledge' , 'dst knowledge' , 'intent knowledge' ],
        num_rows : 1000
    })
})

數據集

在此 GitHub 儲存庫和 HuggingFace 中心中，資料集分為幾個類別。您可以查看資料集表以獲取更多資訊。您可以單擊每個資料夾來檢查一些範例：

以知識為基礎的對話
自然語言理解
開放領域對話
面向任務的對話
對話總結
對話框推薦對話框

模型

我們推出了在一些選定的DialogStudio資料集上進行訓練的模型 1.0 版（ DialogStudio -t5-base-v1.0、 DialogStudio -t5-large-v1.0、 DialogStudio -t5-3b-v1.0）。檢查每個型號卡以了解更多詳細資訊。

下面是在 CPU 上運行模型的範例：

DialogStudio-t5-base-v1.0") model = AutoModelForSeq2SeqLM.from_pretrained("Salesforce/ DialogStudio -t5-base-v1.0") input_text = "Answer the following yes/no question by reasoning step-by-step. Can you write 200 words in a single tweet?" input_ids = tokenizer(input_text, return_tensors="pt").input_ids outputs = model.generate(input_ids, max_new_tokens=256) print(tokenizer.decode(outputs[0], skip_special_tokens=True))">

 from transformers import AutoTokenizer , AutoModelForSeq2SeqLM

tokenizer = AutoTokenizer . from_pretrained ( "Salesforce/ DialogStudio -t5-base-v1.0" )
model = AutoModelForSeq2SeqLM . from_pretrained ( "Salesforce/ DialogStudio -t5-base-v1.0" )

input_text = "Answer the following yes/no question by reasoning step-by-step. Can you write 200 words in a single tweet?"
input_ids = tokenizer ( input_text , return_tensors = "pt" ). input_ids

outputs = model . generate ( input_ids , max_new_tokens = 256 )
print ( tokenizer . decode ( outputs [ 0 ], skip_special_tokens = True ))

執照

我們的專案在許可方面遵循以下結構：

對於DialogStudio中所有修改的資料集：
- 這些資料集的一部分遵循 Apache License 2.0。
- 有些甚至在修改後仍保留其原始許可證。
- 對於一些缺乏許可的資料集，我們引用了相關論文。
原始資料集許可證：作為參考，我們也將每個資料集的原始可用許可證放入各自的資料集資料夾中。
程式碼：我們的程式碼庫遵循 Apache License 2.0。

有關詳細許可信息，請參閱原始資料集附帶的特定許可。熟悉這些條款非常重要，因為我們不承擔許可問題的責任。

致謝

我們衷心感謝所有為對話式人工智慧領域做出貢獻的資料集作者。儘管付出了精心的努力，我們的引文或參考文獻中仍可能出現不準確的情況。如果您發現任何錯誤或遺漏，請提出問題或提交拉取請求以協助我們改進。謝謝你！

引文

該儲存庫中的資料和程式碼主要是為下面的論文開發或衍生自下面的論文。如果您使用DialogStudio的資料集，我們懇請您引用原始作品和我們自己的作品（已被 EACL 2024 年調查結果接受為長論文）。

DialogStudio, title={ DialogStudio : Towards Richest and Most Diverse Unified Dataset Collection for Conversational AI}, author={Zhang, Jianguo and Qian, Kun and Liu, Zhiwei and Heinecke, Shelby and Meng, Rui and Liu, Ye and Yu, Zhou and Savarese, Silvio and Xiong, Caiming}, journal={arXiv preprint arXiv:2307.10172}, year={2023} }">

 @article{zhang2023 DialogStudio ,
  title={ DialogStudio : Towards Richest and Most Diverse Unified Dataset Collection for Conversational AI},
  author={Zhang, Jianguo and Qian, Kun and Liu, Zhiwei and Heinecke, Shelby and Meng, Rui and Liu, Ye and Yu, Zhou and Savarese, Silvio and Xiong, Caiming},
  journal={arXiv preprint arXiv:2307.10172},
  year={2023}
}