? ニュース: 同様のデータ収集戦略を使用して、繁体字中国語の大規模言語モデルをトレーニングしました。モデルのパフォーマンスと使用法については、Kyara を参照してください。
こんにちは、これは PTT 中国語コーパスです。私は特定の仮定と方法を使用して、各記事を質問と回答のペアに単純化しました。質問は記事のタイトルから来ており、返信は記事のツイートです。 残念ながら、このデータセットのノイズは現時点ではまだ少し大きいです。記事の質問と回答のペアを抽出するより良い方法がある場合、またはこのデータセットの改善できる部分を見つけた場合は、私に連絡してください。また、皆さんのスムーズな発展をお祈りします:>
データ セットは 2 つあり、PTT-Gossiping-Corpus またはこのプロジェクトのdata
フォルダーから取得できます。
2015 年から 2017 年 6 月までの PTT Bagua Edition から収集された記事。各行は質問と回答のペアであり、質問と回答はタブ ( t
) セクションで区切られています。
matlab有什麼炫砲一點的圖? 一樣的圖改一改顏色,有點半透明感覺更唬爛炫
有沒有情人節吃什麼cp值最高的八卦 吃屎啊廢話 免費的一餐
姆咪一個人守得住街亭嗎? 引來一堆肥宅穢土轉生 有機會喔
有沒有被落石砸到該反省的八卦 蔡英文執政就故意誇大報導 東森不意外
情人節該帶女朋友去哪慶祝? 用了一整年 對她好一點 送專業乾洗店吧
為什麼 聖結石 會被酸而 這群人 不會? 質感 劇本 成員 都差很多好嗎 不要拿腎結石來污辱這群人
為什麼慶祝228會被罵可是慶端午不會? 因為屈原不是台灣人,是楚國人。
有沒有戰神阿瑞斯的八卦? 爵士就是阿瑞斯 男主角最後死了
理論與實務最脫節的系 哪個系不脫節...你問最不脫節的簡單多了...
為什麼PTT這麼多人看棒球 肥宅才看棒球 系壘一堆胖子
為什麼達摩祖師傳那麼好看? 達摩從頭到尾都是被動 (別人問他問題
現在、一致する Q&A は 418,202 件ありますが、ツイートがない記事は沒有資料
として表示されるため、すべての一致が有効になるわけではありません (合計 650 件)。
新しいバージョンのデータセットは Gossiping-QA-Dataset.txt を拡張し、2018 年と 2019 年のいくつかの記事を追加しており、合計 774,114 件の質問と回答のペアが含まれています。 データ形式は csv に調整されており、 question
とanswer
2 つの列が含まれており、パンダで簡単にロードできます。
import pandas as pd
qa_corpus = pd.read_csv("data/Gossiping-QA-Dataset-2_0.csv")
qa_corpus.head()
# question answer
# 173763 今年房市是多還是空? 有台北市的房子 再來討論
# 216985 有沒有台灣高登拉姆齊-劉一帆的八卦? 餐飲界賈伯斯
# 679552 什麼時候會覺得台灣治安很差? 台灣一年輾死三千多人
# 349323 有沒有早上起來運動很舒服的八卦? 肥宅每天都在運動,手部運動
# 42228 迪士尼還有什麼片子適合拍成真人版 想說我剛剛不是進sex版啊...
データセットがあなたの研究に役立つと思われる場合は、私たちのプロジェクトを引用してください。
@misc{
kai-chou yang_2019,
title={PTT-Gossiping-Corpus},
url={https://www.kaggle.com/dsv/676336},
DOI={10.34740/DVS/676336},
publisher={Kaggle},
author={Kai-Chou Yang},
year={2019}
}