뉴스: 중국어 번체에 대한 대규모 언어 모델을 훈련하기 위해 유사한 데이터 수집 전략을 사용했습니다. 모델 성능 및 사용법은 Kyara를 참조하세요.
안녕하세요, 여기 PTT 중국어 코퍼스가 있습니다. 저는 각 기사를 질문과 답변 쌍으로 단순화하기 위해 특정 가정과 방법을 사용했습니다. 여기서 질문은 기사 제목에서 나오고 답변은 기사의 트윗이 됩니다. 불행하게도 이 데이터 세트의 소음은 현재 여전히 약간 큽니다. 기사의 질문과 답변 쌍을 추출하는 더 좋은 방법이 있거나 이 데이터 세트에서 개선할 수 있는 부분을 찾으면 저에게 연락해 주세요. . 그리고 모두의 원활한 발전을 기원합니다:>
PTT-Gossiping-Corpus 또는 이 프로젝트의 data
폴더에서 얻을 수 있는 두 가지 데이터 세트가 있습니다.
2015년부터 2017년 6월까지 PTT 팔괘판에서 수집한 기사입니다. 각 줄은 질문과 답변 쌍이며 질문과 답변은 탭( t
) 섹션으로 구분됩니다. 예를 들어
matlab有什麼炫砲一點的圖? 一樣的圖改一改顏色,有點半透明感覺更唬爛炫
有沒有情人節吃什麼cp值最高的八卦 吃屎啊廢話 免費的一餐
姆咪一個人守得住街亭嗎? 引來一堆肥宅穢土轉生 有機會喔
有沒有被落石砸到該反省的八卦 蔡英文執政就故意誇大報導 東森不意外
情人節該帶女朋友去哪慶祝? 用了一整年 對她好一點 送專業乾洗店吧
為什麼 聖結石 會被酸而 這群人 不會? 質感 劇本 成員 都差很多好嗎 不要拿腎結石來污辱這群人
為什麼慶祝228會被罵可是慶端午不會? 因為屈原不是台灣人,是楚國人。
有沒有戰神阿瑞斯的八卦? 爵士就是阿瑞斯 男主角最後死了
理論與實務最脫節的系 哪個系不脫節...你問最不脫節的簡單多了...
為什麼PTT這麼多人看棒球 肥宅才看棒球 系壘一堆胖子
為什麼達摩祖師傳那麼好看? 達摩從頭到尾都是被動 (別人問他問題
현재 418,202개의 Q&A 일치 항목이 있지만 일부 기사에 트윗이 없기 때문에 모든 일치 항목이 유효하지 않습니다. 이러한 질문에 대한 답변은沒有資料
것으로 표시됩니다(총 650개).
데이터 세트의 새 버전은 Gossiping-QA-Dataset.txt에서 확장되어 2018년과 2019년의 일부 기사를 추가하고 총 774,114개의 질문 및 답변 쌍을 포함합니다. 데이터 형식은 question
과 answer
두 개의 열을 포함하는 csv로 조정됩니다. 팬더를 사용하여 쉽게 로드할 수 있습니다.
import pandas as pd
qa_corpus = pd.read_csv("data/Gossiping-QA-Dataset-2_0.csv")
qa_corpus.head()
# question answer
# 173763 今年房市是多還是空? 有台北市的房子 再來討論
# 216985 有沒有台灣高登拉姆齊-劉一帆的八卦? 餐飲界賈伯斯
# 679552 什麼時候會覺得台灣治安很差? 台灣一年輾死三千多人
# 349323 有沒有早上起來運動很舒服的八卦? 肥宅每天都在運動,手部運動
# 42228 迪士尼還有什麼片子適合拍成真人版 想說我剛剛不是進sex版啊...
데이터세트가 연구에 도움이 된다고 생각하시면 저희 프로젝트를 인용해 주세요.
@misc{
kai-chou yang_2019,
title={PTT-Gossiping-Corpus},
url={https://www.kaggle.com/dsv/676336},
DOI={10.34740/DVS/676336},
publisher={Kaggle},
author={Kai-Chou Yang},
year={2019}
}