下載、解析和過濾 Literotica,為 The-Pile 做好資料準備。
數據是透過抓取每個類別、抓取每個故事,然後追蹤每個頁面來獲取的。正文以外的資料不會被過濾。
✔ Saved to data/Literotica.jsonl
ℹ Saved 473,653 stories
ℹ Uncompressed filesize 12,736,536,394
ℹ Compressed filesize 4,426,369,159
資料來源暫時託管於
> sha256sum Literotica.jsonl.zst
3c6b968f851831c6345f175b394416f7521da3bacd90fdc827093f0d310bd4ef Literotica.jsonl.zst