下载、解析和过滤 Literotica,为 The-Pile 做好数据准备。
数据是通过抓取每个类别、抓取每个故事,然后跟踪每个页面来获取的。正文之外的数据不会被过滤。
✔ Saved to data/Literotica.jsonl
ℹ Saved 473,653 stories
ℹ Uncompressed filesize 12,736,536,394
ℹ Compressed filesize 4,426,369,159
数据源临时托管于
> sha256sum Literotica.jsonl.zst
3c6b968f851831c6345f175b394416f7521da3bacd90fdc827093f0d310bd4ef Literotica.jsonl.zst