The-Pile 用のデータを準備した Literotica をダウンロード、解析、フィルターします。
データは、各カテゴリをスパイダー化し、各ストーリーをスパイダー化し、各ページをフォローアップすることによって取得されます。本文以外のデータはフィルタリングされません。
✔ Saved to data/Literotica.jsonl
ℹ Saved 473,653 stories
ℹ Uncompressed filesize 12,736,536,394
ℹ Compressed filesize 4,426,369,159
データ ソースは一時的にホストされています
> sha256sum Literotica.jsonl.zst
3c6b968f851831c6345f175b394416f7521da3bacd90fdc827093f0d310bd4ef Literotica.jsonl.zst