本專案基於https://github.com/Spritualkb/yuque-spider-plus/專案進行修改
語雀文件抓取工具(爬蟲) 可以保存任意使用者整個語雀知識庫為Markdown格式(包含完整目錄結構和索引) 修復檔案名稱特殊字符,導致路徑不存在的問題。
使用: 安裝python3
https://www.python.org/downloads/
執行安裝運作模組
pip install requests tqdm urllib3
執行抓取:
python3 main.py 语雀文档地址
demo: python3 main.py https://www.yuque.com/burpheart/phpaudit
在没有登录语雀的情况下:
复制别人知识库时,查看cookie
在登录语雀的情况下:
直接复制所有cookie
命令列
範例1:提供URL 和Cookie
python main.py " https://www.yuque.com/burpheart/phpaudit " --cookie " verified_books=**** "
範例2:提供URL、Cookie 和輸出路徑
python main . py "https://www.yuque.com/burpheart/phpaudit" - - cookie "verified_books=****" - - output "download"
範例3:僅提供URL
python main.py " https://www.yuque.com/burpheart/phpaudit "
範例4:提供URL 和輸出路徑
python main.py " https://www.yuque.com/burpheart/phpaudit " --output " download "
範例5:使用預設參數(顯示幫助資訊)
python main.py
修復出現部分圖片無法本地載入的情況,把網路圖片下載下來並把markdown對應的圖片路徑替換為相對路徑的./assets路徑下