ภาษาอังกฤษ | 简体中文
การแปลกระดาษทางวิทยาศาสตร์ PDF และการเปรียบเทียบสองภาษา
อย่าลังเลที่จะให้ข้อเสนอแนะในปัญหา GitHub, Telegram Group หรือ QQ Group
คุณสามารถลองใช้บริการสาธารณะออนไลน์โดยไม่ต้องติดตั้ง
คุณสามารถลองตัวอย่างของเราเกี่ยวกับ HuggingFace โดยไม่ต้องติดตั้ง โปรดทราบว่าทรัพยากรการคำนวณของการสาธิตนั้นมี จำกัด ดังนั้นโปรดหลีกเลี่ยงการละเมิดพวกเขา
เราให้สามวิธีในการใช้โครงการนี้: Commandline, GUI และ Docker
Python ติดตั้ง (3.8 <= เวอร์ชัน <= 3.12)
ติดตั้งแพ็คเกจของเรา:
pip install pdf2zh
ดำเนินการแปลไฟล์ที่สร้างขึ้นในไดเรกทอรีการทำงานปัจจุบัน:
pdf2zh document.pdf
Python ติดตั้ง (3.8 <= เวอร์ชัน <= 3.12)
ติดตั้งแพ็คเกจของเรา:
pip install pdf2zh
เริ่มใช้ในเบราว์เซอร์:
pdf2zh -i
หาก Browswer ของคุณไม่ได้เริ่มโดยอัตโนมัติ Goto
http://localhost:7860/
ดูเอกสารสำหรับ GUI สำหรับรายละเอียดเพิ่มเติม
ดึงและเรียกใช้:
docker pull byaidu/pdf2zh
docker run -d -p 7860:7860 byaidu/pdf2zh
เปิดในเบราว์เซอร์:
http://localhost:7860/
สำหรับการปรับใช้ Docker บนบริการคลาวด์:
ดำเนินการคำสั่งการแปลในบรรทัดคำสั่งเพื่อสร้างเอกสารที่แปล example-zh.pdf
และเอกสารสองภาษา example-dual.pdf
ในไดเรกทอรีการทำงานปัจจุบัน ใช้ Google เป็นบริการแปลเริ่มต้น
ในตารางต่อไปนี้เราแสดงรายการตัวเลือกขั้นสูงทั้งหมดสำหรับการอ้างอิง:
ตัวเลือก | การทำงาน | ตัวอย่าง |
---|---|---|
ไฟล์ | ไฟล์ท้องถิ่น | pdf2zh ~/local.pdf |
ลิงค์ | ไฟล์ออนไลน์ | pdf2zh http://arxiv.org/paper.pdf |
-i | ป้อน GUI | pdf2zh -i |
-p | การแปลเอกสารบางส่วน | pdf2zh example.pdf -p 1 |
-li | ภาษาต้นฉบับ | pdf2zh example.pdf -li en |
-lo | ภาษาเป้าหมาย | pdf2zh example.pdf -lo zh |
-s | บริการแปล | pdf2zh example.pdf -s deepl |
-t | มัลติเธรด | pdf2zh example.pdf -t 1 |
-o | เอาต์พุต Dir | pdf2zh example.pdf -o output |
-f , -c | ข้อยกเว้น | pdf2zh example.pdf -f "(MS.*)" |
บริการบางอย่างต้องการการตั้งค่าตัวแปรสภาพแวดล้อม
เอกสารทั้งหมด
pdf2zh example.pdf
ส่วนหนึ่งของเอกสาร
pdf2zh example.pdf -p 1-3,5
ดูรหัสภาษา Google, รหัสภาษา deepl
pdf2zh example.pdf -li en -lo ja
Deepl
ดู deepl
ตั้งค่า envs เพื่อสร้างจุดสิ้นสุดเช่น: {DEEPL_SERVER_URL}/translate
DEEPL_SERVER_URL
(ไม่บังคับ), เช่น export DEEPL_SERVER_URL=https://api.deepl.com
DEEPL_AUTH_KEY
, เช่น export DEEPL_AUTH_KEY=xxx
pdf2zh example.pdf -s deepl
Deeplx
ดู deeplx
ตั้งค่า envs เพื่อสร้างจุดสิ้นสุดเช่น: {DEEPL_SERVER_URL}/translate
DEEPLX_SERVER_URL
(ไม่บังคับ), เช่น export DEEPLX_SERVER_URL=https://api.deeplx.org
DEEPLX_AUTH_KEY
, เช่น export DEEPLX_AUTH_KEY=xxx
pdf2zh example.pdf -s deeplx
โอลลา
ดู Ollama
ตั้งค่า envs เพื่อสร้างจุดสิ้นสุดเช่น: {OLLAMA_HOST}/api/chat
OLLAMA_HOST
(ไม่บังคับ), เช่น export OLLAMA_HOST=https://localhost:11434
pdf2zh example.pdf -s ollama:gemma2
LLM พร้อม schemas ที่เข้ากันได้ของ OpenAI (OpenAI / SiliconCloud / Zhipu)
ดู Siliconcloud, Zhipu
ตั้งค่า envs เพื่อสร้างจุดสิ้นสุดเช่น: {OPENAI_BASE_URL}/chat/completions
OPENAI_BASE_URL
(ไม่บังคับ), เช่น export OPENAI_BASE_URL=https://api.openai.com/v1
OPENAI_API_KEY
, เช่น export OPENAI_API_KEY=xxx
pdf2zh example.pdf -s openai:gpt-4o
สีฟ้า
ดูการแปลข้อความ Azure
จำเป็นต้องมี envs ต่อไปนี้:
AZURE_APIKEY
, เช่น export AZURE_APIKEY=xxx
AZURE_ENDPOINT
, เช่น export AZURE_ENDPOINT=https://api.translator.azure.cn/
AZURE_REGION
เช่น export AZURE_REGION=chinaeast2
pdf2zh example.pdf -s azure
Tencent Machine Translation
ดูการแปลเครื่อง Tencent
จำเป็นต้องมี envs ต่อไปนี้:
TENCENT_SECRET_ID
, เช่น export TENCENT_SECRET_ID=AKIDxxx
TENCENT_SECRET_KEY
, เช่น export TENCENT_SECRET_KEY=xxx
pdf2zh example.pdf -s tencent
ใช้ regex เพื่อระบุตัวอักษรสูตรและอักขระที่ต้องเก็บรักษาไว้:
pdf2zh example.pdf -f " (CM[^RT].*|MS.*|.*Ital) " -c " ((|||)|+|=|d|[u0080-ufaff]) "
ใช้ -t
เพื่อระบุจำนวนเธรดที่จะใช้ในการแปล:
pdf2zh example.pdf -t 1
การแยกวิเคราะห์เค้าโครงด้วย paddlex, papermage, sam2
แก้ไขการหมุนของหน้าสารบัญรูปแบบของรายการ
แก้ไขสูตรพิกเซลในกระดาษเก่า
สนับสนุนภาษาหลายภาษาด้วย Noto Font, Ubuntu Font
ลองใหม่ยกเว้น KeyboardInterrupt
การรวมเอกสาร: pymupdf
การแยกวิเคราะห์เอกสาร: pdfminer.six
การสกัดเอกสาร: Mineru
การแปลแบบมัลติเธรด: MathTranslate
การแยกวิเคราะห์เค้าโครง: Doclayout-Yolo
เอกสารมาตรฐาน: PDF อธิบายแผ่นโกง PDF