ภาษาจีน • ภาษาอังกฤษ • ภาษาญี่ปุ่น
ซอฟต์แวร์ OCR ออฟไลน์แบบโอเพ่นซอร์สฟรีและรองรับแบทช์
ใช้ได้กับ Windows7 x64, Linux x64
ฟรี : โค้ดทั้งหมดในโครงการนี้เป็นโอเพ่นซอร์สและฟรีโดยสมบูรณ์
สะดวก : แตกไฟล์แล้วใช้งาน ทำงานแบบออฟไลน์ ไม่ต้องใช้เครือข่าย
มีประสิทธิภาพ : มาพร้อมกับเอ็นจิ้น OCR ออฟไลน์ที่มีประสิทธิภาพสูงและไลบรารีการจดจำภาษาหลายภาษาในตัว
ยืดหยุ่น : รองรับวิธีการโทรภายนอก เช่น บรรทัดคำสั่งและอินเทอร์เฟซ HTTP
ฟังก์ชั่น : OCR ภาพหน้าจอ / Batch OCR / การจดจำ PDF / รหัส QR / การจดจำสูตร
การจดจำภาพหน้าจอ
การวิเคราะห์การเรียงพิมพ์ - ระบุประเภทต่างๆ และข้อความเอาต์พุตตามลำดับที่ถูกต้อง
บัตรประจำตัวแบทช์
ละเว้นพื้นที่ - แยกข้อความที่ลายน้ำของภาพหน้าจอ
รหัส QR รองรับการสแกนหรือสร้างรูปภาพรหัส QR
การจดจำเอกสารจะแยกข้อความจากการสแกน PDF หรือแปลงเป็น PDF ที่สามารถค้นหาได้สองชั้น
การตั้งค่าส่วนกลาง
โทรบรรทัดคำสั่ง
อินเตอร์เฟซ HTTP
สร้างโครงการ (Windows, Linux)
นักพัฒนาโปรดอย่าลืมอ่านโครงการก่อสร้าง
ลิงก์เผยแพร่ต่อไปนี้ได้รับการดูแลเป็นเวลานานและให้ดาวน์โหลดเวอร์ชันที่เสถียร
Lanzoul Cloud https://hiroi-sora.lanzoul.com/s/umi-ocr (แนะนำในประเทศ ไม่มีการลงทะเบียน/ไม่จำกัดความเร็ว)
GitHub https://github.com/hiroi-sora/Umi-OCR/releases/latest
ที่มา Forge https://sourceforge.net/projects/umi-ocr
Scoop เป็นโปรแกรมติดตั้งบรรทัดคำสั่งภายใต้ Windows ที่สามารถจัดการหลาย ๆ แอพพลิเคชั่นได้อย่างง่ายดาย คุณสามารถติดตั้ง Scoop ก่อน จากนั้นใช้คำแนะนำต่อไปนี้เพื่อติดตั้ง Umi-OCR
:
เพิ่มที่ฝาก extras
:
scoop bucket add extras
(ทางเลือก 1) ติดตั้ง Umi-OCR (มาพร้อมกับเอ็นจิ้น Rapid-OCR
เข้ากันได้ดี):
scoop install extras/umi-ocr
(ทางเลือก 2) ติดตั้ง Umi-OCR (มาพร้อมกับเอ็นจิ้น Paddle-OCR
เร็วกว่าเล็กน้อย):
scoop install extras/umi-ocr-paddle
อย่าติดตั้งทั้งสองอย่างพร้อมกัน ทางลัดอาจถูกเขียนทับ แต่คุณสามารถนำเข้าปลั๊กอินเพิ่มเติมและเปลี่ยนไปใช้กลไก OCR อื่นได้ตลอดเวลา
แพ็คเกจซอฟต์แวร์ที่วางจำหน่ายจะถูกดาวน์โหลดเป็นแพ็คเกจบีบอัด .7z
หรือแพ็คเกจขยายในตัว .7z.exe
แพ็คเกจที่ขยายในตัวสามารถขยายขนาดไฟล์บนคอมพิวเตอร์ที่ไม่ได้ติดตั้งซอฟต์แวร์บีบอัดไว้
ซอฟต์แวร์นี้ไม่จำเป็นต้องติดตั้ง หลังจากแตกไฟล์แล้ว ให้คลิก Umi-OCR.exe
เพื่อเริ่มโปรแกรม
หากคุณพบปัญหาใด ๆ โปรดส่งปัญหาและฉันจะพยายามอย่างดีที่สุดเพื่อช่วยเหลือคุณ
อินเทอร์เฟซที่รองรับโดย Umi-OCR มีหลายภาษา เมื่อคุณเปิดซอฟต์แวร์เป็นครั้งแรก ภาษาจะเปลี่ยนโดยอัตโนมัติตามการตั้งค่าระบบของคอมพิวเตอร์ของคุณ
หากคุณต้องการเปลี่ยนภาษาด้วยตนเอง โปรดดูภาพด้านล่าง全局设置
→语言/Language
Umi-OCR v2 ประกอบด้วยชุด แท็บ ที่ยืดหยุ่นและใช้งานง่าย คุณสามารถเปิดแท็บที่จำเป็นได้ตามความต้องการของคุณ
คุณสามารถสลับ หน้าต่างไปด้านบนได้ ที่มุมซ้ายบนของแถบแท็บ สามารถล็อคแท็บ ที่มุมขวาบนเพื่อป้องกันการปิดแท็บโดยไม่ตั้งใจในระหว่างการใช้งานประจำวัน
OCR ภาพหน้าจอ : หลังจากเปิดหน้านี้ คุณสามารถใช้ปุ่มลัดเพื่อสร้างภาพหน้าจอและจดจำข้อความในรูปภาพได้
ในแถบแสดงตัวอย่างรูปภาพทางด้านซ้าย คุณสามารถเลือกและคัดลอกด้วยเมาส์ได้โดยตรง
ในคอลัมน์บันทึกการระบุตัวตนทางด้านขวา คุณสามารถแก้ไขข้อความได้ และสามารถเลือกและคัดลอกบันทึกหลายรายการได้
นอกจากนี้ยังรองรับการคัดลอกรูปภาพจากที่อื่นและวางลงใน Umi-OCR เพื่อการจดจำ
เกี่ยวกับฟังก์ชันการจดจำสูตร
เกี่ยวกับ กระบวนการหลังการประมวลผลข้อความ OCR - โซลูชันการวิเคราะห์การเรียงพิมพ์ : การเรียงพิมพ์และลำดับของผลลัพธ์ OCR สามารถจัดระเบียบได้เพื่อทำให้ข้อความมีความเหมาะสมมากขึ้นสำหรับการอ่านและการใช้งาน แผนเริ่มต้น:
多栏-按自然段换行
: เหมาะสำหรับสถานการณ์ส่วนใหญ่ จดจำเค้าโครงหลายคอลัมน์โดยอัตโนมัติ และตัดบรรทัดตามกฎของย่อหน้าทั่วไป
多栏-总是换行
: แต่ละคำสั่งจะถูกรวม
多栏-无换行
: บังคับให้คำสั่งทั้งหมดรวมเป็นบรรทัดเดียวกัน
单栏-按自然段换行
/总是换行
/无换行
: คล้ายกับด้านบน แต่ไม่ได้แยกความแตกต่างระหว่างเค้าโครงหลายคอลัมน์
单栏-保留缩进
: เหมาะสำหรับการแยกวิเคราะห์ภาพหน้าจอโค้ด โดยคงการเยื้องที่จุดเริ่มต้นของบรรทัดและช่องว่างในบรรทัด
不做处理
: เอาต์พุตดั้งเดิมของกลไก OCR โดยมีการขึ้นบรรทัดใหม่สำหรับแต่ละคำสั่งตามค่าเริ่มต้น
โซลูชันข้างต้นสามารถจัดการการเรียงพิมพ์แนวนอนและแนวตั้ง (จากขวาไปซ้าย) ได้โดยอัตโนมัติ (ข้อความแนวตั้งยังต้องได้รับการสนับสนุนจากกลไก OCR อีกด้วย)
Batch OCR : หน้านี้ใช้เพื่อนำเข้ารูปภาพในเครื่องเป็นชุดเพื่อการจดจำ
รูปแบบที่รองรับ: jpg, jpe, jpeg, jfif, png, webp, bmp, tif, tiff
รูปแบบที่รองรับสำหรับการบันทึกผลการจดจำ: txt, jsonl, md, csv(Excel)
เช่นเดียวกับ OCR ภาพหน้าจอ รองรับฟังก์ชัน文本后处理
เพื่อจัดระเบียบเค้าโครงและลำดับของข้อความ OCR
ไม่มีการจำกัดจำนวนและสามารถนำเข้ารูปภาพได้หลายร้อยภาพในคราวเดียวสำหรับงานต่างๆ
รองรับการปิดเครื่องอัตโนมัติ/สแตนด์บายหลังจากเสร็จสิ้นงาน
หากคุณต้องการจดจำภาพที่ยาวหรือใหญ่ด้วยพิกเซลขนาดใหญ่ โปรดปรับ: การตั้งค่าหน้า → การจดจำข้อความ → จำกัดความยาวด้านของรูปภาพ → [เพิ่มค่า]
มีฟังก์ชันพิเศษ忽略区域
เกี่ยวกับ การประมวลผลข้อความ OCR หลัง - ละเว้นพื้นที่ : ฟังก์ชั่นพิเศษในชุด OCR เหมาะสำหรับการยกเว้นข้อความที่ไม่ต้องการในรูปภาพ
คุณสามารถป้อนตัวแก้ไขพื้นที่ละเว้นได้ในการตั้งค่าคอลัมน์ด้านขวาของหน้าการระบุแบทช์
ดังตัวอย่างข้างต้น มีลายน้ำ/โลโก้หลายอันที่มุมขวาบนและล่างของรูปภาพ หากภาพดังกล่าวได้รับการจดจำเป็นกลุ่ม ลายน้ำจะรบกวนผลการจดจำ
กดปุ่มขวาค้างไว้แล้ววาดกล่องสี่เหลี่ยมหลายๆ กล่อง ข้อความภายในพื้นที่เหล่านี้จะถูกละเว้นในภารกิจ
โปรดพยายามทำให้กรอบสี่เหลี่ยมมีขนาดใหญ่ที่สุดเท่าที่จะเป็นไปได้เพื่อให้ครอบคลุมตำแหน่งของลายน้ำทั้งหมดที่เป็นไปได้
โปรดทราบว่าเฉพาะบล็อกข้อความทั้งหมดภายในช่องพื้นที่ละเว้น (ไม่ใช่อักขระแต่ละตัว) เท่านั้นที่จะถูกละเว้น ดังแสดงในรูปด้านล่าง สี่เหลี่ยมสีเข้มที่มีขอบสีเหลืองถือเป็นพื้นที่ที่ถูกละเว้น จากนั้นจะมีเพียง key_mouse
เท่านั้นที่จะถูกละเว้น บล็อกข้อความทั้งสองบล็อก pubsub_connector.py
และ pubsub_service.py
ยังคงอยู่
การระบุเอกสาร :
รูปแบบที่รองรับ: pdf, xps, epub, mobi, fb2, cbz
ทำ OCR บนเอกสารที่สแกนหรือแยกข้อความต้นฉบับ สามารถส่งออกเป็น PDF ที่สามารถค้นหาได้สองชั้น
รองรับการตั้งค่า พื้นที่ละเว้น ซึ่งสามารถใช้เพื่อยกเว้นข้อความส่วนหัวและส่วนท้าย
สามารถตั้งค่าให้ ปิด/ไฮเบอร์เนตโดยอัตโนมัติ หลังจากงานเสร็จสิ้น
รหัสสแกน :
ถ่ายภาพหน้าจอ/วาง/ลากลงในรูปภาพในเครื่อง แล้วอ่านโค้ด QR และบาร์โค้ดในนั้น
รองรับหลายรหัสสำหรับภาพเดียว
รองรับ 19 โปรโตคอล ดังนี้:
Aztec
, Codabar
, Code128
, Code39
, Code93
, DataBar
, DataBarExpanded
, DataMatrix
, EAN13
, EAN8
, ITF
, LinearCodes
, MatrixCodes
, MaxiCode
, MicroQRCode
, PDF417
, QRCode
, UPCA
, UPCE
สร้างรหัส :
ป้อนข้อความและสร้างรูปภาพรหัส QR
รองรับ 19 โปรโตคอลและ ระดับการแก้ไขข้อผิดพลาด และพารามิเตอร์อื่นๆ
การตั้งค่าส่วนกลาง : ที่นี่คุณสามารถปรับพารามิเตอร์ส่วนกลางของซอฟต์แวร์ได้ ฟังก์ชั่นที่ใช้กันทั่วไปมีดังนี้:
เพิ่มทางลัดหรือตั้งค่าการสตาร์ทอัตโนมัติเมื่อบู๊ตเครื่องได้ด้วยคลิกเดียว
เปลี่ยน ภาษา ของอินเทอร์เฟซ Umi รองรับภาษาจีนตัวเต็ม อังกฤษ ญี่ปุ่น และภาษาอื่นๆ
สลับธีม อินเทอร์เฟซ Umi มีธีมสว่าง/มืดหลายธีม
ปรับขนาดและ แบบอักษร ของข้อความอินเทอร์เฟซ
สลับปลั๊กอิน OCR
Renderer : อินเทอร์เฟซซอฟต์แวร์รองรับการเรนเดอร์กราฟิกการ์ดแบบเร่งตามค่าเริ่มต้น หากภาพหน้าจอกะพริบและ UI อยู่ในแนวที่ไม่ตรงบนเครื่องของคุณ โปรดปรับ界面和外观
→渲染器
ลองสลับไปใช้รูปแบบการเรนเดอร์อื่น หรือปิดการเร่งด้วยฮาร์ดแวร์
คู่มือบรรทัดคำสั่ง
คู่มืออินเทอร์เฟซ HTTP
ขอขอบคุณนักแปลต่อไปนี้ที่สนับสนุนงานแปลเป็นภาษาท้องถิ่นให้กับ Umi-OCR: (ไม่เรียงลำดับตามลำดับ)
นักแปล | ภาษาที่มีส่วนร่วม |
---|---|
บ๊อบ | อังกฤษ, จีนตัวเต็ม, ญี่ปุ่น |
ชิงเจิ้ง เกา | อังกฤษ, จีนตัวเต็ม |
เวง, เจียหลิง | อังกฤษ, จีนตัวเต็ม |
ลินโซว | อังกฤษ, จีนตัวเต็ม |
เอริค กัว | ภาษาอังกฤษ |
สตีเว่น0081 | ภาษาอังกฤษ |
มาร์กอสฉัน | ภาษาอังกฤษ |
พลัม7x | จีนดั้งเดิม |
ฮิวโก้ | จีนดั้งเดิม |
โดโคモ光 | ญี่ปุ่น |
หยางเป็ง | ภาษาโปรตุเกส |
หากมีข้อมูลที่ไม่ถูกต้องหรือขาดบุคลากร โปรดตอบกลับในการสนทนานี้
โปรเจ็กต์นี้ใช้แพลตฟอร์มออนไลน์ Weblate: Umi-OCR สำหรับการทำงานร่วมกันในการแปลเป็นภาษาท้องถิ่น เรายินดีต้อนรับผู้ใช้ทุกคนให้เข้าร่วมในงานแปล คุณสามารถพิสูจน์อักษร เสริมภาษาที่มีอยู่ หรือเพิ่มภาษาใหม่ได้
โกดังหลัก?
ไลบรารีปลั๊กอิน
รันไทม์ของ Windows
รันไทม์ลินุกซ์
ส่วนต่อท้าย **
ระบุถึงเนื้อหาที่มีอยู่ในคลังสินค้านี้ (主仓库
)
Umi-OCR ├─ Umi-OCR.exe ├─ umi-ocr.sh └─ UmiOCR-data ├─ main.py ** ├─ version.py ** ├─ qt_res ** │ └─ 项目qt资源,包括图标和qml源码 ├─ py_src ** │ └─ 项目python源码 ├─ plugins │ └─ 插件 └─ i18n ** └─ 翻译文件
เอ็นจิ้น OCR ออฟไลน์ที่รองรับ:
PaddleOCR-json
RapidOCR-json
กรอบสภาพแวดล้อมการทำงาน:
PyStand เวอร์ชันที่กำหนดเอง
โปรดดูคำแนะนำในตอนต้นของบันทึกการเปลี่ยนแปลง
โปรดข้ามไปที่คลังสินค้าต่อไปนี้เพื่อดำเนินการปรับใช้สภาพแวดล้อมการพัฒนา/การดำเนินงานของแพลตฟอร์มที่เกี่ยวข้องให้เสร็จสิ้น
หน้าต่าง
ลินุกซ์
โครงการ Umi-OCR ได้รับการพัฒนาและดูแลโดยผู้เขียน hiroi-sora เป็นหลักในเวลาว่าง หากคุณชอบซอฟต์แวร์นี้ กรุณาสนับสนุนมัน
ผู้ใช้ในประเทศสามารถสนับสนุนผู้เขียนผ่าน iPower
กรอบแท็บ
ตัวควบคุม OCR API
ตัวควบคุมงาน OCR
ตัวจัดการธีมรองรับการสลับธีมสว่าง/มืด
ใช้ Batch OCR
ใช้ OCR ภาพหน้าจอ
กลไกปุ่มลัด
เมนูถาดระบบ
การประมวลผลหลังบล็อกข้อความ (การเพิ่มประสิทธิภาพการเรียงพิมพ์)
การล้างหน่วยความจำเครื่องยนต์
อินเทอร์เฟซซอฟต์แวร์มีหลายภาษา
โหมดบรรทัดคำสั่ง
รองรับ Win7
รูปแบบเอาต์พุต Excel (csv)
Esc
ขัดจังหวะการทำงานของภาพหน้าจอ
ไฟล์ธีมภายนอก
การสลับแบบอักษร
กำลังโหลดภาพเคลื่อนไหว
ละเว้นพื้นที่
การรับรู้รหัส QR
หน้าต่างแสดงตัวอย่างรูปภาพของหน้าระบุชุดงาน
การรับรู้ PDF
เรียกเบราว์เซอร์รูปภาพในเครื่องเพื่อเปิดรูปภาพ #335
ทำซ้ำภาพหน้าจอสุดท้าย #357
แก้ไขข้อผิดพลาด: ปัญหาความเข้ากันได้ของการจดจำเอกสารในระบบ Windows 7
อินเทอร์เฟซบรรทัดคำสั่ง HTTP/เพิ่มฟังก์ชันการรับรู้/สร้างโค้ด QR (#423)
เอกสารประกอบสำหรับอินเทอร์เฟซรหัส QR
การย้ายแพลตฟอร์ม Linux
อินเทอร์เฟซการรับรู้เอกสาร HTTP
ฟังก์ชันเหล่านี้เป็นฟังก์ชันที่คาดหวังไว้ อินเทอร์เฟซได้รับการสงวนไว้ในระยะแรกของการพัฒนา และจะดำเนินการอย่างช้าๆ ในระยะยาว
อย่างไรก็ตาม เนื่องจากสภาวะจริงในระหว่างการพัฒนา การออกแบบฟังก์ชันอาจมีการเปลี่ยนแปลง และฟังก์ชันอาจมีการเพิ่มหรือยกเลิก
ปรับโครงสร้างกลไกปลั๊กอินพื้นฐานใหม่
ปลั๊กอิน OCR API ออนไลน์
ปลั๊กอินการรู้จำสูตรทางคณิตศาสตร์อิสระ
แท็บ "สูตรทางคณิตศาสตร์" ให้การจดจำสูตรทางคณิตศาสตร์อิสระ/การแสดงลาเท็กซ์
ตรวจสอบกลไกการอัพเดต
โมดูลหลังการประมวลผลข้อความนอกเหนือจากการวิเคราะห์การเรียงพิมพ์ (เช่น การเก็บตัวเลข การแปลงอักขระครึ่งความกว้าง การแก้ไขข้อผิดพลาดของข้อความ)
ฟังก์ชั่นอินเทอร์เฟซหลักเพิ่มวิธีการทริกเกอร์เหตุการณ์
OCR ออฟไลน์ที่ใช้ GPU
การแปลรูปภาพ
การแปลแบบออฟไลน์
การรับรู้พื้นที่คงที่
ระบุรูปภาพตารางและส่งออกไปยัง Excel
ระบบบันทึกประวัติ
เข้ากันได้กับ MacOS / Ubuntu และแพลตฟอร์มอื่น ๆ