ปรับปรุงการเข้าถึงด้วยการจดจำหน้าจอที่ไร้รอยต่อ
ยินดีต้อนรับสู่ VOCR
ค้นพบความสามารถล้ำสมัยของ VOCR สุดยอดเครื่องมือ OCR และจดจำหน้าจอที่ขับเคลื่อนด้วย AI ซึ่งได้รับการออกแบบมาเพื่อยกระดับประสบการณ์การเข้าถึงแบบดิจิทัลของคุณ นอกเหนือจากคุณสมบัติการนำทางที่เรียบง่ายด้วย OCR แล้ว VOCR ยังทำงานร่วมกับ VoiceOver ได้อย่างราบรื่น ทำให้ผู้ใช้สามารถจับภาพและจดจำเนื้อหาบนหน้าจอได้อย่างง่ายดายด้วยทางลัดที่ใช้งานง่ายและปรับแต่งได้ ด้วยฟีเจอร์อย่าง Real-Time OCR ผู้ใช้สามารถตรวจสอบและอ่านเนื้อหาสด เช่น คำบรรยายได้อย่างต่อเนื่อง ฟังก์ชัน ASK AI ช่วยให้คุณสามารถใช้ประโยชน์จากโมเดล AI ขั้นสูง รวมถึง OpenAI GPT เพื่อถามคำถามโดยละเอียดเกี่ยวกับรูปภาพและรับคำตอบเชิงลึก นอกจากนี้ยังรองรับโมเดลภาษาการมองเห็นในท้องถิ่นผ่าน Ollama เพื่อความเป็นส่วนตัวของคุณ สำรวจด้วย AI ก้าวไปอีกขั้นด้วยการวิเคราะห์รูปภาพ ระบุพื้นที่ต่างๆ และให้คำอธิบายที่ครอบคลุม
ชุดคุณลักษณะที่แข็งแกร่งของ VOCR นำเสนอการควบคุมและความแม่นยำที่เหนือชั้น ทำให้เป็นเครื่องมือที่ขาดไม่ได้สำหรับผู้ใช้ที่กำลังมองหาโซลูชัน OCR ที่ราบรื่น มีประสิทธิภาพ และใช้งานได้สูง ไม่ว่าคุณจะใช้งานแอปพลิเคชันที่ไม่สามารถเข้าถึงได้หรืออยากรู้เกี่ยวกับรูปภาพ VOCR จะช่วยให้คุณทำสิ่งต่างๆ ได้มากขึ้นอย่างง่ายดายและมั่นใจ
คำเตือน : ใช้ภายใต้ความเสี่ยงของคุณเอง!
VOCR ได้รับการเผยแพร่ด้วยความหวังว่าจะเป็นประโยชน์ แต่ไม่มีการรับประกันใดๆ ทั้งโดยชัดแจ้งหรือโดยนัย ถึงความสามารถในการซื้อขายหรือความเหมาะสมสำหรับวัตถุประสงค์เฉพาะ โปรดดูใบอนุญาตสาธารณะทั่วไปของ GNU สำหรับรายละเอียดเพิ่มเติม
ดาวน์โหลด
นี่คือลิงค์โดยตรงสำหรับดาวน์โหลด VOCR v2.0.1
ตั้งค่า
เพื่อให้แน่ใจว่า VOCR ทำงานได้อย่างถูกต้อง การปฏิบัติตามทุกขั้นตอนอย่างแม่นยำเป็นสิ่งสำคัญ การขาดหายไปแม้แต่ขั้นตอนเดียวอาจทำให้ VOCR ทำงานไม่ถูกต้องได้
- หลังจากคลายการบีบอัดไฟล์ zip ที่ดาวน์โหลดมา ให้ย้ายแอปพลิเคชันไปยังโฟลเดอร์ Applications ของคุณแล้วเรียกใช้
- ยืนยันว่า VOCR กำลังทำงานอยู่ในแถบเมนูโดยกด vo+m สองครั้ง
- ในยูทิลิตี้ VoiceOver ใต้หมวดหมู่ทั่วไป ให้ทำเครื่องหมายในช่อง "อนุญาตให้ VoiceOver ควบคุมด้วย AppleScript"
- หากเปิดใช้งานอยู่ ให้ปิดม่านหน้าจอด้วย vo+shift+f11 โปรดทราบว่าต้องปิดม่านหน้าจอเพื่อให้แอปทำงานได้อย่างถูกต้อง
- ซ่อนภาพ VoiceOver ด้วย vo+command+f11 หากแสดงอยู่ หากไม่ได้ซ่อน องค์ประกอบต่างๆ เช่น แผงคำบรรยายของ VoiceOver จะถูกจดจำพร้อมกับเนื้อหาบนหน้าจออื่นๆ
- กด command+shift+control+w คุณควรได้รับการแจ้งเตือนเพื่อขออนุญาตการเข้าถึง หาก VoiceOver ไม่โฟกัสที่หน้าต่างโดยอัตโนมัติ ให้กด vo+f1 สองครั้งเพื่อแสดงรายการแอพที่รันอยู่ในปัจจุบัน กล่องโต้ตอบของระบบควรอยู่ในรายการนี้
- หลังจากให้สิทธิ์การเข้าถึงแล้ว ให้กด command+shift+control+w อีกครั้งเพื่อรับการแจ้งเตือนที่ขออนุญาต VOCR เพื่อจับภาพหน้าจอ หากคุณไม่ได้รับการแจ้งเตือน ให้ค้นหากล่องโต้ตอบของระบบตามที่อธิบายไว้ก่อนหน้านี้
- หากคุณไม่พบกล่องโต้ตอบของระบบ ให้ไปที่การตั้งค่าระบบ ความเป็นส่วนตัวและความปลอดภัย จากนั้นเลือกการบันทึกหน้าจอ และค้นหาแอพ VOCR
- หลังจากให้สิทธิ์การเข้าถึงแล้ว ให้รีสตาร์ทแอปตามที่ได้รับแจ้ง
- ตรวจสอบว่าแอปอยู่ในแถบเมนูโดยกด vo+m สองครั้ง
- กด command+shift+control+w คุณควรได้ยินเสียงบี๊บและเสียงแจ้งว่า "เสร็จสิ้น"
- ตอนนี้คุณสามารถนำทางผลลัพธ์ที่รู้จักได้โดยใช้คำสั่ง + ควบคุม + ลูกศร โปรดดูส่วนทางลัดด้านล่างสำหรับข้อมูลเพิ่มเติม
- เมื่อนำทางผลลัพธ์เป็นครั้งแรก การแจ้งเตือนจะแจ้งให้คุณอนุญาตให้ VOCR ควบคุม VoiceOver สำหรับการประกาศด้วยเสียง
- กด Escape เพื่อออกจากโหมดการนำทางของ VOCR และเพิ่มทางลัดการนำทางให้ว่าง
เคอร์เซอร์ VoiceOver OCR
คุณสมบัตินี้มีประโยชน์สำหรับการจับภาพเฉพาะบางส่วนของหน้าจอ เช่น เครื่องเล่นวิดีโอบนเว็บเพจหรือรูปภาพบนโซเชียลมีเดีย
- ย้ายเคอร์เซอร์ VoiceOver ไปยังองค์ประกอบที่คุณต้องการจดจำ
- กด command+shift+control+v
- ครั้งแรกที่คุณใช้คุณสมบัตินี้ คุณจะได้รับการแจ้งเตือนเพื่ออนุญาตให้ VOCR เรียกใช้ AppleScript
- หลังจากให้สิทธิ์แล้ว ให้กด command+shift+control+v อีกครั้ง
OCR แบบเรียลไทม์
กด Command+Shift+Control+R หลังจากสแกนหน้าต่าง หรือใช้ VOCursor เพื่อเริ่มหรือหยุด OCR แบบเรียลไทม์ เมื่อเปิดใช้งาน VOCR จะสแกนและรายงานเฉพาะเนื้อหาใหม่อย่างต่อเนื่อง สิ่งนี้มีประโยชน์สำหรับการอ่านเนื้อหาสด เช่น คำบรรยาย
ตั้งค่าโมเดล AI
คุณสามารถโฮสต์โมเดลภาษาการมองเห็นของคุณเองโดยใช้ Ollama หรือใช้ OpenAI GPT เพื่อถามคำถามเกี่ยวกับภาพที่ถ่ายด้วย VOCR
วิธีใช้โมเดล OpenAI GPT:
- ซื้อเครดิต API สำหรับบัญชีของคุณ
- สร้างคีย์ OpenAI API
- ป้อนคีย์ OpenAI API ของคุณในเมนู VOCR: การตั้งค่า > เครื่องยนต์ > คีย์ OpenAI API
หมายเหตุ: อาจใช้เวลาหลายชั่วโมงกว่าที่ API ของคุณจะใช้งานได้หลังจากซื้อเครดิต
ต้นทุนการใช้งานจาก VOCR เป็นการประมาณการ สำหรับการใช้งานอย่างเป็นทางการและค่าใช้จ่าย โปรดดูที่แดชบอร์ดการใช้งานบนเว็บไซต์ OpenAI
วิธีใช้โมเดลภาษาวิสัยทัศน์ท้องถิ่นกับ Ollama:
Ollama เป็นบริการฟรีและเป็นส่วนตัว แต่มีความแม่นยำน้อยกว่าและต้องใช้พลังในการประมวลผลสูง ฉันขอแนะนำชิป M1 หรือใหม่กว่าที่มีหน่วยความจำขั้นต่ำ 16GB
ดาวน์โหลดและติดตั้ง Ollama
ดาวน์โหลดโมเดลหลายรูปแบบ (ภาษาวิสัยทัศน์) โดยดำเนินการคำสั่งต่อไปนี้ในเทอร์มินัลของคุณ:
โปรดทราบว่ายังมีรุ่น llava:13b
และ llava:34b
ซึ่งมีความแม่นยำสูงกว่า แต่ต้องการพื้นที่จัดเก็บ หน่วยความจำ และพลังการประมวลผลมากกว่า
คุณอาจต้องการลองใช้แอปที่เกี่ยวข้องชื่อ VOLLama เป็นไคลเอนต์แชทที่สามารถเข้าถึงได้สำหรับ Ollama ซึ่งช่วยให้คุณสามารถโต้ตอบกับโมเดลภาษาโอเพ่นซอร์สขนาดใหญ่ที่ทำงานในเครื่องคอมพิวเตอร์ของคุณได้อย่างง่ายดาย
ถามไอ
หลังจากตั้งค่า OpenAI และ/หรือ Ollama:
- เลือก Ollama หรือ GPT ในเมนู VOCR > การตั้งค่า > เครื่องยนต์
- สแกนหน้าต่าง/VOCursor หรือถ่ายภาพจากกล้อง
- กด Command+Shift+Control+A เพื่อถามคำถามเกี่ยวกับรูปภาพให้กับโมเดลที่เลือก
คำตอบจะถูกคัดลอกไปยังคลิปบอร์ดเพื่อให้คุณสามารถตรวจสอบได้ในกรณีที่คุณพลาด
นอกจากนี้ คุณยังสามารถเลือกไฟล์ภาพใน Finder เปิดเมนูตามบริบทด้วย VO+Shift+M ไปที่ 'เปิดด้วย' และเลือก VOCR เพื่อถามคำถามเกี่ยวกับภาพ
สำรวจด้วย AI
- เลือก GPT ในเมนู VOCR > การตั้งค่า > เครื่องยนต์
- ระบุคีย์ OpenAI API ของคุณในเมนู VOCR > การตั้งค่า > เครื่องยนต์ > คีย์ OpenAI API
- สแกนหน้าต่างหรือใช้ VOCursor
- กด Command+Shift+Control+E
VOCR จะขอให้ GPT วิเคราะห์ภาพ ระบุพื้นที่ต่างๆ และบรรยายเนื้อหาของแต่ละภาพ คุณสามารถนำทางผลลัพธ์ได้โดยใช้ทางลัด Command + Control + ลูกศร
หมายเหตุ: คุณลักษณะนี้เป็นเพียงการทดลอง และมักให้คำอธิบายสถานที่และเนื้อหาที่ไม่ถูกต้อง
ทางลัดทั่วโลก
ทางลัดเหล่านี้ทำงานตลอดเวลา:
- เมนู VOCR: Command+Shift+Control+S
- หน้าต่าง OCR: Command+Shift+Control+W
- เคอร์เซอร์ VoiceOver OCR: Command+Shift+Control+V
- การจับภาพด้วยกล้อง: Command+Shift+Control+C
- สลับ OCR แบบเรียลไทม์: Command+Shift+Control+R
- ถาม AI: Command+Shift+Control+A
- สำรวจด้วย AI: Command+Shift+Control+E
ทางลัดการนำทาง
ทางลัดเหล่านี้จะใช้งานได้เฉพาะเมื่อมีการนำทางหลังจากการสแกน:
- เลื่อนลง/ขึ้น: Command+Control+ลูกศรลง/ขึ้น
- เลื่อนไปทางซ้าย/ขวา: Command+Control+ลูกศรซ้าย/ขวา
- อักขระก่อนหน้า/ถัดไป: Command+Shift+Control+ลูกศรซ้าย/ขวา
- ไปที่ด้านบน/ล่าง: Command+Control+Page Up/Down
- ไปที่จุดเริ่มต้น/สิ้นสุดในแนวนอน: Command+Control+Home/End
- ออกจากการนำทาง: หลบหนี
- ตำแหน่ง: Command+Control+L (รายงานพิกัดปัจจุบัน)
- ระบุวัตถุ: Command+Control+I (ระบุวัตถุปัจจุบันด้วย AI เมื่อเปิดใช้งานการตรวจจับวัตถุในการตั้งค่า)
การตั้งค่า
เข้าถึงเมนู VOCR ด้วย Command+Control+Shift+S เมนูนี้ประกอบด้วยการตั้งค่าและการทำงานทั้งหมด
- หน้าต่างเป้าหมาย: ช่วยให้คุณสแกนหน้าต่างอื่นที่ไม่ใช่หน้าต่างปัจจุบัน
- สแกนอัตโนมัติ: สแกนโดยอัตโนมัติหลังจากคลิกรายการด้วย VO+Shift+Space
- ตรวจจับวัตถุ: ค้นหาวัตถุที่ไม่มีข้อความ เช่น ไอคอน
- ใช้พรอมต์สุดท้าย: ใช้พรอมต์สุดท้ายซ้ำเมื่อถาม AI ด้วย Command+Shift+Control+A
- ย้ายเมาส์: เลื่อนเคอร์เซอร์ของเมาส์เมื่อคุณนำทาง
- เสียงตำแหน่ง: ให้เสียงตอบรับเมื่อเคอร์เซอร์ของเมาส์เคลื่อนที่ การเปลี่ยนแปลงความถี่สอดคล้องกับตำแหน่งแนวตั้ง และการแพนเสียงสอดคล้องกับตำแหน่งแนวนอน หากคุณไม่ได้ยินเสียงตอบรับ ให้ไปที่การตั้งค่า > สัญญาณเสียงออก
- รีเซ็ตตำแหน่ง: เมื่อปิดใช้งาน เคอร์เซอร์จะไม่รีเซ็ตไปที่มุมซ้ายบนหลังการสแกนใหม่ทุกครั้ง
- เปิดตัวเมื่อเข้าสู่ระบบ: เรียกใช้ VOCR โดยอัตโนมัติเมื่อคุณเข้าสู่ระบบ
- บันทึก: เริ่มเขียนบันทึกไปยัง VOCR.txt ในโฟลเดอร์เอกสารของคุณ
- เอาต์พุตเสียง: เลือกอุปกรณ์เสียงสำหรับการตอบรับตำแหน่งเสียง
- เลือกกล้อง: เลือกกล้องที่จะใช้สำหรับการถ่ายภาพ
- ทางลัด: ปรับแต่งทางลัด
- เครื่องยนต์: เลือกระหว่าง GPT หรือ Ollama
โปรดทราบว่า Llama.cpp ระงับการสนับสนุนโมเดลภาษาวิชันชั่วคราวบนเซิร์ฟเวอร์ของตน
การดำเนินการ
เมื่อคุณเปิดเมนู VOCR การดำเนินการบางอย่างจะพร้อมใช้งานหลังจากการสแกน:
- บันทึกภาพสุดท้าย
- บันทึกผลลัพธ์ OCR
- อัพเดท
การแก้ไขปัญหา
- หากคุณได้ยินว่า "ไม่พบสิ่งใดเลย" คุณอาจต้องปิดม่านหน้าจอ VoiceOver ด้วย vo+shift+f11 หรือปรับสิทธิ์การเข้าถึงและการบันทึกหน้าจอในการตั้งค่าระบบ > ความเป็นส่วนตัวและความปลอดภัย
- หากคุณไม่ได้ยินสิ่งใดหลังจากใช้คุณสมบัติ "OCR VoiceOver Cursor" คุณอาจต้องให้สิทธิ์ VOCR เพื่อ: ส่งกิจกรรมของ Apple
โดยปกติแล้ว การเปิดใช้งาน VOCR อีกครั้งและการออกคำสั่งใหม่จะทริกเกอร์การแจ้งเตือนให้ปรากฏขึ้นอีกครั้งในกล่องโต้ตอบของระบบตามที่อธิบายไว้ข้างต้น
สุดท้ายนี้ โปรดสนุกกับการใช้ VOCR!