ส่วนเสริมนี้ทำให้สามารถรับคำอธิบายโดยละเอียดสำหรับรูปภาพ การควบคุมอินเทอร์เฟซผู้ใช้ และเนื้อหาอื่น ๆ ที่ไม่สามารถเข้าถึงได้
ด้วยการใช้ประโยชน์จากความสามารถที่หลากหลายของโมเดล AI ขั้นสูงและอัลกอริธึมการมองเห็นของคอมพิวเตอร์ เรามุ่งมั่นที่จะนำเสนอคำอธิบายเนื้อหาที่ดีที่สุดในระดับเดียวกันและเพิ่มความเป็นอิสระโดยรวม สำหรับข้อมูลเพิ่มเติมเกี่ยวกับรุ่นพื้นฐาน โปรดดูส่วนที่เกี่ยวข้องของเอกสารนี้
อธิบายวัตถุโฟกัส วัตถุนำทาง ทั้งหน้าจอ หรือถ่ายภาพจากกล้องในตัว
อธิบายรูปภาพใดๆ ที่ถูกคัดลอกไปยังคลิปบอร์ด ไม่ว่าจะเป็นรูปภาพจากอีเมลหรือเส้นทางใน Windows Explorer
ระบุว่าใบหน้าของผู้ใช้อยู่ตรงกลางเฟรมหรือไม่โดยใช้อัลกอริธึมการมองเห็นของคอมพิวเตอร์ (ไม่ต้องใช้การเข้าถึง API แบบชำระเงิน)
รองรับผู้ให้บริการหลายราย (GPT4 ของ OpenAI, Gemini ของ Google, Claude 3 ของ Anthropic และ llama.cpp)
รองรับรูปแบบที่หลากหลาย รวมถึง PNG (.png), JPEG (.jpeg และ .jpg), WEBP (.webp) และ GIF ที่ไม่ใช่ภาพเคลื่อนไหว (.gif)
เลือกแคชการตอบสนองเพื่อรักษาโควต้า API
สำหรับการใช้งานขั้นสูง ให้ปรับแต่งพรอมต์และจำนวนโทเค็นเพื่อปรับแต่งข้อมูลตามความต้องการของคุณ
การแสดงผล Markdown เพื่อเข้าถึงข้อมูลที่มีโครงสร้างได้อย่างง่ายดาย (เพียงฝังเช่น "ตอบกลับใน Markdown" ที่ท้ายข้อความแจ้งของคุณ)
มีแรงจูงใจหลักบางประการที่อยู่เบื้องหลังโครงการนี้
NVDA สามารถทำการรู้จำอักขระด้วยแสง (OCR) ได้ตั้งแต่แกะกล่อง ซึ่งเป็นตัวเปลี่ยนเกม หากคุณกำลังพยายามดึงข้อความออกจากรูปภาพหรือเอกสาร PDF นี่คือสิ่งที่คุณกำลังมองหา
อย่างไรก็ตาม OCR สามารถวิเคราะห์ได้เฉพาะข้อมูลที่ อาจ เป็นข้อความเท่านั้น ขาดการพิจารณาบริบท วัตถุ และความสัมพันธ์ที่ถ่ายทอดออกมาในภาพเหล่านั้น และอินเตอร์เน็ตก็เต็มไปด้วยสิ่งเหล่านี้ โลโก้ ภาพบุคคล มีม ไอคอน แผนภูมิ ไดอะแกรม กราฟแท่ง/เส้น... อะไรก็ได้ทั้งนั้น มีอยู่ทุกที่ และมักจะไม่อยู่ในรูปแบบที่ผู้ใช้โปรแกรมอ่านหน้าจอสามารถตีความได้ จนกระทั่งเมื่อไม่นานมานี้ มีการพึ่งพาผู้เขียนเนื้อหาในการจัดหาคำอธิบายข้อความแสดงแทนอย่างต่อเนื่อง แม้ว่านี่จะยังเป็นสิ่งจำเป็น แต่ก็ยากที่จะเปลี่ยนความจริงที่ว่ามาตรฐานคุณภาพระดับสูงเป็นข้อยกเว้น ไม่ใช่กฎเกณฑ์
ตอนนี้ความเป็นไปได้แทบจะไม่มีที่สิ้นสุด คุณอาจ:
แสดงภาพเดสก์ท็อปหรือหน้าต่างเฉพาะเพื่อทำความเข้าใจตำแหน่งของไอคอนเมื่อฝึกผู้อื่น
รับข้อมูลโดยละเอียดเกี่ยวกับสถานะของเกม เครื่องเสมือน ฯลฯ เมื่อเสียงไม่เพียงพอหรือไม่พร้อมใช้งาน
พิจารณาว่ามีอะไรแสดงในกราฟ
ทำความเข้าใจภาพหน้าจอหรือการแชร์หน้าจอใน Zoom หรือ Microsoft Teams
ตรวจสอบให้แน่ใจว่าใบหน้าของคุณมองกล้องได้ชัดเจนและพื้นหลังของคุณเป็นมืออาชีพก่อนที่จะบันทึกวิดีโอหรือเข้าร่วมการประชุมออนไลน์
วิสัยทัศน์ GPT4
วิสัยทัศน์ของ Google Gemini
คลอดด์ 3 (ไฮกุ โซเน็ตต์ และบทประพันธ์)
llama.cpp (ไม่เสถียรอย่างยิ่งและช้ามากขึ้นอยู่กับฮาร์ดแวร์ของคุณ ผ่านการทดสอบแล้วว่าใช้งานได้กับรุ่น llava-v1.5/1.6, BakLLaVA, Obsidian และ MobileVLM 1.7B/3B)
ทำตามคำแนะนำที่ให้ไว้ด้านล่างเพื่อให้แต่ละข้อทำงานได้
ดาวน์โหลด Add-on รุ่นล่าสุดได้จากลิงค์นี้ คลิกที่ไฟล์บนคอมพิวเตอร์ที่ติดตั้ง NVDA จากนั้นทำตามคำแนะนำด้านล่างเพื่อรับคีย์ API จากผู้ให้บริการที่รองรับ หากคุณไม่แน่ใจว่าควรใช้อันไหน ความเห็นพ้องต้องกันของผู้พัฒนาและผู้ทดสอบของ addon นี้คือ ปัจจุบัน Gemini เสนอราคาที่สมเหตุสมผลมากกว่า ในขณะที่ Open-AI ดูเหมือนจะให้ระดับความแม่นยำที่สูงกว่า Claude 3 haiku เป็นตัวเลือกที่ถูกที่สุดและเร็วที่สุด แต่คุณภาพจะถูกหรือพลาด แน่นอนว่า ผลลัพธ์เหล่านี้ขึ้นอยู่กับงานที่ทำอยู่เป็นอย่างมาก ดังนั้น เราขอแนะนำให้ทดลองใช้โมเดลต่างๆ และแจ้งให้ค้นหาสิ่งที่ดีที่สุด
ไปที่หน้าคีย์ API ของ open-AI
หากคุณยังไม่มีบัญชี ให้สร้างบัญชีใหม่ หากคุณเป็นเช่นนั้น ให้เข้าสู่ระบบ
ในหน้าคีย์ API คลิกเพื่อสร้างคีย์ลับใหม่ คัดลอกไปยังคลิปบอร์ดของคุณ
ฝากเงินเข้าบัญชีอย่างน้อย $1
ในกล่องโต้ตอบการตั้งค่า NVDA ให้เลื่อนลงไปที่หมวดหมู่ AI Content Describer จากนั้นเลือก "จัดการโมเดล (alt+m)" เลือก "GPT4 Vision" เป็นผู้ให้บริการ แท็บลงในช่องคีย์ API และวางคีย์ที่คุณเพิ่งสร้างขึ้น ที่นี่.
ในขณะที่เขียนบทความนี้ Open-AI จะออกเครดิตให้กับบัญชีนักพัฒนาใหม่ที่สามารถใช้ได้เป็นเวลาสามเดือน หลังจากนั้นจะสูญหายไป หลังจากช่วงเวลานี้ คุณจะต้องซื้อเครดิต การใช้งานทั่วไปไม่ควรเกิน $5.00 ต่อเดือน เพื่อการอ้างอิง เวอร์ชันดั้งเดิมของส่วนเสริมนี้ได้รับการพัฒนาในราคาต่ำกว่า 1 ดอลลาร์เล็กน้อย คุณสามารถเข้าสู่ระบบบัญชี OpenAI ของคุณได้ตลอดเวลาและคลิกที่ "การใช้งาน" เพื่อรับโควต้าของคุณ
ก่อนอื่นคุณจะต้องสร้างโปรเจ็กต์ Google Workspace โดยไปที่ Google Cloud Console ตรวจสอบให้แน่ใจว่าคุณได้ลงชื่อเข้าใช้บัญชี Google ของคุณแล้ว
สร้างชื่อระหว่างสี่ถึงสามสิบอักขระ เช่น "ราศีเมถุน" หรือ "ส่วนเสริม NVDA"
ไปที่หน้าคีย์ Google AI studio API
คลิก "สร้างคีย์ API"
ในกล่องโต้ตอบการตั้งค่า NVDA เลื่อนลงไปที่หมวดหมู่ AI Content Describer จากนั้นเลือก "จัดการโมเดล (alt+m)" เลือก "Google Gemini" เป็นผู้ให้บริการของคุณ แท็บลงในช่องคีย์ API และวางคีย์ที่คุณเพิ่งสร้างขึ้น ที่นี่.
เข้าสู่ระบบคอนโซล Anthropic
คลิกที่โปรไฟล์ของคุณ -> คีย์ API
คลิกสร้างคีย์
ป้อนชื่อคีย์ เช่น "AIContentDescriber" จากนั้นคลิก "สร้างคีย์" และคัดลอกค่าที่แสดงขึ้นมา นี่คือสิ่งที่คุณจะวางลงในฟิลด์คีย์ API ใต้หมวดหมู่ Ai Content Describer ของกล่องโต้ตอบการตั้งค่า NVDA -> จัดการโมเดล -> Claude 3
หากคุณยังไม่ได้ซื้อเครดิตอย่างน้อย $5 ในหน้าแผนมานุษยวิทยา
ขณะนี้ผู้ให้บริการรายนี้ค่อนข้างมีปัญหาและระยะทางของคุณอาจมาก จริงๆ ควรพยายามโดยผู้ใช้ขั้นสูงที่มีความสนใจในการใช้งานโมเดลที่โฮสต์เองในเครื่องและฮาร์ดแวร์ที่จะดำเนินการดังกล่าว
ดาวน์โหลด llama.cpp ในขณะที่เขียนบทความนี้ คำขอดึงนี้จะลบความสามารถหลายรูปแบบออก ดังนั้นคุณจะต้องใช้เวอร์ชันล่าสุดที่รองรับสิ่งนี้ หากคุณใช้อะแดปเตอร์กราฟิก Nvidia ที่รองรับ CUDA ให้ดาวน์โหลดไบนารีที่สร้างไว้ล่วงหน้าเหล่านี้: llama-b2356-bin-win-cublas-cu12.2.0-x64.zip และ cudart-llama-bin-win-cu12.2.0-x64 zip ขั้นตอนในการทำงานกับอะแดปเตอร์กราฟิกอื่นอยู่นอกขอบเขต แต่ดูได้ใน llama.cpp readme
แตกไฟล์ทั้งสองนี้ลงในโฟลเดอร์เดียวกัน
ค้นหารูปแบบเชิงปริมาณของโมเดลที่คุณต้องการใช้จาก Huggingface สำหรับ LLaVA 1.6 Vicuna 7B: llava-v1.6-vicuna-7b.Q4_K_M.gguf และ mmproj-model-f16.gguf
วางไฟล์เหล่านี้ไว้ในโฟลเดอร์พร้อมกับไบนารี llama.cpp ที่เหลือ
จากพรอมต์คำสั่ง ให้รันไบนารีของเซิร์ฟเวอร์ llava.cpp โดยส่งไฟล์ .gguf สำหรับโมเดลและโปรเจ็กเตอร์แบบ multimodal (ดังต่อไปนี้):
server.exe -m llava-v1.6-vicuna-7b.Q4_K_M.gguf --mmproj mmproj-model-f16.gguf
ในกล่องโต้ตอบการตั้งค่า NVDA ให้เลื่อนลงไปที่หมวดหมู่ AI Content Describer จากนั้นเลือก "จัดการโมเดล (alt+m)" เลือก "llama.cpp" เป็นผู้ให้บริการของคุณ แท็บลงในช่อง URL พื้นฐาน และป้อนจุดสิ้นสุดที่แสดงใน คอนโซล (ค่าเริ่มต้นเป็น "http://localhost:8080")
หรือคุณอาจละเว้นบางขั้นตอนเหล่านี้และเรียกใช้ llama.cpp บนเซิร์ฟเวอร์ระยะไกลที่มีสเปคสูงกว่าเครื่องของคุณ จากนั้นป้อนตำแหน่งข้อมูลนั้นแทน
ปุ่มลัดสี่ปุ่มถูกผูกไว้ตามค่าเริ่มต้น:
NVDA+shift+i: เปิดเมนูขึ้นมาเพื่อถามว่าจะอธิบายโฟกัสปัจจุบัน วัตถุนำทาง กล้องจริง หรือทั้งหน้าจอด้วย AI
NVDA+shift+u: อธิบายเนื้อหาของออบเจ็กต์การนำทางปัจจุบันโดยใช้ AI
NVDA+shift+y: อธิบายรูปภาพ (หรือเส้นทางไฟล์ไปยังรูปภาพ) บนคลิปบอร์ดโดยใช้ AI
NVDA+shift+j: อธิบายตำแหน่งใบหน้าของคุณในกรอบของกล้องที่เลือก หากคุณมีกล้องหลายตัวเชื่อมต่ออยู่ ให้ไปที่เมนูอธิบายเนื้อหา AI (NVDA+shift+i) และเลือกกล้องที่คุณต้องการใช้กับรายการ "เลือกกล้อง" ในเมนูย่อยการตรวจจับใบหน้า
ท่าทางสามแบบไม่ถูกผูกไว้:
อธิบายเนื้อหาของรายการที่โฟกัสในปัจจุบันโดยใช้ AI
ถ่ายภาพหน้าจอแล้วอธิบายโดยใช้ AI
ถ่ายภาพโดยใช้กล้องที่เลือก จากนั้นอธิบายโดยใช้ AI
อย่าลังเลที่จะปรับแต่งสิ่งเหล่านี้ได้ตลอดเวลาจากกล่องโต้ตอบท่าทางการป้อนข้อมูล
ในการสร้างแพ็คเกจเสริมจากแหล่งที่มา คุณจะต้อง:
การแจกจ่าย Python (แนะนำให้ใช้ 3.7 หรือใหม่กว่า) ตรวจสอบเว็บไซต์ Python สำหรับตัวติดตั้ง Windows โปรดทราบว่าในปัจจุบัน การเตรียมซอร์สโค้ด NVDA และโมดูลของบุคคลที่สามที่รวมอยู่นั้น ต้องใช้ Python 3.7 เวอร์ชัน 32 บิต
Scons - เว็บไซต์ - เวอร์ชัน 4.3.0 หรือใหม่กว่า คุณสามารถติดตั้งผ่าน PIP pip install scons
Markdown 3.3.0 หรือใหม่กว่า pip install markdown
จากนั้นเปิดเทอร์มินัลที่คุณเลือก:
git clone https://github.com/cartertemm/AI-content-describer.git cd AI-content-describer scons
หลังจากที่คำสั่ง scons
ดำเนินการเสร็จสิ้น ไฟล์ *.nvda-addon จะถูกวางไว้ที่รากของที่เก็บนี้ พร้อมสำหรับการทดสอบและเผยแพร่
หากคุณเพิ่มสตริงเพิ่มเติมที่จำเป็นต้องแปล สิ่งสำคัญคือต้องสร้างไฟล์ .pot ใหม่ ดังนี้:
scons pot
บนเครื่อง windows:
ดาวน์โหลด poedit. นี่คือซอฟต์แวร์ที่คุณจะใช้เพื่อแปลแต่ละข้อความจากภาษาอังกฤษ
ดาวน์โหลดไฟล์ .pot พร้อมสตริงทั้งหมดที่นี่
เปิดไฟล์ที่คุณเพิ่งดาวน์โหลดในโปรแกรม poedit คลิก "สร้างการแปลใหม่" ในหน้าต่างที่ปรากฏขึ้น จากนั้นเลือกภาษาเป้าหมาย
ดำเนินการและแปลงเนื้อหาของข้อความต้นฉบับเป็นภาษาเป้าหมาย จากนั้นวางลงในช่องการแปล หากต้องการความช่วยเหลือเพิ่มเติม โปรดคลิกขวาที่รายการ -> รหัสที่ปรากฏ จากนั้นขึ้นไปบรรทัดเพื่ออ่านความคิดเห็นที่ขึ้นต้นด้วย "# Translators: " ความคิดเห็นเหล่านี้มีให้เพิ่มเติมในที่เดียวในไฟล์ .pot
เมื่อเสร็จแล้ว คลิกไฟล์ -> บันทึก หรือกด ctrl+s จากนั้นเลือกตำแหน่งสำหรับไฟล์ .mo และ .po ใหม่ที่จะจัดเก็บ ไฟล์เหล่านี้เป็นไฟล์ที่ควรส่งอีเมลถึงฉันหรือแนบมาในคำขอดึงข้อมูล
แปลเนื้อหาของ readme.md (ไฟล์นี้) ติดด้วย!
ทุกคนได้รับการชื่นชมอย่างสูงและจะได้รับเครดิต บุคคลต่อไปนี้ได้ทำงานกับส่วนเสริมแล้ว
Mazen: การใช้งานมาร์กดาวน์, การสนับสนุนโค้ดอื่นๆ
Kostenkov-2021: การแปลภาษารัสเซีย
Nidza07: การแปลภาษาเซอร์เบีย
Heorhii Halas: การแปลภาษายูเครน
Umut Korkmaz: การแปลภาษาตุรกี
Platinum_Hikari: การแปลภาษาฝรั่งเศส
ลูคัส: คำแปลภาษาเช็ก
Michaela: คำแปลภาษาสโลวัก
ประสบปัญหา? ส่งไปที่ตัวติดตามปัญหา
มีข้อเสนอแนะสำหรับคุณสมบัติใหม่หรือไม่? สร้างตั๋วสำหรับสิ่งนั้นด้วย และเราสามารถพูดคุยเกี่ยวกับการใช้งานได้ คำขอดึงที่ไม่มีปัญหาที่เกี่ยวข้องจะได้รับการตรวจสอบ แต่มีแนวโน้มที่จะใช้เวลานานสำหรับทุกคน โดยเฉพาะอย่างยิ่งหากฉันตัดสินใจว่าการแก้ไขหรือฟังก์ชันใหม่จำเป็นต้องทำงานแตกต่างไปจากที่เสนอไว้
ยินดีรับการแปลด้วยความเต็มใจ ยิ่งผู้คนสามารถเข้าถึงเทคโนโลยีอันทรงพลังนี้ได้มากเท่าไรก็ยิ่งดีเท่านั้น!
หากคุณไม่มี Github หรือไม่ต้องการใช้ คุณสามารถส่งอีเมลถึงฉันได้ - cartertemm (at) gmail (dot) com
ขอบคุณสำหรับการสนับสนุน!