คำอธิบาย: นี่คือ Google Gemini Vision Pro ที่น่าทึ่ง ซึ่งเป็นเครื่องมืออันทรงพลังที่จะสแกนภาพ สร้างคำอธิบายโดยใช้ Gemini AI Pro Vision API และให้การตอบสนองด้วยเสียง นอกจากนี้ยังจับภาพโดยใช้เว็บแคม
- การแนะนำ ?
Google Gemini Vision Pro เป็นแอปพลิเคชั่นอเนกประสงค์ที่รวมการประมวลผลภาพ ??, การรู้จำคำพูด ? และความสามารถแปลงข้อความเป็นคำพูด ? ด้วยแอปพลิเคชันนี้ คุณสามารถจับภาพโดยใช้เว็บแคมของคุณ แปลงคำพูดเป็นข้อความ สร้างคำอธิบายรูปภาพ และแม้แต่ให้คำอธิบายกลับมายังคุณอีกด้วย
คู่มือการติดตั้ง
ขั้นตอนที่ 1: โคลนพื้นที่เก็บข้อมูล
git clone https://github.com/haseeb-heaven/Gemini-Vision-Pro
cd Gemini-Vision-Pro
ขั้นตอนที่ 2: ติดตั้งการอ้างอิง
pip install -r requirements.txt
ขั้นตอนที่ 3: เรียกใช้แอปพลิเคชัน
ขั้นตอนที่ 4: รับคีย์ Google Palm API และตั้งค่าแอปพลิเคชัน
- รับคีย์ Google Palm API
- เยี่ยมชม URL ต่อไปนี้: Google AI Studio
- คลิกที่ปุ่ม สร้างคีย์ API
- คีย์ที่สร้างขึ้นคือคีย์ API ของคุณ โปรดตรวจสอบให้แน่ใจว่า ได้คัดลอกและวางลงในการตั้งค่าแอปพลิเคชัน
- คีย์ API มีความสำคัญต่อการทำงาน โปรดตรวจสอบให้แน่ใจว่าได้เก็บไว้อย่างปลอดภัยและอย่าแชร์กับใคร
การตั้งค่า AI ของราศีเมถุน:
ส่วน AI
ส่วน AI หลักของโปรเจ็กต์นี้ประกอบด้วย:
- - การตรวจจับเว็บแคม โดยใช้ WebRTC, OpenCV และ PIL
- การแปลงคำพูดเป็นข้อความ โดยใช้ Google Cloud Speech-to-Text API
- ️ การแปลงข้อความเป็นคำพูด โดยใช้ Google Cloud Text-to-Speech API
- - การประมวลผลภาพ โดยใช้ Gemini AI Pro Vision API
คุณสมบัติ
- - การตรวจจับเว็บแคมพร้อมการจับภาพแบบเรียลไทม์
- การแปลงคำพูดเป็นข้อความสำหรับคำพูด
- ️ การอ่านออกเสียงข้อความสำหรับการสร้างคำอธิบายที่เป็นคำพูด
- - การประมวลผลภาพโดยใช้ AI เพื่อให้คำอธิบายโดยละเอียด
- การบันทึกโดยใช้โมดูลการบันทึกของ Python
- การจัดการข้อผิดพลาดกับการจัดการข้อยกเว้นของ Python
WebUI - การแสดงแอปพลิเคชัน
การสาธิต YouTube:
เว็บแคมพร้อมฟีดสด:
การสาธิต Gemini Ai Vision โดยมีวัตถุเป็น Cap:
การสาธิต Gemini Ai Vision ด้วยมือ:
การสาธิต Gemini Ai Vision พร้อมท่าทาง:
แพ็คเกจที่ใช้
โปรเจ็กต์นี้อาศัยแพ็คเกจ Python ที่หลากหลาย รวมถึง:
- Streamlit - เฟรมเวิร์กแอปพลิเคชันเว็บที่ใช้ในการสร้างแอปพลิเคชัน
- Streamlit Webrtc - ใช้สำหรับจับภาพจากเว็บแคม
- OpenCV - ใช้สำหรับจับภาพเว็บแคม
- PIL (หมอน) - ใช้สำหรับการประมวลผลและการแปลงภาพ
- gTTS (Google Text-to-Speech) - แปลงข้อความเป็นคำพูด
- SpeechRecognition - แปลงคำพูดเป็นข้อความ
- google.cloud.speech - ส่วนหนึ่งของบริการ Google Cloud สำหรับการแปลงคำพูดเป็นข้อความ
ลิงค์และการอ้างอิง
ติดตามลิงก์เหล่านี้สำหรับเนื้อหาที่เกี่ยวข้องกับ Google Gemini Vision Pro :
- กูเกิล เอไอ สตูดิโอ
- Google เจมินี่วิชั่นโปร
- Google ราศีเมถุน Deepmind
การกำหนดเวอร์ชัน
- เวอร์ชัน : 1.0 : การเปิดตัวครั้งแรก
มีส่วนร่วม
เรายินดีรับการมีส่วนร่วม! โปรดปฏิบัติตาม แนวทางการบริจาค ของเราเพื่อเริ่มต้น
ใบอนุญาต
โครงการนี้ได้รับอนุญาตภายใต้ ใบอนุญาต MIT - ดูรายละเอียดในไฟล์ ใบอนุญาต
ผู้เขียน
- สวรรค์HM
- วันที่: 17-12-2023