ดาวน์โหลด gemini vision pro - ดาวน์โหลด gemini vision pro ซอร์สโค้ด

gemini vision pro

ซอร์สโค้ดอื่น ๆ

1.0.0

ดาวน์โหลด

คำอธิบาย: นี่คือ Google Gemini Vision Pro ที่น่าทึ่ง ซึ่งเป็นเครื่องมืออันทรงพลังที่จะสแกนภาพ สร้างคำอธิบายโดยใช้ Gemini AI Pro Vision API และให้การตอบสนองด้วยเสียง นอกจากนี้ยังจับภาพโดยใช้เว็บแคม

- การแนะนำ ?

Google Gemini Vision Pro เป็นแอปพลิเคชั่นอเนกประสงค์ที่รวมการประมวลผลภาพ ??, การรู้จำคำพูด ? และความสามารถแปลงข้อความเป็นคำพูด ? ด้วยแอปพลิเคชันนี้ คุณสามารถจับภาพโดยใช้เว็บแคมของคุณ แปลงคำพูดเป็นข้อความ สร้างคำอธิบายรูปภาพ และแม้แต่ให้คำอธิบายกลับมายังคุณอีกด้วย

คู่มือการติดตั้ง

ขั้นตอนที่ 1: โคลนพื้นที่เก็บข้อมูล

git clone https://github.com/haseeb-heaven/Gemini-Vision-Pro
cd Gemini-Vision-Pro

ขั้นตอนที่ 2: ติดตั้งการอ้างอิง

pip install -r requirements.txt

ขั้นตอนที่ 3: เรียกใช้แอปพลิเคชัน

streamlit run script.py

ขั้นตอนที่ 4: รับคีย์ Google Palm API และตั้งค่าแอปพลิเคชัน

รับคีย์ Google Palm API
เยี่ยมชม URL ต่อไปนี้: Google AI Studio
คลิกที่ปุ่ม สร้างคีย์ API
คีย์ที่สร้างขึ้นคือคีย์ API ของคุณ โปรดตรวจสอบให้แน่ใจว่า ได้คัดลอกและวางลงในการตั้งค่าแอปพลิเคชัน
คีย์ API มีความสำคัญต่อการทำงาน โปรดตรวจสอบให้แน่ใจว่าได้เก็บไว้อย่างปลอดภัยและอย่าแชร์กับใคร

การตั้งค่า AI ของราศีเมถุน:

ส่วน AI

ส่วน AI หลักของโปรเจ็กต์นี้ประกอบด้วย:

- การตรวจจับเว็บแคม โดยใช้ WebRTC, OpenCV และ PIL
การแปลงคำพูดเป็นข้อความ โดยใช้ Google Cloud Speech-to-Text API
️ การแปลงข้อความเป็นคำพูด โดยใช้ Google Cloud Text-to-Speech API
- การประมวลผลภาพ โดยใช้ Gemini AI Pro Vision API

คุณสมบัติ

- การตรวจจับเว็บแคมพร้อมการจับภาพแบบเรียลไทม์
การแปลงคำพูดเป็นข้อความสำหรับคำพูด
️ การอ่านออกเสียงข้อความสำหรับการสร้างคำอธิบายที่เป็นคำพูด
- การประมวลผลภาพโดยใช้ AI เพื่อให้คำอธิบายโดยละเอียด
การบันทึกโดยใช้โมดูลการบันทึกของ Python
การจัดการข้อผิดพลาดกับการจัดการข้อยกเว้นของ Python

WebUI - การแสดงแอปพลิเคชัน

การสาธิต YouTube:

เว็บแคมพร้อมฟีดสด:

การสาธิต Gemini Ai Vision โดยมีวัตถุเป็น Cap:

การสาธิต Gemini Ai Vision ด้วยมือ:

การสาธิต Gemini Ai Vision พร้อมท่าทาง:

แพ็คเกจที่ใช้

โปรเจ็กต์นี้อาศัยแพ็คเกจ Python ที่หลากหลาย รวมถึง:

Streamlit - เฟรมเวิร์กแอปพลิเคชันเว็บที่ใช้ในการสร้างแอปพลิเคชัน
Streamlit Webrtc - ใช้สำหรับจับภาพจากเว็บแคม
OpenCV - ใช้สำหรับจับภาพเว็บแคม
PIL (หมอน) - ใช้สำหรับการประมวลผลและการแปลงภาพ
gTTS (Google Text-to-Speech) - แปลงข้อความเป็นคำพูด
SpeechRecognition - แปลงคำพูดเป็นข้อความ
google.cloud.speech - ส่วนหนึ่งของบริการ Google Cloud สำหรับการแปลงคำพูดเป็นข้อความ