설명: 이것은 이미지를 스캔하고 Gemini AI Pro Vision API를 사용하여 설명을 생성하며 음성 피드백을 제공하는 강력한 도구인 놀라운 Google Gemini Vision Pro ?입니다. 또한 웹캠을 사용하여 이미지를 캡처합니다.
? 소개 ?
Google Gemini Vision Pro는 이미지 처리, 음성 인식, 텍스트 음성 변환 기능을 결합한 다목적 애플리케이션입니다. 이 응용 프로그램을 사용하면 웹캠을 사용하여 이미지를 캡처하고, 음성 단어를 텍스트로 변환하고, 이미지 설명을 생성하고, 설명을 음성으로 들을 수도 있습니다.
설치 가이드
1단계: 저장소 복제
git clone https://github.com/haseeb-heaven/Gemini-Vision-Pro
cd Gemini-Vision-Pro
2단계: 종속성 설치
pip install -r requirements.txt
3단계: 애플리케이션 실행
4단계: Google Palm API 키 획득 및 애플리케이션 설정
- Google Palm API 키를 얻습니다.
- 다음 URL을 방문하세요: Google AI Studio
- API 키 생성 버튼을 클릭하세요.
- 생성된 키는 API 키입니다. 꼭 복사해서 애플리케이션 설정에 붙여넣어 주세요.
- API 키는 작동에 매우 중요합니다. 안전하게 보관하고 누구와도 공유하지 마세요 .
Gemini AI 설정:
AI 섹션
이 프로젝트의 핵심 AI 섹션은 다음과 같습니다.
- ? WebRTC, OpenCV 및 PIL을 사용한 웹캠 감지
- Google Cloud Speech-to-Text API를 사용한 음성-텍스트 변환
- ?️ Google Cloud Text-to-Speech API를 사용한 텍스트-음성 변환
- ? Gemini AI Pro Vision API를 사용한 이미지 처리
특징
- ? 실시간 이미지 캡처를 통한 웹캠 감지
- 음성 단어를 음성에서 텍스트로 변환
- ?️ 음성 설명 생성을 위한 텍스트 음성 변환
- ? AI를 활용한 이미지 처리로 자세한 설명 제공
- Python의 로깅 모듈을 사용한 로깅
- Python의 예외 처리를 사용한 오류 처리
WebUI - 애플리케이션 쇼케이스
YouTube 데모:
라이브 피드가 포함된 웹캠:
개체를 Cap으로 사용한 Gemini Ai Vision 데모:
Hand를 사용한 Gemini Ai Vision 데모:
제스처를 사용한 Gemini Ai Vision 데모:
사용된 패키지
이 프로젝트는 다음을 포함한 다양한 Python 패키지를 사용합니다.
- Streamlit - 애플리케이션을 구축하는 데 사용되는 웹 앱 프레임워크
- Streamlit Webrtc - 웹캠에서 이미지를 캡처하는 데 사용됩니다.
- OpenCV - 웹캠 이미지 캡처에 활용
- PIL (Pillow) - 이미지 처리 및 변환에 사용됩니다.
- gTTS(Google Text-to-Speech) - 텍스트를 음성으로 변환합니다.
- SpeechRecognition - 음성을 텍스트로 변환합니다.
- google.cloud.speech - 음성-텍스트 변환을 위한 Google Cloud 서비스의 일부
링크 및 참고자료
Google Gemini Vision Pro 관련 콘텐츠를 보려면 다음 링크를 따르세요.
- 구글 AI 스튜디오
- Google Gemini 비전 프로
- 구글 제미니 딥마인드
버전 관리
기여
우리는 기여를 환영합니다! 시작하려면 기여 지침을 따르세요.
특허
이 프로젝트는 MIT 라이선스 에 따라 라이선스가 부여됩니다. 자세한 내용은 LICENSE 파일을 참조하세요.
작가