gemini vision pro 다운로드 - gemini vision pro 소스 코드 다운로드

gemini vision pro

기타 소스코드

1.0.0

다운로드

설명: 이것은 이미지를 스캔하고 Gemini AI Pro Vision API를 사용하여 설명을 생성하며 음성 피드백을 제공하는 강력한 도구인 놀라운 Google Gemini Vision Pro ?입니다. 또한 웹캠을 사용하여 이미지를 캡처합니다.

? 소개 ?

Google Gemini Vision Pro는 이미지 처리, 음성 인식, 텍스트 음성 변환 기능을 결합한 다목적 애플리케이션입니다. 이 응용 프로그램을 사용하면 웹캠을 사용하여 이미지를 캡처하고, 음성 단어를 텍스트로 변환하고, 이미지 설명을 생성하고, 설명을 음성으로 들을 수도 있습니다.

설치 가이드

1단계: 저장소 복제

git clone https://github.com/haseeb-heaven/Gemini-Vision-Pro
cd Gemini-Vision-Pro

2단계: 종속성 설치

pip install -r requirements.txt

3단계: 애플리케이션 실행

streamlit run script.py

4단계: Google Palm API 키 획득 및 애플리케이션 설정

Google Palm API 키를 얻습니다.
다음 URL을 방문하세요: Google AI Studio
API 키 생성 버튼을 클릭하세요.
생성된 키는 API 키입니다. 꼭 복사해서 애플리케이션 설정에 붙여넣어 주세요.
API 키는 작동에 매우 중요합니다. 안전하게 보관하고 누구와도 공유하지 마세요 .

Gemini AI 설정:

AI 섹션

이 프로젝트의 핵심 AI 섹션은 다음과 같습니다.

? WebRTC, OpenCV 및 PIL을 사용한 웹캠 감지
Google Cloud Speech-to-Text API를 사용한 음성-텍스트 변환
?️ Google Cloud Text-to-Speech API를 사용한 텍스트-음성 변환
? Gemini AI Pro Vision API를 사용한 이미지 처리

특징

? 실시간 이미지 캡처를 통한 웹캠 감지
음성 단어를 음성에서 텍스트로 변환
?️ 음성 설명 생성을 위한 텍스트 음성 변환
? AI를 활용한 이미지 처리로 자세한 설명 제공
Python의 로깅 모듈을 사용한 로깅
Python의 예외 처리를 사용한 오류 처리

WebUI - 애플리케이션 쇼케이스

YouTube 데모:

라이브 피드가 포함된 웹캠:

개체를 Cap으로 사용한 Gemini Ai Vision 데모:

Hand를 사용한 Gemini Ai Vision 데모:

제스처를 사용한 Gemini Ai Vision 데모:

사용된 패키지

이 프로젝트는 다음을 포함한 다양한 Python 패키지를 사용합니다.

Streamlit - 애플리케이션을 구축하는 데 사용되는 웹 앱 프레임워크
Streamlit Webrtc - 웹캠에서 이미지를 캡처하는 데 사용됩니다.
OpenCV - 웹캠 이미지 캡처에 활용
PIL (Pillow) - 이미지 처리 및 변환에 사용됩니다.
gTTS(Google Text-to-Speech) - 텍스트를 음성으로 변환합니다.
SpeechRecognition - 음성을 텍스트로 변환합니다.
google.cloud.speech - 음성-텍스트 변환을 위한 Google Cloud 서비스의 일부

링크 및 참고자료

Google Gemini Vision Pro 관련 콘텐츠를 보려면 다음 링크를 따르세요.

구글 AI 스튜디오
Google Gemini 비전 프로
구글 제미니 딥마인드

버전 관리

버전 : 1.0 : 최초 릴리스

기여

우리는 기여를 환영합니다! 시작하려면 기여 지침을 따르세요.

특허

이 프로젝트는 MIT 라이선스 에 따라 라이선스가 부여됩니다. 자세한 내용은 LICENSE 파일을 참조하세요.

작가

천국HM
날짜: 2023년 12월 17일

확장하다

추가 정보

버전 1.0.0
유형 기타 소스코드
업데이트 시간 2024-11-29
크기 11.52KB
출처 Github

gemini vision pro

? 소개 ?

설치 가이드

1단계: 저장소 복제

2단계: 종속성 설치

3단계: 애플리케이션 실행

4단계: Google Palm API 키 획득 및 애플리케이션 설정

Gemini AI 설정:

AI 섹션

특징

WebUI - 애플리케이션 쇼케이스

YouTube 데모:

라이브 피드가 포함된 웹캠:

개체를 Cap으로 사용한 Gemini Ai Vision 데모:

Hand를 사용한 Gemini Ai Vision 데모:

제스처를 사용한 Gemini Ai Vision 데모:

사용된 패키지

링크 및 참고자료

버전 관리

기여

특허

작가

쌍둥이자리

제미니 루

BSPlayer 프로

ACDSee 프로

탑스타일 프로

카피 프로

chat.petals.dev

GPT Prompt Templates

GPTyped

waymo open dataset

SmartTube

Sunamu

waymo open dataset

wp functions

termwind