멀티 모달 모델이 컴퓨터를 작동 할 수 있도록하는 프레임 워크.
인간 연산자와 동일한 입력 및 출력을 사용하여 모델은 화면을보고 일련의 마우스 및 키보드 작업을 결정하여 목표에 도달합니다.
HyperWriteai에서는보다 정확한 클릭 위치 예측을 가진 다중 모드 모델을 제 1- 비전을 개발하고 있습니다.
우리는 곧 에이전트 -1- vision 모델에 대한 API 액세스를 제공 할 것입니다.
이 API에 액세스하는 데 관심이 있으시면 여기에 가입하십시오.
Self-Operating Computer
실행하십시오 pip install self-operating-computer
operate
vim .env
실행하여 .env
를 열고 이전 키를 교체하십시오. operate
모드 사용-m
추가 모델은 이제 자체 운영 컴퓨터 프레임 워크와 호환됩니다. 아래 지침에 따라 Google의 gemini-pro-vision
사용해보십시오.
Gemini 모델로 operate
하십시오
operate -m gemini-pro-vision
터미널이 당신이 그것을 가지고 있지 않은 경우, Google AI Studio API 키를 입력하십시오 . Google AI Studio 계정을 설정 한 후 여기에서 키를 얻을 수 있습니다. 데스크탑 응용 프로그램에 대한 자격 증명을 승인해야 할 수도 있습니다. 일을하는 데 약간의 시간이 걸렸습니다. 누군가가 더 간단한 방법을 알고 있다면 PR을 만드십시오.
-m claude-3
시도하십시오Claude 3을 비전과 함께 사용하여 컴퓨터 작동시 GPT-4 vision을 어떻게 쌓는 지 확인하십시오. Claude 대시 보드로 이동하여 API 키를 가져 와서 아래 명령을 실행하여 시도하십시오.
operate -m claude-3
-m llava
통해 호스팅 된 llava를 사용해보십시오 자신의 기계에서 llava를 사용하여 자체 운영 컴퓨터 프레임 워크를 실험하려면 Ollama를 사용할 수 있습니다!
참고 : Ollama는 현재 MacOS와 Linux 만 지원합니다
먼저 https://ollama.ai/download에서 컴퓨터에 Ollama를 설치하십시오.
Ollama가 설치되면 Llava 모델을 당기십시오.
ollama pull llava
이렇게하면 약 5GB의 스토리지가 필요한 컴퓨터의 모델을 다운로드합니다.
Ollama가 Llava를 당기면 서버를 시작하십시오.
ollama serve
그게 다야! 이제 operate
시작하고 LLAVA 모델을 선택하십시오.
operate -m llava
중요 : LLAVA를 사용하는 오류율은 매우 높습니다. 이것은 시간이 지남에 따라 로컬 다중 모드 모델이 개선됨에 따라 단순히 구축 할 수있는 기반입니다.
Github 저장소에서 Ollama에 대해 자세히 알아보십시오
--voice
프레임 워크는 목표에 대한 음성 입력을 지원합니다. 아래 지침을 따라 음성을 시도하십시오. 레포지기를 컴퓨터의 디렉토리로 복제하십시오 .
git clone https://github.com/OthersideAI/self-operating-computer.git
디렉토리에 CD :
cd self-operating-computer
추가 requirements-audio.txt
설치하십시오
pip install -r requirements-audio.txt
Mac 사용자의 장치 요구 사항 설치 :
brew install portaudio
Linux 사용자의 경우 :
sudo apt install portaudio19-dev python3-pyaudio
음성 모드로 실행하십시오
operate --voice
-m gpt-4-with-ocr
자체 운영 컴퓨터 프레임 워크는 이제 광학 문자 인식 (OCR) 기능을 gpt-4-with-ocr
모드와 통합합니다. 이 모드는 GPT-4에 좌표 별 클릭 가능한 요소의 해시 맵을 제공합니다. GPT-4는 텍스트별로 요소를 click
로 결정한 다음 코드를 참조하여 해시 맵을 참조하여 해당 요소 GPT-4의 좌표를 클릭하려는 조정을 가져옵니다.
최근 테스트를 기반으로 OCR은 som
및 Vanilla GPT-4보다 더 잘 수행하므로 프로젝트의 기본값이되었습니다. OCR 모드를 사용하려면 간단히 쓸 수 있습니다.
operate
또는 operate -m gpt-4-with-ocr
도 작동합니다.
-m gpt-4-with-som
자체 운영 컴퓨터 프레임 워크는 이제 gpt-4-with-som
명령으로 프롬프트하는 세트 (SOM)를 지원합니다. 이 새로운 시각적 프롬프트 방법은 대형 멀티 모달 모델의 시각적 접지 기능을 향상시킵니다.
자세한 ARXIV 논문에서 SOM 프롬프트에 대해 자세히 알아보십시오.
이 초기 버전의 경우 간단한 YOLOV8 모델은 버튼 감지를 위해 교육을 받았으며 best.pt
파일은 model/weights/
에 포함됩니다. 사용자는 성능 향상을 평가하기 위해 best.pt
파일을 교체하도록 권장됩니다. 모델이 기존 모델을 능가하는 경우 PR (Pull Request)을 작성하여 기여하십시오.
SOM 모델에서 시작 operate
operate -m gpt-4-with-som
자신을 기여하고 싶다면 Contributing.md를 참조하십시오.
이 프로젝트를 개선하는 데 대한 정보는 트위터에서 Josh에게 자유롭게 연락하십시오.
실시간 토론 및 커뮤니티 지원을 위해 Discord 서버에 가입하십시오.
최신 개발로 업데이트하십시오.
gpt-4o
모델이 필요합니다. 이 모델에 대한 액세스를 잠금 해제하려면 API 크레딧에 최소 $ 5를 소비해야합니다. 이 크레딧에 대한 사전 지불은 아직 최소 $ 5를 소비하지 않은 경우 액세스를 잠금 해제합니다.
여기에서 자세히 알아보십시오