self operating computer 다운로드 - self operating computer 소스 코드 다운로드

self operating computer

기타 소스코드

update to `1.4.6`

다운로드

자체 운영 컴퓨터 프레임 워크

멀티 모달 모델이 컴퓨터를 작동 할 수 있도록하는 프레임 워크.

인간 연산자와 동일한 입력 및 출력을 사용하여 모델은 화면을보고 일련의 마우스 및 키보드 작업을 결정하여 목표에 도달합니다.

주요 기능

호환성 : 다양한 멀티 모달 모델 용으로 설계되었습니다.
통합 : 현재 GPT-4O, Gemini Pro Vision, Claude 3 및 Llava와 통합되었습니다.
향후 계획 : 추가 모델 지원.

지속적인 개발

HyperWriteai에서는보다 정확한 클릭 위치 예측을 가진 다중 모드 모델을 제 1- 비전을 개발하고 있습니다.

에이전트 -1- vision 모델 API 액세스

우리는 곧 에이전트 -1- vision 모델에 대한 API 액세스를 제공 할 것입니다.

이 API에 액세스하는 데 관심이 있으시면 여기에 가입하십시오.

데모

Final-low.mp4

`Self-Operating Computer` 실행하십시오

프로젝트를 설치하십시오

 pip install self-operating-computer

프로젝트를 실행하십시오

 operate

OpenAI 키를 입력하십시오 . 키가없는 경우 여기에서 OpenAI 키를 얻을 수 있습니다. 나중에 키를 변경하면 vim .env 실행하여 .env 를 열고 이전 키를 교체하십시오.

터미널 앱에 필요한 권한을 부여하십시오 . 마지막 단계로, 터미널 앱은 Mac의 "시스템 환경 설정"의 "보안 및 개인 정보"페이지에서 "화면 녹화"및 "접근성"에 대한 권한을 요청합니다.

`operate` 모드 사용

멀티 모달 모델 `-m`

추가 모델은 이제 자체 운영 컴퓨터 프레임 워크와 호환됩니다. 아래 지침에 따라 Google의 gemini-pro-vision 사용해보십시오.

Gemini 모델로 operate 하십시오

 operate -m gemini-pro-vision

터미널이 당신이 그것을 가지고 있지 않은 경우, Google AI Studio API 키를 입력하십시오 . Google AI Studio 계정을 설정 한 후 여기에서 키를 얻을 수 있습니다. 데스크탑 응용 프로그램에 대한 자격 증명을 승인해야 할 수도 있습니다. 일을하는 데 약간의 시간이 걸렸습니다. 누군가가 더 간단한 방법을 알고 있다면 PR을 만드십시오.

Claude `-m claude-3` 시도하십시오

Claude 3을 비전과 함께 사용하여 컴퓨터 작동시 GPT-4 vision을 어떻게 쌓는 지 확인하십시오. Claude 대시 보드로 이동하여 API 키를 가져 와서 아래 명령을 실행하여 시도하십시오.

 operate -m claude-3

Ollama `-m llava` 통해 호스팅 된 llava를 사용해보십시오

자신의 기계에서 llava를 사용하여 자체 운영 컴퓨터 프레임 워크를 실험하려면 Ollama를 사용할 수 있습니다!
참고 : Ollama는 현재 MacOS와 Linux 만 지원합니다

먼저 https://ollama.ai/download에서 컴퓨터에 Ollama를 설치하십시오.

Ollama가 설치되면 Llava 모델을 당기십시오.

 ollama pull llava

이렇게하면 약 5GB의 스토리지가 필요한 컴퓨터의 모델을 다운로드합니다.

Ollama가 Llava를 당기면 서버를 시작하십시오.

 ollama serve

그게 다야! 이제 operate 시작하고 LLAVA 모델을 선택하십시오.

 operate -m llava

중요 : LLAVA를 사용하는 오류율은 매우 높습니다. 이것은 시간이 지남에 따라 로컬 다중 모드 모델이 개선됨에 따라 단순히 구축 할 수있는 기반입니다.

Github 저장소에서 Ollama에 대해 자세히 알아보십시오

음성 모드 `--voice`

프레임 워크는 목표에 대한 음성 입력을 지원합니다. 아래 지침을 따라 음성을 시도하십시오. 레포지기를 컴퓨터의 디렉토리로 복제하십시오 .

 git clone https://github.com/OthersideAI/self-operating-computer.git

디렉토리에 CD :

 cd self-operating-computer

추가 requirements-audio.txt 설치하십시오

 pip install -r requirements-audio.txt

Mac 사용자의 장치 요구 사항 설치 :

 brew install portaudio

Linux 사용자의 경우 :

 sudo apt install portaudio19-dev python3-pyaudio

음성 모드로 실행하십시오

 operate --voice

광학 문자 인식 모드 `-m gpt-4-with-ocr`

자체 운영 컴퓨터 프레임 워크는 이제 광학 문자 인식 (OCR) 기능을 gpt-4-with-ocr 모드와 통합합니다. 이 모드는 GPT-4에 좌표 별 클릭 가능한 요소의 해시 맵을 제공합니다. GPT-4는 텍스트별로 요소를 click 로 결정한 다음 코드를 참조하여 해시 맵을 참조하여 해당 요소 GPT-4의 좌표를 클릭하려는 조정을 가져옵니다.

최근 테스트를 기반으로 OCR은 som 및 Vanilla GPT-4보다 더 잘 수행하므로 프로젝트의 기본값이되었습니다. OCR 모드를 사용하려면 간단히 쓸 수 있습니다.

operate 또는 operate -m gpt-4-with-ocr 도 작동합니다.

마크 소속 `-m gpt-4-with-som`

자체 운영 컴퓨터 프레임 워크는 이제 gpt-4-with-som 명령으로 프롬프트하는 세트 (SOM)를 지원합니다. 이 새로운 시각적 프롬프트 방법은 대형 멀티 모달 모델의 시각적 접지 기능을 향상시킵니다.

자세한 ARXIV 논문에서 SOM 프롬프트에 대해 자세히 알아보십시오.

이 초기 버전의 경우 간단한 YOLOV8 모델은 버튼 감지를 위해 교육을 받았으며 best.pt 파일은 model/weights/ 에 포함됩니다. 사용자는 성능 향상을 평가하기 위해 best.pt 파일을 교체하도록 권장됩니다. 모델이 기존 모델을 능가하는 경우 PR (Pull Request)을 작성하여 기여하십시오.

SOM 모델에서 시작 operate

 operate -m gpt-4-with-som

기부금은 환영받습니다! :

자신을 기여하고 싶다면 Contributing.md를 참조하십시오.

피드백

이 프로젝트를 개선하는 데 대한 정보는 트위터에서 Josh에게 자유롭게 연락하십시오.

불화 커뮤니티에 가입하십시오

실시간 토론 및 커뮤니티 지원을 위해 Discord 서버에 가입하십시오.

이미 회원 인 경우 #Self-Operating-Computer에서 토론에 참여하십시오.
새로운 경우 먼저 Discord Server에 가입 한 다음 #Self-Operating-Commuter로 이동하십시오.

더 많은 업데이트를 보려면 HyperWriteai를 팔로우하십시오

최신 개발로 업데이트하십시오.

트위터에서 HyperWriteai를 팔로우하십시오.
LinkedIn에서 Hyperwriteai를 팔로우하십시오.

호환성

이 프로젝트는 Mac OS, Windows 및 Linux (X 서버가 설치된 상태)와 호환됩니다.

개방 비율 제한 참고

gpt-4o 모델이 필요합니다. 이 모델에 대한 액세스를 잠금 해제하려면 API 크레딧에 최소 $ 5를 소비해야합니다. 이 크레딧에 대한 사전 지불은 아직 최소 $ 5를 소비하지 않은 경우 액세스를 잠금 해제합니다.
여기에서 자세히 알아보십시오

확장하다

추가 정보

버전 update to `1.4.6`
유형 기타 소스코드
업데이트 시간 2025-03-01
크기 6.31MB
출처 Github

self operating computer

자체 운영 컴퓨터 프레임 워크

주요 기능

지속적인 개발

에이전트 -1- vision 모델 API 액세스

데모

`Self-Operating Computer` 실행하십시오

`operate` 모드 사용

멀티 모달 모델 `-m`

Claude `-m claude-3` 시도하십시오

Ollama `-m llava` 통해 호스팅 된 llava를 사용해보십시오

음성 모드 `--voice`

광학 문자 인식 모드 `-m gpt-4-with-ocr`

마크 소속 `-m gpt-4-with-som`

기부금은 환영받습니다! :

피드백

불화 커뮤니티에 가입하십시오

더 많은 업데이트를 보려면 HyperWriteai를 팔로우하십시오

호환성

개방 비율 제한 참고

GitHub sgrebnov/cordova plugin background download

wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

자기 관리 목표 추적기 앱

키체인 메이커 모바일 버전 (호신 방어 키체인 게임)

자립

자가 격리

chat.petals.dev

GPT Prompt Templates

GPTyped

waymo open dataset

chat.petals.dev

Sunamu

waymo open dataset

termwind

wp functions

self operating computer

자체 운영 컴퓨터 프레임 워크

주요 기능

지속적인 개발

에이전트 -1- vision 모델 API 액세스

데모

Self-Operating Computer 실행하십시오

operate 모드 사용

멀티 모달 모델 -m

Claude -m claude-3 시도하십시오

Ollama -m llava 통해 호스팅 된 llava를 사용해보십시오

음성 모드 --voice

광학 문자 인식 모드 -m gpt-4-with-ocr

마크 소속 -m gpt-4-with-som

기부금은 환영받습니다! :

피드백

불화 커뮤니티에 가입하십시오

더 많은 업데이트를 보려면 HyperWriteai를 팔로우하십시오

호환성

개방 비율 제한 참고

`Self-Operating Computer` 실행하십시오

`operate` 모드 사용

멀티 모달 모델 `-m`

Claude `-m claude-3` 시도하십시오

Ollama `-m llava` 통해 호스팅 된 llava를 사용해보십시오

음성 모드 `--voice`

광학 문자 인식 모드 `-m gpt-4-with-ocr`

마크 소속 `-m gpt-4-with-som`