Firebase 인증 없이 사용해 보세요(임시 해결 방법): #2(댓글)
우리 스택은 인증을 위한 Next.js, Rust, Postgres, MeiliSearch 및 Firebase Auth로 구성됩니다. Firebase 계정에 가입하시고 프로젝트를 생성해주세요.
Firebase에서 프로젝트 설정 -> 서비스 계정으로 이동하여 개인 키를 생성하고 개발용인 경우 firebaseAdmin/cert/dev.json
에 저장하고 프로덕션용인 경우 prod.json에 저장합니다.
그런 다음 앱을 시작하기 전에 종속성을 설치했는지 확인하세요.
npm install
실행npm run db:deploy
npm run dev
실행(개발용)npm run build
실행(프로덕션용)npm run start
실행(프로덕션용) 'dev' 또는 'build'를 실행하면 ./client/extension/build
폴더 내에 빌드된 확장 기능을 찾을 수 있습니다. 그런 다음 브라우저에서 이 폴더를 압축이 풀린 확장 프로그램으로 로드할 수 있습니다.
현재 브라우저 에이전트에는 몇 가지 문제가 있습니다. 여기에서는 문제와 해결 방법을 설명합니다.
이에 대한 기술에는 단축된 형식의 HTML을 GPT-3으로 보내는 것, ID가 포함된 경계 상자를 생성하고 이를 GPT-4-vision으로 보내 조치를 취하는 것, GPT-4-vision에 직접 요청하여 요소의 X 및 Y 좌표입니다. 그러나 이러한 방법 중 어느 것도 신뢰할 수 없었습니다. 그들은 모두 환각으로 이어졌습니다.
이 문제를 해결하기 위해 우리는 MeiliSearch에서 전체 DOM을 인덱싱하는 새로운 기술을 개발하여 GPT-4-vision이 요소의 내부 텍스트를 클릭, 복사 또는 기타 작업을 수행하는 명령을 생성할 수 있도록 했습니다. 그런 다음 생성된 텍스트로 인덱스를 검색하고 요소 ID를 검색하여 조치를 취하기 위해 브라우저로 다시 보냅니다. 여기에는 몇 가지 제한 사항이 있지만 이를 극복하기 위해 여러 요소에서 동일한 텍스트를 처리하거나 아이콘을 클릭하는 등 몇 가지 기술을 구현했습니다(아직 작업 중입니다).
GPT가 작업에서 벗어나는 것을 방지하기 위해 검색 증강 생성과 유사한 기술을 사용하지만 이를 Actions Augmented Generation이라고 부릅니다. 기본적으로 사용자가 워크플로를 생성할 때 화면, 마이크 또는 카메라를 기록하지 않지만 사용자가 수행하는 모든 작업(클릭, 입력 등)에 대한 DOM 요소 변경 사항을 기록합니다. 그런 다음 워크플로 제목, 목표, 기록된 작업을 사용하여 일련의 작업을 생성합니다. 작업을 실행할 때마다 해당 특정 도메인에서 사용자가 수행한 모든 작업이 프롬프트에 포함됩니다. 이렇게 하면 사용자가 매우 간단한 제목과 목표를 제공하지 않은 경우에도 GPT는 작업을 계속 진행합니다. 이들의 행동은 GPT가 작업을 완료하도록 안내합니다.