ลองโดยไม่ใช้การรับรองความถูกต้องของ Firebase (วิธีแก้ปัญหาชั่วคราว): #2 (ความคิดเห็น)
สแต็กของเราประกอบด้วย Next.js, Rust, Postgres, MeiliSearch และ Firebase Auth สำหรับการตรวจสอบสิทธิ์ โปรดลงชื่อสมัครใช้บัญชี Firebase และสร้างโครงการ
ใน Firebase ไปที่การตั้งค่าโปรเจ็กต์ -> บัญชีบริการ สร้างคีย์ส่วนตัว และบันทึกไว้ใน firebaseAdmin/cert/dev.json
หากมีไว้สำหรับการพัฒนาหรือ prod.json หากมีไว้สำหรับการใช้งานจริง
หลังจากนั้น ตรวจสอบให้แน่ใจว่าคุณได้ติดตั้งการอ้างอิงก่อนที่จะเริ่มแอป
npm install
npm run db:deploy
npm run dev
(สำหรับการพัฒนา)npm run build
(สำหรับการผลิต)npm run start
(สำหรับการผลิต) เมื่อคุณเรียกใช้ 'dev' หรือ 'build' แล้ว คุณจะพบส่วนขยายที่สร้างอยู่ภายในโฟลเดอร์ . ./client/extension/build
จากนั้นคุณสามารถโหลดโฟลเดอร์นี้เป็นส่วนขยายที่คลายการแพ็กในเบราว์เซอร์ของคุณได้
มีปัญหาหลายประการกับเอเจนต์เบราว์เซอร์ปัจจุบัน ที่นี่เราจะอธิบายปัญหาและวิธีที่เราแก้ไข
มีเทคนิคหลายประการสำหรับสิ่งนี้ ตั้งแต่การส่ง HTML แบบย่อไปยัง GPT-3 การสร้างกรอบขอบเขตพร้อม ID และส่งไปที่ GPT-4-vision เพื่อดำเนินการ หรือขอให้ GPT-4-vision โดยตรงขอรับ พิกัด X และ Y ขององค์ประกอบ อย่างไรก็ตาม ไม่มีวิธีใดที่เชื่อถือได้ พวกเขาทั้งหมดนำไปสู่ภาพหลอน
เพื่อแก้ไขปัญหานี้ เราได้พัฒนาเทคนิคใหม่ที่เราจัดทำดัชนี DOM ทั้งหมดใน MeiliSearch ทำให้ GPT-4-vision สามารถสร้างคำสั่งสำหรับข้อความภายในขององค์ประกอบที่จะคลิก คัดลอก หรือดำเนินการอื่นๆ จากนั้นเราจะค้นหาดัชนีด้วยข้อความที่สร้างขึ้นและดึงรหัสองค์ประกอบเพื่อส่งกลับไปยังเบราว์เซอร์เพื่อดำเนินการ มีข้อจำกัดบางประการที่นี่ แต่เราได้ใช้เทคนิคบางอย่างเพื่อเอาชนะมัน เช่น การจัดการกับข้อความเดียวกันในหลายองค์ประกอบ หรือการคลิกที่ไอคอน (เรายังคงดำเนินการในส่วนนี้อยู่)
เพื่อป้องกันไม่ให้ GPT ตกรางจากงานต่างๆ เราใช้เทคนิคที่คล้ายกับการดึงข้อมูลรุ่นเสริม แต่เราเรียกมันว่า Actions Augmented Generation โดยพื้นฐานแล้ว เมื่อผู้ใช้สร้างเวิร์กโฟลว์ เราจะไม่บันทึกหน้าจอ ไมโครโฟน หรือกล้อง แต่เราบันทึกการเปลี่ยนแปลงองค์ประกอบ DOM สำหรับทุกการกระทำ (การคลิก การพิมพ์ ฯลฯ) ที่ผู้ใช้ทำ จากนั้นเราจะใช้ชื่อเวิร์กโฟลว์ วัตถุประสงค์ และการดำเนินการที่บันทึกไว้เพื่อสร้างชุดงาน เมื่อใดก็ตามที่เราดำเนินงาน เราจะฝังการกระทำทั้งหมดที่ผู้ใช้ทำในโดเมนนั้นพร้อมกับข้อความแจ้ง ด้วยวิธีนี้ GPT จะคอยติดตามงาน แม้ว่าผู้ใช้จะไม่ได้ระบุชื่อและวัตถุประสงค์ที่สั้นมากก็ตาม การกระทำของพวกเขาจะเป็นแนวทางให้ GPT ทำงานให้สำเร็จ