ต้องเผชิญกับการโต้ตอบกับอินเทอร์เฟซที่ซับซ้อนมากขึ้นในยุคหลายหน้าจอเช่นโทรศัพท์มือถือแท็บเล็ตคอมพิวเตอร์และทีวี Apple ได้เปิดตัวโมเดล UI ที่มีประสิทธิภาพ Ferret-UI2 โดยมีจุดประสงค์เพื่อรวมความเข้าใจส่วนต่อประสานของผู้ใช้ในแพลตฟอร์มที่แตกต่างกัน Ferret-UI2 ไม่ใช่การอัพเกรดที่เรียบง่าย แต่เป็นรุ่นใหม่ที่มีความสามารถข้ามแพลตฟอร์ม ข้อได้เปรียบหลักของมันอยู่ในการสนับสนุนหลายแพลตฟอร์มเทคโนโลยีการเข้ารหัสภาพความละเอียดสูงแบบไดนามิกและเทคโนโลยีการมองเห็นที่ใช้ Visual Visual-based "GPT-4O ซึ่งทำให้ Ferret-UI2 มีความสำคัญทั้งในการรับรู้ของ UI และความสามารถในการประมวลผลงาน
โทรศัพท์มือถือแท็บเล็ตคอมพิวเตอร์และทีวีมีหน้าจอมากขึ้นเรื่อย ๆ และการดำเนินงานที่ซับซ้อนมากขึ้น
นี่ไม่ใช่การคุยโว
ไฮไลต์ของ Ferret-UI2 คือการรองรับหลายแพลตฟอร์ม ซึ่งแตกต่างจาก Ferret-UI ซึ่ง จำกัด อยู่ที่แพลตฟอร์มมือถือ Ferret-UI2 สามารถเข้าใจหน้าจอ UI จากอุปกรณ์ต่าง ๆ เช่นแท็บเล็ตเว็บเพจและทีวีอัจฉริยะ การสนับสนุนแบบหลายแพลตฟอร์มนี้ช่วยให้สามารถปรับให้เข้ากับระบบนิเวศอุปกรณ์ที่หลากหลายในปัจจุบันและให้สถานการณ์แอปพลิเคชันที่หลากหลายแก่ผู้ใช้
เพื่อปรับปรุงการรับรู้ของ UI Ferret-UI2 ได้แนะนำเทคโนโลยีการเข้ารหัสภาพความละเอียดสูงแบบไดนามิกและใช้วิธีการเพิ่มประสิทธิภาพที่เรียกว่า "Adaptive Grid" ด้วยวิธีนี้ Ferret-UI2 สามารถรักษาการรับรู้ที่ความละเอียดดั้งเดิมของภาพหน้าจอ UI ซึ่งจะระบุองค์ประกอบภาพและความสัมพันธ์ของพวกเขาได้อย่างแม่นยำยิ่งขึ้น
นอกจากนี้ Ferret-UI2 ยังใช้ข้อมูลการฝึกอบรมคุณภาพสูงเพื่อเรียนรู้งานพื้นฐานและขั้นสูง สำหรับงานพื้นฐาน Ferret-UI2 แปลงข้อมูลการอ้างอิงและการวางตำแหน่งอย่างง่ายเป็นรูปแบบการสนทนาทำให้แบบจำลองสามารถสร้างความเข้าใจพื้นฐานของหน้าจอ UI ต่างๆ สำหรับงานขั้นสูงที่มุ่งเน้นไปที่ประสบการณ์ของผู้ใช้มากขึ้น Ferret-UI2 ใช้เทคโนโลยี "แท็กชุด Visual Prompt" ที่ใช้ GPT-4O เพื่อสร้างข้อมูลการฝึกอบรมและแทนที่การคลิกง่าย ๆ ในวิธีการก่อนหน้านี้ด้วยการโต้ตอบกับผู้ใช้เป็นศูนย์กลางขั้นตอนเดียว คำแนะนำ.
เพื่อประเมินประสิทธิภาพของ Ferret-UI2 นักวิจัยได้สร้างมาตรฐาน 45 แบบครอบคลุมห้าแพลตฟอร์มรวมถึง 6 งานพื้นฐานและ 3 งานขั้นสูงสำหรับแต่ละแพลตฟอร์ม นอกจากนี้พวกเขายังใช้เกณฑ์มาตรฐานสาธารณะเช่น Guide และ Gui-World ผลการวิจัยพบว่า Ferret-UI2 มีประสิทธิภาพสูงกว่า Ferret-UI ในมาตรฐานการทดสอบทั้งหมดโดยเฉพาะอย่างยิ่งกับความก้าวหน้าที่สำคัญในงานขั้นสูงแสดงให้เห็นถึงความเก่งกาจในการจัดการงานการทำความเข้าใจ UI แบบข้ามแพลตฟอร์ม
การศึกษาด้วยการระเหยแสดงเพิ่มเติมว่าทั้งการปรับปรุงสถาปัตยกรรม Ferret-UI2 และการปรับปรุงชุดข้อมูลมีส่วนช่วยในการปรับปรุงประสิทธิภาพโดยมีผลกระทบของชุดข้อมูลใหม่ต่องานที่ท้าทายมากขึ้นอย่างมีนัยสำคัญมากขึ้น นอกจากนี้ Ferret-UI2 ยังทำงานได้ดีในการเรียนรู้การถ่ายโอนข้ามแพลตฟอร์มโดยเฉพาะอย่างยิ่งในความสามารถทั่วไปที่ดีระหว่างแพลตฟอร์ม iPhone, iPad และ Android
ที่อยู่รุ่น: https://huggingface.co/jadechoghari/ferret-ui-llama8b
ที่อยู่กระดาษ: https://arxiv.org/pdf/2410.18967
ในระยะสั้น Ferret-UI2 ให้ความเป็นไปได้ใหม่สำหรับการมีปฏิสัมพันธ์ระหว่างมนุษย์กับคอมพิวเตอร์ที่ฉลาดและสะดวกสบายยิ่งขึ้นในอนาคตด้วยความสามารถในการทำความเข้าใจ UI ข้ามแพลตฟอร์มที่ทรงพลังและการปรับปรุงประสิทธิภาพที่สำคัญ รูปแบบและกระดาษโอเพนซอร์สของมันยังให้ทรัพยากรที่มีค่าสำหรับการวิจัยและการประยุกต์ใช้