มีหน้าจอโทรศัพท์มือถือ แท็บเล็ต คอมพิวเตอร์ และทีวีเพิ่มมากขึ้นเรื่อยๆ และการดำเนินการต่างๆ ก็เริ่มซับซ้อนมากขึ้นเรื่อยๆ ใช่ไหม Apple เพิ่งเปิดตัว King Bomb - Ferret-UI2 ซึ่งเป็นโมเดลการทำความเข้าใจ UI ที่ทรงพลังอย่างยิ่ง อ้างว่าจะรวมโลก!
นี่ไม่ใช่เรื่องอวดอ้าง เป้าหมายของ Ferret-UI2 คือการเป็นนักรบหกเหลี่ยมที่แท้จริง สามารถเข้าใจ User Interface บนแพลตฟอร์มต่างๆ ไม่ว่าจะเป็น iPhone, Android, iPad, เว็บ หรือ AppleTV ก็ชนะได้อย่างง่ายดาย
หนึ่งในไฮไลท์ของ Ferret-UI2 คือการรองรับหลายแพลตฟอร์ม ต่างจาก Ferret-UI ซึ่งจำกัดเฉพาะแพลตฟอร์มมือถือ โดย Ferret-UI2 สามารถเข้าใจหน้าจอ UI จากอุปกรณ์ต่างๆ เช่น แท็บเล็ต หน้าเว็บ และสมาร์ททีวี การสนับสนุนหลายแพลตฟอร์มนี้ทำให้สามารถปรับให้เข้ากับระบบนิเวศของอุปกรณ์ที่หลากหลายในปัจจุบัน และช่วยให้ผู้ใช้มีสถานการณ์การใช้งานที่หลากหลายมากขึ้น
เพื่อปรับปรุงการรับรู้ UI นั้น Ferret-UI2 ได้แนะนำเทคโนโลยีการเข้ารหัสรูปภาพความละเอียดสูงแบบไดนามิก และใช้วิธีการปรับปรุงที่เรียกว่า "Adaptive Grid" ด้วยแนวทางนี้ Ferret-UI2 สามารถรักษาการรับรู้ที่ความละเอียดดั้งเดิมของภาพหน้าจอ UI ซึ่งช่วยให้สามารถจดจำองค์ประกอบภาพและความสัมพันธ์ได้แม่นยำยิ่งขึ้น
นอกจากนี้ Ferret-UI2 ยังใช้ประโยชน์จากข้อมูลการฝึกอบรมคุณภาพสูงเพื่อเรียนรู้งานขั้นพื้นฐานและขั้นสูง สำหรับงานพื้นฐาน Ferret-UI2 จะแปลงข้อมูลอ้างอิงและตำแหน่งอย่างง่ายให้เป็นรูปแบบการสนทนา ช่วยให้โมเดลสร้างความเข้าใจพื้นฐานเกี่ยวกับหน้าจอ UI ต่างๆ สำหรับงานขั้นสูงที่เน้นประสบการณ์ผู้ใช้มากขึ้น Ferret-UI2 ใช้เทคโนโลยี "เครื่องหมายกำหนดภาพ" ที่ใช้ GPT-4o เพื่อสร้างข้อมูลการฝึกอบรมและแทนที่การคลิกง่ายๆ ของวิธีการก่อนหน้าด้วยคำแนะนำการโต้ตอบที่เน้นผู้ใช้เป็นศูนย์กลางในขั้นตอนเดียว
เพื่อประเมินประสิทธิภาพของ Ferret-UI2 นักวิจัยได้สร้างเกณฑ์มาตรฐาน 45 รายการครอบคลุม 5 แพลตฟอร์ม รวมถึงงานพื้นฐาน 6 งานและงานขั้นสูง 3 งานสำหรับแต่ละแพลตฟอร์ม นอกจากนี้ พวกเขายังใช้การวัดประสิทธิภาพสาธารณะ เช่น GUIDE และ GUI-World ผลลัพธ์แสดงให้เห็นว่า Ferret-UI2 มีประสิทธิภาพเหนือกว่า Ferret-UI ในเกณฑ์มาตรฐานที่ทดสอบทั้งหมด โดยเฉพาะอย่างยิ่งการบรรลุการปรับปรุงที่สำคัญในงานขั้นสูง ซึ่งแสดงให้เห็นถึงความคล่องตัวในการจัดการงานทำความเข้าใจ UI ข้ามแพลตฟอร์ม
การศึกษาการระเหยยังแสดงให้เห็นว่าทั้งการปรับปรุงสถาปัตยกรรมและการปรับปรุงชุดข้อมูลใน Ferret-UI2 มีส่วนช่วยปรับปรุงประสิทธิภาพ โดยชุดข้อมูลใหม่มีผลกระทบอย่างมีนัยสำคัญต่องานที่ท้าทายมากขึ้น นอกจากนี้ Ferret-UI2 ยังทำงานได้ดีในการเรียนรู้การถ่ายโอนข้ามแพลตฟอร์ม โดยเฉพาะอย่างยิ่งแสดงความสามารถในการวางนัยทั่วไปที่ดีระหว่างแพลตฟอร์ม iPhone, iPad และ Android
ที่อยู่รุ่น: https://huggingface.co/jadechoghari/Ferret-UI-Llama8b
ที่อยู่กระดาษ: https://arxiv.org/pdf/2410.18967