โมเดลภาษาภาพ ScreenAI ที่เพิ่งเปิดตัวใหม่ของ Google ได้สร้างความก้าวหน้าในงานทำความเข้าใจหลายอย่าง โดยสร้างบันทึก SOTA ใหม่ รุ่นนี้ใช้วิธีการสร้างข้อมูลอัตโนมัติ PaLM 2-S ที่เป็นนวัตกรรมใหม่ ซึ่งปรับปรุงความหลากหลายและความซับซ้อนของชุดข้อมูลได้อย่างมีประสิทธิภาพ ขณะเดียวกันก็รับประกันประสิทธิภาพสูง ด้วยสถาปัตยกรรมตัวเข้ารหัสหลายรูปแบบ ScreenAI สามารถทำงานข้อความ+รูปภาพเป็นข้อความได้อย่างยอดเยี่ยม และแสดงให้เห็นถึงประสิทธิภาพชั้นนำในงานต่างๆ เช่น QA บนหน้าจอ อินโฟกราฟิก และการทำความเข้าใจเอกสาร ซึ่งนำการพัฒนาใหม่ๆ มาสู่ขอบเขตความเป็นไปได้ของโมเดลภาษาภาพ
Google เพิ่งเปิดตัวโมเดลภาษาภาพ ScreenAI ซึ่งใช้ PaLM 2-S เพื่อสร้างข้อมูลโดยอัตโนมัติ ทำลายสถิติ SOTA สำหรับงานทำความเข้าใจหลายอย่าง โมเดลนี้ใช้สถาปัตยกรรมตัวเข้ารหัสหลายรูปแบบเพื่อให้บรรลุการแก้ปัญหาข้อความและรูปภาพเป็นข้อความ นักวิจัยใช้วิธีการสร้างข้อมูลอัตโนมัติเพื่อเพิ่มความหลากหลายและความซับซ้อนของชุดข้อมูล ในขณะเดียวกันก็รับประกันประสิทธิภาพ โมเดลดังกล่าวได้รับประสิทธิภาพชั้นนำในด้าน QA บนหน้าจอ อินโฟกราฟิก และงานทำความเข้าใจเอกสาร
การเกิดขึ้นของ ScreenAI ถือเป็นความก้าวหน้าครั้งสำคัญในเทคโนโลยีโมเดลภาษาภาพที่มีประสิทธิภาพและประสิทธิภาพชั้นนำ ทำให้เกิดทิศทางใหม่สำหรับการพัฒนา AI ในอนาคต เทคโนโลยีการสร้างข้อมูลอัตโนมัติยังให้แนวคิดใหม่ๆ และการอ้างอิงสำหรับการฝึกฝนโมเดล AI อื่นๆ เราหวังว่าจะได้ ScreenAI แสดงให้เห็นถึงความสามารถอันทรงพลังในสถานการณ์การใช้งานจริงมากขึ้น