ด้วยการพัฒนาอย่างรวดเร็วของเทคโนโลยี generative AI วิธีประเมินประสิทธิภาพอย่างเป็นกลางจึงกลายเป็นปัญหาเร่งด่วนที่ต้องแก้ไข โดยเฉพาะอย่างยิ่งสำหรับแบบจำลองไดอะแกรม Vincent วิธีการประเมินแบบเดิมมีทั้งความเป็นส่วนตัวและข้อจำกัด ทำให้ยากต่อการสะท้อนผลกระทบที่แท้จริงของแบบจำลองอย่างแม่นยำ บรรณาธิการของ Downcodes จะแนะนำโปรแกรมการประเมินกราฟ Vincentian ใหม่ที่เปิดตัวร่วมกันโดย Carnegie Mellon University และนักวิจัย Meta - VQAScore และเกณฑ์มาตรฐานการประเมินใหม่ - GenAI-Bench และวิธีที่พวกเขาจะเปลี่ยนมาตรฐานการประเมินในสาขากราฟ Vincentian .
วิธีการประเมินแบบเดิมๆ อาจอาศัยสายตาของมนุษย์ซึ่งเป็นอัตวิสัยมากเกินไป หรือใช้ตัวบ่งชี้ง่ายๆ เช่น CLIPScore แต่ตัวบ่งชี้เหล่านี้มักไม่สามารถจับรายละเอียดเป็นข้อความแจ้งที่ซับซ้อนได้ เช่น ความสัมพันธ์ระหว่างวัตถุและการใช้เหตุผลเชิงตรรกะ เป็นต้น สิ่งนี้นำไปสู่ผลการประเมินที่ไม่ถูกต้องของแบบจำลองกราฟ Vincentian จำนวนมาก และแม้แต่สถานการณ์ตลกๆ บางอย่างก็เกิดขึ้น ภาพที่สร้างขึ้นนั้นผิดอย่างชัดเจน แต่คะแนนค่อนข้างสูง
เพื่อแก้ไขปัญหานี้ นักวิจัยจากมหาวิทยาลัย Carnegie Mellon และ Meta เพิ่งร่วมมือกันเพื่อเปิดตัวโปรแกรมประเมินกราฟ Vincentian ใหม่ - VQAScore แนวคิดหลักของโซลูชันนี้คือการใช้แบบจำลองการตอบคำถามด้วยภาพ (VQA) เพื่อให้คะแนนแบบจำลองกราฟ Vincent
โดยเฉพาะอย่างยิ่ง VQAScore จะแปลงข้อความแจ้งเป็นคำถามง่ายๆ ก่อน เช่น "ในภาพนี้มีแมววิ่งไล่หนูหรือไม่" จากนั้นจึงโยนรูปภาพที่สร้างขึ้นและคำถามนี้ไปยังโมเดล VQA โมเดล VQA จะตัดสินว่าคำตอบของคำถามคือ "ใช่" หรือ "ไม่" ตามเนื้อหารูปภาพ และ VQAScore จะให้คะแนนโมเดลไดอะแกรม Vincent ตามความน่าจะเป็นของโมเดล VQA ที่ตัดสินว่า "ใช่"
วิธีนี้ดูเหมือนง่าย แต่ผลที่ได้ก็ดีอย่างน่าประหลาดใจ นักวิจัยใช้ VQAScore เพื่อทดสอบเกณฑ์มาตรฐานการประเมินกราฟของ Vincent ทั้ง 8 แบบ ผลการวิจัยพบว่าความแม่นยำและความน่าเชื่อถือของ VQAScore นั้นเหนือกว่าวิธีการประเมินแบบเดิมๆ มาก และยังเทียบได้กับแบบที่ใช้โมเดลขนาดใหญ่มาก เช่น GPT-4V อีกด้วย
สิ่งที่ทรงพลังยิ่งกว่าคือ VQAScore ไม่เพียงแต่สามารถใช้เพื่อประเมินรูปภาพของ Vincent เท่านั้น แต่ยังใช้เพื่อประเมินวิดีโอของ Vincent และโมเดล 3D ของ Vincent อีกด้วย เนื่องจากแกนหลักของ VQAScore คือโมเดล VQA และโมเดล VQA เองก็สามารถรองรับเนื้อหาภาพประเภทต่างๆ ได้
เพื่อส่งเสริมความก้าวหน้าในด้านกราฟ Vincentian นักวิจัยยังได้สร้างเกณฑ์มาตรฐานการประเมินกราฟ Vincentian ใหม่ชื่อ GenAI-Bench เกณฑ์มาตรฐานนี้มีข้อความแจ้งที่ซับซ้อน 1,600 ข้อความ ซึ่งครอบคลุมความสามารถในการให้เหตุผลทางภาพต่างๆ เช่น การเปรียบเทียบ การนับ การใช้เหตุผลเชิงตรรกะ ฯลฯ นักวิจัยยังได้รวบรวมคำอธิบายประกอบแบบแมนนวลมากกว่า 15,000 รายการเพื่อประเมินประสิทธิภาพของแบบจำลองไดอะแกรม Vincent ต่างๆ
โดยทั่วไป การเกิดขึ้นของ VQAScore และ GenAI-Bench ได้นำพลังใหม่มาสู่กราฟ Vincent VQAScore มีวิธีการประเมินที่แม่นยำและเชื่อถือได้มากขึ้น ซึ่งสามารถช่วยนักวิจัยประเมินข้อดีและข้อเสียของแบบจำลองต่างๆ ได้ดียิ่งขึ้น GenAI-Bench มอบเกณฑ์มาตรฐานการประเมินที่ครอบคลุมและท้าทายมากขึ้น ซึ่งสามารถส่งเสริมการพัฒนาแบบจำลองกราฟ Vincent ในทิศทางที่ชาญฉลาดและมีมนุษยธรรมมากขึ้น
แน่นอนว่า VQAScore ก็มีข้อจำกัดบางประการเช่นกัน ปัจจุบัน VQAScore อาศัยโมเดล VQA แบบโอเพ่นซอร์สเป็นหลัก และประสิทธิภาพของโมเดลเหล่านี้ยังไม่ดีเท่ากับรุ่นโอเพ่นซอร์ส เช่น GPT-4V ในอนาคต เนื่องจากโมเดล VQA มีการปรับปรุงอย่างต่อเนื่อง ประสิทธิภาพของ VQAScore ก็จะได้รับการปรับปรุงให้ดียิ่งขึ้นไปอีก
ที่อยู่โครงการ: https://linzhiqiu.github.io/papers/vqascore/
การเกิดขึ้นของ VQAScore และ GenAI-Bench มอบวิธีใหม่ในการประเมินแบบจำลองกราฟ Vincentian อย่างเป็นกลาง และส่งเสริมการพัฒนาเทคโนโลยีและนวัตกรรมการใช้งานในสาขานี้ เป็นที่เชื่อกันว่าวิธีการประเมินขั้นสูงจะเกิดขึ้นในอนาคตเพื่อเพิ่มประสิทธิภาพและมูลค่าการใช้งานของแบบจำลองไดอะแกรม Vincent รอคอยที่จะมีความก้าวหน้าอย่างต่อเนื่องในด้านนี้!