ฟีเจอร์ "การใช้คอมพิวเตอร์" ของ Anthropic ที่เปิดตัวในเดือนตุลาคมทำให้เอเจนต์ AI มีความสามารถที่ไม่เคยมีมาก่อนในการโต้ตอบกับมนุษย์ผ่านอินเทอร์เฟซผู้ใช้แบบกราฟิก (GUI) ซึ่งดึงดูดความสนใจอย่างกว้างขวาง ฟังก์ชันนี้ทลายข้อจำกัดของอินเทอร์เฟซ API แบบดั้งเดิม และช่วยให้ Claude สามารถควบคุมคอมพิวเตอร์ได้โดยตรงเพื่อทำงานที่ซับซ้อนมากขึ้น การวิจัยโดย National University of Singapore Show Lab ได้ทำการทดสอบ Claude อย่างครอบคลุมเพื่อประเมินประสิทธิภาพในสถานการณ์ต่างๆ ซึ่งแสดงให้เราเห็นถึงศักยภาพและข้อจำกัดของเทคโนโลยีนี้
นับตั้งแต่ Anthropic เปิดตัวฟีเจอร์ "การใช้คอมพิวเตอร์" ของ Claude ในเดือนตุลาคม ความสามารถของตัวแทน AI ก็ได้รับความสนใจอย่างกว้างขวาง คุณสมบัตินี้ทำให้ Claude เป็นโมเดลล้ำสมัยรุ่นแรกที่มีการโต้ตอบผ่านอินเทอร์เฟซผู้ใช้แบบกราฟิก (GUI) แบบเดียวกับมนุษย์
Claude มอบวิธีที่สะดวกในการดำเนินการอัตโนมัติให้กับผู้ใช้โดยไม่จำเป็นต้องใช้อินเทอร์เฟซ API โดยการเข้าถึงภาพหน้าจอเดสก์ท็อปและทำงานให้เสร็จสิ้นผ่านการทำงานของแป้นพิมพ์และเมาส์
ในการศึกษาที่ดำเนินการโดย Show Lab ของมหาวิทยาลัยแห่งชาติสิงคโปร์ นักวิจัยได้ทดสอบ Claude ในงานต่างๆ มากมาย รวมถึงการค้นหาเว็บ ขั้นตอนการทำงานให้เสร็จสิ้น ประสิทธิภาพการทำงานในสำนักงาน และวิดีโอเกม งานเหล่านี้ทดสอบความสามารถของ Claude ในสถานการณ์ต่างๆ เช่น การค้นหาและซื้อสินค้าบนเว็บ หรือการดึงข้อมูลจากเว็บไซต์และแทรกลงในสเปรดชีต ผ่านการทดสอบเหล่านี้ นักวิจัยได้ประเมินประสิทธิภาพของ Claude ในสามมิติ ได้แก่ การวางแผน การดำเนินการ และการประเมินผล
ประสิทธิภาพของ Claude น่าประทับใจเมื่อพูดถึงการปฏิบัติงานที่ซับซ้อน คือความสามารถในการกำหนดแผนที่ชัดเจน ปฏิบัติตามทีละขั้นตอน และประเมินความก้าวหน้าในแต่ละขั้นตอน นอกจากนี้ยังสามารถประสานงานระหว่างแอพพลิเคชั่นต่างๆ ได้ เช่น การคัดลอกข้อมูลหน้าเว็บลงในสเปรดชีต ในบางกรณี โคลดสามารถตรวจสอบผลลัพธ์เมื่อสิ้นสุดภารกิจเพื่อให้แน่ใจว่าทุกอย่างเป็นไปตามเป้าหมาย
อย่างไรก็ตาม Claude ยังทำข้อผิดพลาดง่ายๆ บางอย่างที่ผู้ใช้ทั่วไปสามารถหลีกเลี่ยงได้อย่างง่ายดาย ตัวอย่างเช่น ในงานหนึ่ง ไม่สามารถสมัครสมาชิกให้เสร็จสิ้นได้ เนื่องจากไม่มีการเลื่อนหน้าลงเพื่อค้นหาปุ่มที่เกี่ยวข้อง
นอกจากนี้ยังมีกรณีที่เกิดความยุ่งยากเมื่อทำงานที่ชัดเจน เช่น การเลือกและแทนที่ข้อความ หรือการเปลี่ยนสัญลักษณ์แสดงหัวข้อย่อยเป็นตัวเลข นอกจากนี้ บางครั้ง Claude ก็ไม่ตระหนักถึงความผิดพลาดของเขาหรือตั้งสมมติฐานที่ไม่ถูกต้องว่าทำไมเขาถึงไม่บรรลุเป้าหมาย
นักวิจัยชี้ให้เห็นว่าข้อบกพร่องของ Claude ในกลไกการประเมินตนเองอาจเป็นสาเหตุของข้อผิดพลาดเหล่านี้ และอาจจำเป็นต้องปรับปรุงเฟรมเวิร์กเอเจนต์ GUI ในอนาคตเพื่อเพิ่มโมดูลการประเมินตนเองที่เข้มงวดมากขึ้น ผลลัพธ์ยังแสดงให้เห็นว่าเอเจนต์ GUI ที่มีอยู่ไม่ได้จำลองความแตกต่างพื้นฐานของวิธีที่มนุษย์ใช้คอมพิวเตอร์อย่างสมบูรณ์
สำหรับธุรกิจ การใช้ข้อความธรรมดาเพื่ออธิบายงานอัตโนมัตินั้นน่าดึงดูดใจ แต่เทคโนโลยียังไม่พร้อมสำหรับการนำไปใช้ในวงกว้าง พฤติกรรมของโมเดลไม่แน่นอน ซึ่งอาจนำไปสู่ผลลัพธ์ที่คาดเดาไม่ได้ในแอปพลิเคชันที่มีความละเอียดอ่อน ในขณะเดียวกัน การดำเนินการผ่านอินเทอร์เฟซที่ออกแบบโดยมนุษย์ไม่ใช่วิธีที่เร็วที่สุดในการทำงานให้สำเร็จ
ก่อนที่จะมีการใช้งานอย่างแพร่หลาย องค์กรต่างๆ จำเป็นต้องคำนึงถึงความเสี่ยงด้านความปลอดภัยที่เกิดจากการมอบโมเดลภาษาขนาดใหญ่ (LLM) ให้กับเมาส์และคีย์บอร์ด ตัวอย่างเช่น การวิจัยแสดงให้เห็นว่าพร็อกซีเครือข่ายมีความเสี่ยงที่จะถูกโจมตีจากฝ่ายตรงข้ามซึ่งมนุษย์สามารถเพิกเฉยได้ง่าย อย่างไรก็ตาม เครื่องมืออย่าง Claude สามารถช่วยทีมผลิตภัณฑ์สำรวจแนวคิดและทำซ้ำเกี่ยวกับโซลูชัน ประหยัดเวลาและเงินก่อนที่จะพัฒนาฟีเจอร์หรือบริการใหม่ๆ
ไฮไลท์:
1. Claude เก่งในเรื่องความสามารถของเขาในการทำงานที่ซับซ้อนโดยอัตโนมัติผ่านอินเทอร์เฟซผู้ใช้แบบกราฟิก
2. Claude ทำผิดพลาดเมื่อทำงานง่ายๆ ซึ่งสะท้อนถึงความไม่เพียงพอของกลไกการประเมินตนเอง
3. ในขั้นตอนนี้ เทคโนโลยีนี้ไม่เหมาะสำหรับการใช้งานขนาดใหญ่ และองค์กรต่างๆ จำเป็นต้องระมัดระวังเกี่ยวกับความเสี่ยงด้านความปลอดภัยที่อาจเกิดขึ้น
โดยรวมแล้ว ฟีเจอร์ "การใช้งานคอมพิวเตอร์" ของ Claude แสดงให้เห็นถึงศักยภาพที่ยอดเยี่ยมของ AI ในด้านระบบอัตโนมัติ แต่ยังเผยให้เห็นส่วนที่ยังต้องปรับปรุงในแง่ของความเสถียรและความปลอดภัย ในอนาคต ด้วยการพัฒนาและปรับปรุงเทคโนโลยีอย่างต่อเนื่อง ตัวแทน AI เช่น Claude จะมีบทบาทสำคัญในสาขาอื่นๆ มากขึ้น