การสนับสนุนของ Claude ในการจัดการฟังก์ชันคอมพิวเตอร์เช่นเดียวกับมนุษย์แสดงให้เห็นถึงข้อดีและข้อจำกัดในการวิจัย

ผู้เขียน：Eve Cole เวลาอัปเดต：2025-01-09 18:12:01

ฟีเจอร์ "การใช้คอมพิวเตอร์" ของ Anthropic ของ Claude ซึ่งเปิดตัวในเดือนตุลาคม ได้รับความสนใจจากความสามารถของ AI agent กลายเป็นโมเดลล้ำสมัยตัวแรกที่สามารถโต้ตอบผ่านอินเทอร์เฟซผู้ใช้แบบกราฟิก (GUI) เช่นเดียวกับมนุษย์ บรรณาธิการของ Downcodes จะทำให้คุณเข้าใจอย่างลึกซึ้งเกี่ยวกับความก้าวหน้าที่ก้าวหน้าของเทคโนโลยีนี้ รวมถึงความท้าทายที่เทคโนโลยีนี้เผชิญและทิศทางการพัฒนาในอนาคต

นับตั้งแต่ Anthropic เปิดตัวฟีเจอร์ "การใช้คอมพิวเตอร์" ของ Claude ในเดือนตุลาคม ความสามารถของตัวแทน AI ก็ได้รับความสนใจอย่างกว้างขวาง คุณสมบัตินี้ทำให้ Claude เป็นโมเดลล้ำสมัยรุ่นแรกที่มีการโต้ตอบผ่านอินเทอร์เฟซผู้ใช้แบบกราฟิก (GUI) แบบเดียวกับมนุษย์

Claude มอบวิธีที่สะดวกแก่ผู้ใช้ในการดำเนินการอัตโนมัติโดยไม่จำเป็นต้องใช้อินเทอร์เฟซ API โดยการเข้าถึงภาพหน้าจอเดสก์ท็อปและทำงานให้เสร็จสิ้นผ่านการทำงานของแป้นพิมพ์และเมาส์

ในการศึกษาที่ดำเนินการโดย Show Lab ของมหาวิทยาลัยแห่งชาติสิงคโปร์ นักวิจัยได้ทดสอบ Claude ในงานต่างๆ มากมาย รวมถึงการค้นหาเว็บ ขั้นตอนการทำงานให้เสร็จสิ้น ประสิทธิภาพการทำงานในสำนักงาน และวิดีโอเกม งานเหล่านี้ทดสอบความสามารถของ Claude ในสถานการณ์ต่างๆ เช่น การค้นหาและซื้อสินค้าบนเว็บ หรือการดึงข้อมูลจากเว็บไซต์และแทรกลงในสเปรดชีต ผ่านการทดสอบเหล่านี้ นักวิจัยประเมินประสิทธิภาพของ Claude ในสามมิติ ได้แก่ การวางแผน การดำเนินการ และการประเมินผล

ประสิทธิภาพของ Claude น่าประทับใจเมื่อพูดถึงการปฏิบัติงานที่ซับซ้อน คือความสามารถในการกำหนดแผนที่ชัดเจน ปฏิบัติตามทีละขั้นตอน และประเมินความก้าวหน้าในแต่ละขั้นตอน นอกจากนี้ยังสามารถประสานงานระหว่างแอพพลิเคชั่นต่างๆ ได้ เช่น การคัดลอกข้อมูลหน้าเว็บลงในสเปรดชีต ในบางกรณี โคลดสามารถตรวจสอบผลลัพธ์เมื่อสิ้นสุดภารกิจเพื่อให้แน่ใจว่าทุกอย่างเป็นไปตามเป้าหมาย

อย่างไรก็ตาม Claude ยังทำข้อผิดพลาดง่ายๆ บางอย่างที่ผู้ใช้ทั่วไปสามารถหลีกเลี่ยงได้อย่างง่ายดาย ตัวอย่างเช่น ในงานหนึ่ง ไม่สามารถสมัครสมาชิกให้เสร็จสิ้นได้ เนื่องจากไม่มีการเลื่อนหน้าลงเพื่อค้นหาปุ่มที่เกี่ยวข้อง

นอกจากนี้ยังมีกรณีที่เกิดความยุ่งยากเมื่อทำงานที่ชัดเจน เช่น การเลือกและแทนที่ข้อความ หรือการเปลี่ยนสัญลักษณ์แสดงหัวข้อย่อยเป็นตัวเลข นอกจากนี้ บางครั้ง Claude ก็ไม่ตระหนักถึงความผิดพลาดของเขาหรือตั้งสมมติฐานที่ไม่ถูกต้องว่าทำไมเขาถึงไม่บรรลุเป้าหมาย

นักวิจัยชี้ให้เห็นว่าข้อบกพร่องของ Claude ในกลไกการประเมินตนเองอาจเป็นสาเหตุของข้อผิดพลาดเหล่านี้ และอาจจำเป็นต้องปรับปรุงเฟรมเวิร์กเอเจนต์ GUI ในอนาคตเพื่อเพิ่มโมดูลการประเมินตนเองที่เข้มงวดมากขึ้น ผลลัพธ์ยังแสดงให้เห็นว่าเอเจนต์ GUI ที่มีอยู่ไม่ได้จำลองความแตกต่างพื้นฐานของวิธีที่มนุษย์ใช้คอมพิวเตอร์อย่างสมบูรณ์

สำหรับธุรกิจ การใช้ข้อความธรรมดาเพื่ออธิบายงานอัตโนมัตินั้นน่าดึงดูดใจ แต่เทคโนโลยียังไม่พร้อมสำหรับการนำไปใช้ในวงกว้าง พฤติกรรมของโมเดลไม่แน่นอน ซึ่งอาจนำไปสู่ผลลัพธ์ที่คาดเดาไม่ได้ในแอปพลิเคชันที่มีความละเอียดอ่อน ในขณะเดียวกัน การดำเนินการผ่านอินเทอร์เฟซที่ออกแบบโดยมนุษย์ไม่ใช่วิธีที่เร็วที่สุดในการทำงานให้สำเร็จ

ก่อนที่จะมีการใช้งานอย่างแพร่หลาย องค์กรต่างๆ จำเป็นต้องคำนึงถึงความเสี่ยงด้านความปลอดภัยที่เกิดจากการมอบโมเดลภาษาขนาดใหญ่ (LLM) ให้กับเมาส์และคีย์บอร์ด ตัวอย่างเช่น การวิจัยแสดงให้เห็นว่าพร็อกซีเครือข่ายมีความเสี่ยงที่จะถูกโจมตีจากฝ่ายตรงข้ามซึ่งมนุษย์สามารถเพิกเฉยได้ง่าย อย่างไรก็ตาม เครื่องมืออย่าง Claude สามารถช่วยทีมผลิตภัณฑ์ในการสำรวจแนวคิดและทำซ้ำเกี่ยวกับโซลูชัน ประหยัดเวลาและเงินก่อนที่จะพัฒนาคุณลักษณะหรือบริการใหม่ๆ

ฟีเจอร์ "การใช้งานคอมพิวเตอร์" ของ Claude แสดงให้เห็นถึงศักยภาพมหาศาลสำหรับความก้าวหน้าในเทคโนโลยี AI แต่ยังเผยให้เห็นพื้นที่สำหรับการปรับปรุงในแง่ของความน่าเชื่อถือและความปลอดภัย ในอนาคต ขณะที่เทคโนโลยีพัฒนาและปรับปรุงอย่างต่อเนื่อง ฉันเชื่อว่าเครื่องมือ AI เช่น Claude จะให้บริการมนุษย์ได้ดีขึ้น ปรับปรุงประสิทธิภาพ และนำความเป็นไปได้มาให้มากขึ้น