ในที่สุด OpenAI ก็ได้เปิดตัวฟีเจอร์วิดีโอแบบเรียลไทม์ ChatGPT ที่ได้แสดงให้เห็นเมื่อเกือบเจ็ดเดือนที่แล้ว

ผู้เขียน：Eve Cole เวลาอัปเดต：2024-12-20 19:32:02

OpenAI ประกาศว่าโหมดเสียงขั้นสูงของ ChatGPT ได้รับการแสดงภาพแล้ว ผู้ใช้ที่สมัครเป็นสมาชิก Plus, Team หรือ Pro สามารถโต้ตอบกับ ChatGPT แบบเรียลไทม์ผ่านกล้องโทรศัพท์มือถือของตน และมีความสามารถในการแชร์หน้าจอ ฟีเจอร์นี้มีความล่าช้ามาหลายครั้งแล้ว และในที่สุดก็เปิดตัวอย่างเป็นทางการหลังจากการทดสอบมาเป็นเวลานาน อย่างไรก็ตาม ผู้ใช้บางรายอาจไม่สามารถใช้งานได้ทันทีในบางภูมิภาคและบางประเภทอาจต้องรอจนถึงเดือนมกราคมปีหน้าหรือนานกว่านั้นด้วยซ้ำ

OpenAI ประกาศเมื่อวันพฤหัสบดีว่าฟีเจอร์การสนทนาเหมือนมนุษย์ "โหมดคำพูดขั้นสูง" ที่พัฒนาขึ้นสำหรับ ChatGPT ได้รับการมองเห็นแล้ว ผู้ใช้ที่สมัครใช้งาน ChatGPT Plus, Team หรือ Pro สามารถเล็งกล้องโทรศัพท์ไปที่วัตถุได้ และ ChatGPT จะตอบสนองแบบเกือบจะเรียลไทม์

โหมดเสียงขั้นสูงพร้อมการมองเห็นยังมีความสามารถในการแชร์หน้าจอที่วิเคราะห์เนื้อหาบนหน้าจออุปกรณ์ เช่น สามารถอธิบายเมนูการตั้งค่าต่างๆ และให้คำแนะนำปัญหาทางคณิตศาสตร์ได้

วิธีการใช้งานนั้นง่ายมาก: คลิกไอคอนเสียงถัดจากแถบแชท ChatGPT จากนั้นคลิกไอคอนวิดีโอที่มุมซ้ายล่างเพื่อเริ่มวิดีโอ หากคุณต้องการแชร์หน้าจอ คุณสามารถคลิกที่เมนูสามจุดแล้วเลือก "แชร์หน้าจอ"

เกี่ยวกับการเปิดตัวฟีเจอร์ OpenAI กล่าวว่าโหมดคำพูดขั้นสูงพร้อมการมองเห็นจะเปิดตัวตั้งแต่วันพฤหัสบดีนี้และสิ้นสุดในสัปดาห์หน้า สิ่งสำคัญคือต้องทราบว่าสิ่งนี้อาจไม่สามารถใช้ได้กับผู้ใช้ทุกคนในทันที ผู้ใช้ ChatGPT Enterprise และ Edu จะต้องรอจนถึงเดือนมกราคมปีหน้า ในขณะที่ผู้ใช้ในสหภาพยุโรป สวิตเซอร์แลนด์ ไอซ์แลนด์ นอร์เวย์ และลิกเตนสไตน์ ยังไม่ได้ประกาศตารางเวลาที่เฉพาะเจาะจง

ในระหว่างการปรากฏตัวในรายการ "60 Minutes" ของ CNN ล่าสุด Greg Brockman ประธาน OpenAI ได้สาธิตความสามารถในการวิเคราะห์ภาพขั้นสูงสำหรับรูปแบบคำพูดให้กับ Anderson Cooper เมื่อ Cooper วาดส่วนต่างๆ ของร่างกายมนุษย์บนกระดานดำ ChatGPT ก็สามารถเข้าใจและแสดงความคิดเห็นเกี่ยวกับภาพวาดของเขาได้ ตัวอย่างเช่น ระบุว่าสมองอยู่ในตำแหน่งที่ถูกต้องและบ่งบอกว่ารูปร่างของสมองอยู่ใกล้กับวงรีมากขึ้น

อย่างไรก็ตาม ในระหว่างการสาธิต โหมดคำพูดขั้นสูงนี้ยังเผยให้เห็นความไม่ถูกต้องบางประการเกี่ยวกับปัญหาทางเรขาคณิต ซึ่งแสดงถึงความเสี่ยงที่อาจเกิด "ภาพหลอน"

เป็นที่น่าสังเกตว่าโหมดเสียงขั้นสูงพร้อมคุณสมบัติด้านภาพนี้มีความล่าช้าหลายครั้ง ในเดือนเมษายน OpenAI สัญญาว่าจะเปิดตัว "ภายในไม่กี่สัปดาห์" แต่ต่อมาบอกว่าจะต้องใช้เวลามากกว่านี้ ฟีเจอร์นี้ยังไม่พร้อมใช้งานสำหรับผู้ใช้ ChatGPT บางรายจนกระทั่งต้นฤดูใบไม้ร่วงนี้ และฟังก์ชันการวิเคราะห์ภาพยังไม่พร้อมใช้งานในขณะนั้น

ท่ามกลางการแข่งขันที่เพิ่มขึ้นในด้านปัญญาประดิษฐ์ คู่แข่งอย่าง Google และ Meta ก็กำลังพัฒนาความสามารถที่คล้ายกันเช่นกัน สัปดาห์นี้ Google ได้เปิดโครงการปัญญาประดิษฐ์การสนทนาการวิเคราะห์วิดีโอแบบเรียลไทม์ Project Astra ให้กับผู้ทดสอบ Android บางคน

นอกจากฟีเจอร์ด้านภาพแล้ว OpenAI ยังได้เปิดตัว "โหมดซานต้า" สำหรับเทศกาลในวันพฤหัสบดี โดยให้ผู้ใช้สามารถเปิดใช้งานเสียงซานต้าผ่านไอคอนเกล็ดหิมะที่อยู่ถัดจากแถบการแจ้งเตือนในแอป ChatGPT

การอัปเดตภาพโหมดเสียงขั้นสูงของ ChatGPT นี้ถือเป็นการปรับปรุงความสามารถของ AI ในการโต้ตอบกับโลกแห่งความเป็นจริง แต่ยังเผยให้เห็นถึงความท้าทายและข้อจำกัดในการพัฒนาเทคโนโลยีอีกด้วย ในอนาคต ความก้าวหน้าของเทคโนโลยี AI จะยังคงส่งผลต่อไลฟ์สไตล์ของเราต่อไป