OpenAI กำลังจะเปิดตัวโหมดเสียงเวอร์ชันอัลฟ่าที่ทุกคนตั้งตารอคอยสำหรับสมาชิก ChatGPT Plus ฟีเจอร์นี้อิงจากรุ่นเรือธง GPT-4o และปรับปรุงประสบการณ์การโต้ตอบด้วยเสียงอย่างมาก โมเดล GPT-4o สามารถประมวลผลอินพุตเสียงด้วยความเร็วใกล้เคียงกับปฏิกิริยาของมนุษย์ และผสมผสานการฝึกอบรมแบบครบวงจรใน 3 รูปแบบ ได้แก่ ข้อความ การมองเห็น และเสียง ซึ่งแสดงให้เห็นถึงความก้าวหน้าล่าสุดของ OpenAI ในด้าน AI แบบหลายโมดัล ก่อนหน้านี้ การเปิดตัวฟีเจอร์นี้ล่าช้าเนื่องจากจำเป็นต้องปรับปรุงการกลั่นกรองเนื้อหาโมเดลและการสร้างโครงสร้างพื้นฐาน การอัปเดตนี้ไม่เพียงแต่แก้ปัญหาความล่าช้ามากเกินไปในโหมดเสียง ChatGPT ที่มีอยู่เท่านั้น แต่ยังช่วยให้ผู้ใช้ได้รับประสบการณ์การสนทนาด้วยเสียงที่ราบรื่นและเป็นธรรมชาติมากขึ้นอีกด้วย
เมื่อรุ่นเรือธงของ OpenAI GPT-4o (o ย่อมาจาก omni) เปิดตัวในเดือนพฤษภาคม ความสามารถในการเข้าใจเสียงของ OpenAI ก็ได้รับความสนใจเป็นอย่างมาก รุ่น GPT-4o สามารถตอบสนองต่ออินพุตเสียงได้โดยเฉลี่ย 320 มิลลิวินาที ซึ่งใกล้เคียงกับเวลาตอบสนองของมนุษย์ในการสนทนาทั่วไป
OpenAI ยังได้ประกาศด้วยว่าฟีเจอร์โหมดเสียงของ ChatGPT จะใช้ประโยชน์จากความสามารถด้านเสียงของรุ่น GPT-4o เพื่อให้ผู้ใช้ได้รับประสบการณ์การสนทนาด้วยเสียงที่ราบรื่น เกี่ยวกับความสามารถในการพูดของ GPT-4o ทีม OpenAI เขียนว่า:
ด้วย GPT-4o เราได้ฝึกฝนโมเดลใหม่ล่าสุดที่ฝึกฝน 3 รูปแบบ ได้แก่ ข้อความ การมองเห็น และเสียงตั้งแต่ต้นทางถึงปลายทาง กล่าวคือ อินพุตและผลรวมทั้งหมดได้รับการประมวลผลโดยโครงข่ายประสาทเทียมเดียวกัน เนื่องจาก GPT-4o เป็นโมเดลแรกของเราที่รวมรูปแบบต่างๆ เหล่านี้ เราจึงยังคงตรวจสอบศักยภาพและข้อจำกัดของโมเดลเพียงผิวเผินเท่านั้น
ในเดือนมิถุนายน OpenAI ได้ประกาศแผนการที่จะเปิดตัวโหมดศัพท์แสงขั้นสูงในอัลฟ่าให้กับผู้ใช้ ChatGPT Plus กลุ่มเล็กๆ ในภายหลัง แต่แผนล่าช้าไปหนึ่งเดือนเนื่องจากจำเป็นต้องปรับปรุงความสามารถของโมเดลในการตรวจจับและปฏิเสธเนื้อหาบางอย่าง . นอกจากนี้ OpenAI กำลังเตรียมโครงสร้างพื้นฐานเพื่อปรับขนาดให้รองรับผู้ใช้หลายล้านคนในขณะที่ยังคงการตอบสนองแบบเรียลไทม์
ตอนนี้ Sam Altman CEO ของ OpenAI ยืนยันผ่าน X ว่าโหมดเสียงเวอร์ชันอัลฟ่าจะเปิดตัวให้กับสมาชิก ChatGPT Plus ในสัปดาห์หน้า
โหมดเสียง ChatGPT ปัจจุบันไม่สามารถใช้งานได้ง่าย เนื่องจากความล่าช้าโดยเฉลี่ย 2.8 วินาที (GPT3.5) และ 5.4 วินาที (GPT-4) โหมดเสียงขั้นสูงที่กำลังจะมีขึ้นซึ่งใช้ GPT-4o จะช่วยให้สมาชิก ChatGPT สามารถสนทนาได้อย่างราบรื่นโดยไม่ล่าช้า
นอกจากนี้ OpenAI ในวันนี้ยังได้เปิดตัว SearchGPT ที่หลายคนตั้งตารอ ซึ่งเป็นความพยายามครั้งใหม่ของพวกเขาในการค้นหาเว็บ ปัจจุบัน SearchGPT เป็นต้นแบบ โดยให้ความสามารถในการค้นหาด้วยปัญญาประดิษฐ์ที่สามารถให้คำตอบที่แม่นยำจากแหล่งที่มาที่ชัดเจนและเกี่ยวข้องได้อย่างรวดเร็ว คุณสามารถเรียนรู้เพิ่มเติมได้ที่นี่
โดยรวมแล้ว ชุดการอัปเดตของ OpenAI แสดงให้เห็นถึงความสามารถในการสร้างสรรค์นวัตกรรมอย่างต่อเนื่องในด้านปัญญาประดิษฐ์ โดยเฉพาะอย่างยิ่ง การประยุกต์ใช้โมเดล GPT-4o จะช่วยปรับปรุงประสบการณ์ผู้ใช้อย่างมาก และการเปิดตัว SearchGPT ถือเป็นการประกาศทิศทางใหม่สำหรับ การพัฒนาเครื่องมือค้นหาในอนาคต เราหวังว่าจะได้เห็นนวัตกรรมทางเทคโนโลยีที่น่าประหลาดใจมากขึ้นที่ OpenAI นำเสนอในอนาคต