บทสนทนาระหว่างมนุษย์กับเครื่องจักรที่ราบรื่นถือเป็นเป้าหมายสำคัญในด้านปัญญาประดิษฐ์ อย่างไรก็ตาม AI มักจะมีปัญหาในการตัดสิน "จบรอบ" ส่งผลให้ประสบการณ์การสนทนาไม่ดี ผู้ใช้มักพบกับการหยุดชะงักของ AI หรือความล่าช้าในการตอบสนอง ซึ่งส่งผลกระทบร้ายแรงต่อประสิทธิภาพและความเป็นธรรมชาติของการโต้ตอบระหว่างมนุษย์กับคอมพิวเตอร์ วิธีการตรวจจับกิจกรรมเสียง (VAD) แบบเดิมนั้นง่ายเกินไป ได้รับผลกระทบจากเสียงรบกวนรอบข้างและการหยุดชั่วคราวของผู้ใช้ได้ง่าย และไม่สามารถระบุจุดสิ้นสุดของการสนทนาได้อย่างแม่นยำ
ในโลกของบทสนทนาระหว่างมนุษย์กับเครื่องจักร สิ่งที่ลำบากที่สุดคือ "คุณพูดจบแล้วหรือยัง" ประโยคนี้อาจดูเรียบง่าย แต่กลายเป็นอุปสรรคที่ผู้ช่วยด้านเสียงและหุ่นยนต์บริการลูกค้าจำนวนนับไม่ถ้วนไม่สามารถเอาชนะได้ คุณมักจะเจอสถานการณ์เช่นนี้: คุณหยุดคิดสักครู่ว่าจะพูดอะไรต่อไป แล้ว AI ก็แทบรอไม่ไหวที่จะตอบ หรือคุณพูดจบอย่างชัดเจน แต่ AI ยังคงรออยู่ อย่างโง่เขลา จนกระทั่งคุณอดไม่ได้ที่จะพูดว่า "เสร็จแล้ว" และมันไม่ตอบสนองเลย ประสบการณ์นี้มันบ้าไปแล้ว
ไม่ใช่เพราะว่า AI จงใจสร้างปัญหาแต่เพราะเมื่อตัดสิน "จุดจบ" (EOT) พวกเขาเป็นเหมือน "คนตาบอด" ที่ได้ยินเพียงว่ามีเสียงหรือไม่แต่ไม่สามารถเข้าใจได้ ไม่ว่าคุณจะมีเสียงหรือไม่ก็ตาม วิธีการแบบเดิมอาศัยการตรวจจับกิจกรรมด้วยเสียง (VAD) เป็นหลัก ซึ่งเหมือนกับ "สวิตช์สั่งงานด้วยเสียง" โดยจะสนใจเฉพาะว่ามีสัญญาณเสียงหรือไม่ ตราบใดที่ไม่มีเสียง ก็จะถูกตัดสินว่าเป็นคุณ พูดเสร็จแล้ว จะสับสนกับการหยุดชั่วคราวและเสียงพื้นหลังได้ไหม?
อย่างไรก็ตาม ล่าสุดบริษัทชื่อ Livekit ไม่สามารถยืนหยัดได้อีกต่อไป และตัดสินใจติดตั้ง "สมอง" ที่ชาญฉลาดยิ่งขึ้นบน AI พวกเขาได้พัฒนาโมเดลการตรวจจับการเปลี่ยนเสียงพูดที่แม่นยำแบบโอเพ่นซอร์ส โมเดลนี้เปรียบเสมือนผู้เชี่ยวชาญ "การอ่านใจ" อย่างแท้จริง และสามารถระบุได้อย่างแม่นยำว่าคุณพูดจบแล้วหรือไม่ นี่ไม่ใช่ "สวิตช์สั่งงานด้วยเสียง" ธรรมดา แต่เป็น "ผู้ช่วยอัจฉริยะ" ที่สามารถเข้าใจจุดประสงค์ของคำพูดของคุณได้!
สิ่งที่ยอดเยี่ยมเกี่ยวกับโมเดลของ Livekit คือไม่เพียงแต่พึ่งพา "ว่ามีเสียงหรือไม่" แต่ยังรวมเอาโมเดล Transformer เข้ากับ Voice Activity Detection (VAD) แบบดั้งเดิม นี่ก็เหมือนกับการเตรียม AI ด้วย "สุดยอดสมอง" และ "หู" "หูซุ่นเฟิง" มีหน้าที่ตรวจสอบว่ามีเสียงหรือไม่ ในขณะที่ "ซูเปอร์สมอง" มีหน้าที่วิเคราะห์ความหมายของเสียงเหล่านี้เพื่อทำความเข้าใจว่าคำพูดของคุณสมบูรณ์หรือไม่และมีความหมายที่ยังไม่เสร็จหรือไม่ การผสมผสานอันทรงพลังของทั้งสองสิ่งนี้สามารถบรรลุ "การตรวจจับเมื่อสิ้นสุดรอบ" ที่แม่นยำได้อย่างแท้จริง
โมเดลนี้ทำอะไรได้บ้าง โดยช่วยให้พันธมิตรด้าน AI เช่น ผู้ช่วยด้านเสียงและหุ่นยนต์บริการลูกค้า ระบุได้แม่นยำยิ่งขึ้นว่าคุณพูดจบแล้วก่อนที่จะเริ่มโต้ตอบคุณหรือไม่ ซึ่งจะช่วยปรับปรุงความราบรื่นและความเป็นธรรมชาติของบทสนทนาระหว่างมนุษย์กับเครื่องจักรได้อย่างมาก เมื่อแชทกับ AI ในอนาคต คุณไม่ต้องกังวลว่าจะถูก "ขโมย" หรือ "แกล้งทำเป็นหูหนวก" อีกต่อไป!
เพื่อพิสูจน์ความแข็งแกร่ง Livekit ยังแสดงผลการทดสอบ: โมเดลใหม่สามารถลด "การหยุดชะงักที่ผิดพลาด" ของ AI ได้ถึง 85% ซึ่งหมายความว่า AI จะเป็นธรรมชาติมากขึ้นและมีแนวโน้มที่จะตัดสินผิดน้อยลง และการสนทนาของมนุษย์ทางโทรศัพท์ก็กลายเป็น นุ่มนวลและน่าพึงพอใจยิ่งขึ้น ลองคิดดูว่า เมื่อคุณโทรติดต่อฝ่ายบริการลูกค้าในอนาคต คุณจะไม่เสียใจกับการตอบกลับทางกลไกของ AI อีกต่อไป แต่สามารถสบายใจได้เหมือนกับการพูดคุยกับคนจริงๆ ประสบการณ์นี้ช่างน่าทึ่งมาก!
นอกจากนี้ โมเดลนี้ยังเหมาะเป็นพิเศษสำหรับสถานการณ์ที่ต้องใช้บทสนทนาระหว่างมนุษย์กับเครื่องจักร เช่น การบริการลูกค้าด้วยเสียง หุ่นยนต์ถามและตอบอัจฉริยะ เป็นต้น Livekit ยังแสดงวิดีโอสาธิตอย่างรอบคอบ หลังจากได้รับคำถามจากผู้ใช้แล้ว ตัวแทน AI ในวิดีโอจะอดทนรอให้ผู้ใช้กรอกข้อมูลทั้งหมดให้เสร็จก่อนที่จะให้คำตอบที่เกี่ยวข้อง นี่เป็นเหมือน "คนสนิทสนม" ที่เข้าใจความต้องการของคุณอย่างแท้จริง เขาจะไม่ "ตัดบท" ก่อนที่คุณจะพูดจบ และเขาจะไม่ "ตกตะลึง" เมื่อคุณพูดจบ
แน่นอนว่าโมเดลนี้ยังอยู่ในช่วงโอเพ่นซอร์สและยังมีพื้นที่ให้ปรับปรุงอีกมาก แต่เรามีเหตุผลที่เชื่อได้ว่าด้วยการพัฒนาเทคโนโลยีอย่างต่อเนื่อง การสนทนาระหว่างมนุษย์กับเครื่องจักรในอนาคตจะเป็นธรรมชาติ ราบรื่น และชาญฉลาดมากขึ้น บางทีวันหนึ่งเราอาจจะลืมไปจริงๆว่าสิ่งที่เรากำลังพูดถึงนั้นเป็นเครื่องเย็น แต่เป็น "พันธมิตร AI" ที่เข้าใจคุณจริงๆ
ที่อยู่โครงการ: https://github.com/livekit/agents/tree/main/livekit-plugins/livekit-plugins-turn-detector
โมเดลโอเพ่นซอร์สของ Livekit มอบแนวคิดใหม่ในการแก้ปัญหา "จุดสิ้นสุดของเทิร์น" ในบทสนทนาระหว่างมนุษย์กับคอมพิวเตอร์ ซึ่งถือเป็นก้าวสำคัญสู่ประสบการณ์ปฏิสัมพันธ์ระหว่างมนุษย์กับคอมพิวเตอร์ที่เป็นธรรมชาติและราบรื่นยิ่งขึ้น เราหวังว่าจะได้รับการปรับปรุงและการใช้งานโมเดลนี้ต่อไปในอนาคต เพื่อให้ผู้ใช้ได้รับประสบการณ์การสนทนาระหว่างมนุษย์กับเครื่องจักรที่สะดวกและชาญฉลาดยิ่งขึ้น