ด้วยการพัฒนาอย่างรวดเร็วของเทคโนโลยี AI ภาษาจึงไม่ใช่อุปสรรคในการสื่อสารอีกต่อไป ความก้าวหน้าล่าสุดในเทคโนโลยีการตีความพร้อมกันของ AI ช่วยให้ทุกคนสามารถสื่อสารได้อย่างราบรื่นในสภาพแวดล้อมของภาษาที่แตกต่างกันโดยไม่ต้องกังวลกับความไม่สะดวกที่เกิดจากความแตกต่างทางภาษา เทคโนโลยีนี้ทำให้บุคคลธรรมดาทุกคนสามารถ "พกพา" ล่ามที่ทำงานพร้อมกันโดยเฉพาะเมื่อออกไปข้างนอกได้ตลอดเวลา เมื่อเทคโนโลยีเติบโตขึ้น สถานการณ์การใช้งานใดจะได้รับผลกระทบเป็นอันดับแรกและกลายเป็นส่วนหนึ่งของชีวิตประจำวันของเรา?
ในปัจจุบัน ผู้คนจำนวนมากไม่คุ้นเคยกับซอฟต์แวร์แปล AI อีกต่อไป ซอฟต์แวร์เหล่านี้ส่วนใหญ่อาศัยเทคโนโลยีการแปลข้อความ และค่อยๆ รวมฟังก์ชันการสังเคราะห์เสียงพูดของ AI เพื่อจำลองประสบการณ์การตีความไปพร้อมกัน ตัวอย่างเช่น ผลิตภัณฑ์เช่น iFlytek Simultaneous Interpretation, Youdao Translator และ Tencent Translator ล้วนเป็นตัวแทนของสาขานี้ หลักการทำงานของซอฟต์แวร์ประเภทนี้โดยทั่วไปคือการระบุเสียงของผู้พูดอย่างรวดเร็วและแปลงเป็นข้อความ จากนั้นแปลข้อความผ่านอัลกอริธึมการประมวลผลภาษาธรรมชาติที่ทรงพลัง และสุดท้ายจะแปลงแต่ละประโยคที่แปลเป็นคำพูดทีละคำแล้วเล่น เพื่อให้บรรลุผลของ "การแปลแบบเรียลไทม์"
อย่างไรก็ตาม กระบวนการต่อเนื่องนี้จะทำให้เกิดความล่าช้าในการแปลอย่างหลีกเลี่ยงไม่ได้ เพื่อลดความล่าช้า ซอฟต์แวร์การแปลจำนวนมากเลือกที่จะละทิ้งฟังก์ชันการเล่นเสียงและแสดงเฉพาะข้อความที่แปลแล้วเท่านั้น วิธีนี้สามารถแปลคำพูดแบบเรียลไทม์และอัปเดตอย่างต่อเนื่องในรูปแบบของ "คำบรรยาย" แม้ว่าผลลัพธ์การแปลจะถูกปรับเปลี่ยนและรีสตาร์ทบ่อยครั้งเนื่องจากอินพุตเปลี่ยนแปลงไป ประสบการณ์การอ่านของผู้ใช้จะไม่ได้รับผลกระทบ การยกเลิกการเล่นเสียงจะทำให้เนื้อหาการแปลที่อัปเดตสามารถนำเสนอต่อผู้ใช้ได้รวดเร็วและต่อเนื่องยิ่งขึ้น ซึ่งจะช่วยปรับปรุงประสบการณ์ผู้ใช้โดยรวม
โมเดลการตีความพร้อมกันของ AI ใช้หลักการที่แตกต่างไปจากเดิมอย่างสิ้นเชิง
ด้วยความก้าวหน้าอย่างมากของโมเดล AI ในช่วงไม่กี่ปีที่ผ่านมา โมเดลการตีความพร้อมกันซึ่งมีเวลาแฝงที่ต่ำมากและการแปลคำพูดเป็นคำพูดโดยตรงจะเริ่มปรากฏในปี 2567 วัตถุประสงค์ของโมเดลประเภทนี้คือการแปลคำพูดเป็นคำพูดในภาษาเป้าหมายโดยตรงหรือโดยอ้อม ในจำนวนนั้น มีโมเดล 3 รุ่นที่มีประสิทธิภาพโดดเด่นดึงดูดความสนใจเป็นพิเศษ และเป็นโซลูชันที่ใกล้เคียงกับการตีความพร้อมกันในชีวิตจริงมากที่สุด ได้แก่ การสตรีมแบบไร้รอยต่อของ Meta (เดิมชื่อ Facebook), StreamSpeech โดยสถาบันเทคโนโลยีคอมพิวเตอร์, Chinese Academy of Sciences และ Zhifu's รุ่นการตีความพร้อมกัน v3 โมเดลประเภทนี้แตกต่างจากซอฟต์แวร์แปล AI แบบเดิม โดยจะพยายามเลียนแบบพฤติกรรมการแปลของมนุษย์ โดยจะไม่แปลคำพูดของผู้พูดทันที แต่จะ "ฟัง" พร้อมตัดสินว่าเนื้อหาคำพูดปัจจุบันเหมาะสมและครบถ้วนหรือไม่ การแปล คุณต้องการฟังเพิ่มเติมเพื่อแปลหรือไม่
Meta มีอิทธิพลอย่างมากในด้าน AI โดยเฉพาะอย่างยิ่งในการมีส่วนร่วมของโอเพ่นซอร์สและการวิจัยเทคโนโลยีที่ล้ำสมัย แผนกวิจัย AI ของบริษัท Meta AI ได้สร้างความก้าวหน้าครั้งสำคัญในสาขาปัญญาประดิษฐ์หลายสาขา LLaMA (Large Language Model) ซึ่งเป็นโมเดลโอเพ่นซอร์ส ถูกนำมาใช้กันอย่างแพร่หลายในชุมชนการวิจัย AI และเฟรมเวิร์กโอเพ่นซอร์ส PyTorch ได้กลายเป็น การวิจัย AI ระดับโลกและเครื่องมือหลักในแอปพลิเคชัน โมเดลการตีความพร้อมกันของ Seamless-Streaming ยังเป็นโอเพ่นซอร์สในครั้งนี้ด้วย ช่วยให้ทุกคนสามารถเข้าถึงหลักการหลักของตนได้ ตามรายงานที่เกี่ยวข้องที่เผยแพร่โดย Seamless-Streaming เลือกใช้กลยุทธ์ "EMMA" เพื่อพิจารณาว่านักแปลควรแปลทันทีหรือไม่ เนื้อหาที่ได้ยินยังคงรอข้อมูลเพิ่มเติม ในการทดสอบการใช้งาน โมเดล Seamless-Streaming สามารถแปลได้อย่างแม่นยำโดยใช้เวลาล่าช้าประมาณ 3 วินาที พูดง่ายๆ ก็คือ เนื้อหาที่แปลจะช้ากว่าคำพูดต้นฉบับประมาณ 3 วินาที เมื่อเปรียบเทียบกับความล่าช้า 15 วินาทีของซอฟต์แวร์การแปล AI แบบดั้งเดิม "การตีความพร้อมกัน" ซอฟต์แวร์ดังกล่าวได้รับการเพิ่มประสิทธิภาพที่ก้าวล้ำและถึงระดับความล่าช้าในการตีความพร้อมกันของคนจริงอย่างแท้จริง อย่างไรก็ตาม น่าเสียดายที่ความแม่นยำยังไม่เพียงพอเมื่อเทียบกับ AI แบบดั้งเดิม การแปล โดยเฉพาะการทดสอบแปลภาษาที่ซับซ้อน เช่น ภาษาจีน มีปัญหาเช่น ความเข้าใจผิด และการไม่สามารถเข้าใจ "ซับเท็กซ์" ได้
ในฐานะสถาบันการศึกษาที่สูงที่สุดและศูนย์การวิจัยทางวิทยาศาสตร์ที่ครอบคลุมในประเทศจีน Chinese Academy of Sciences ยังได้เปิดการวิจัยเกี่ยวกับโมเดล StreamSpeech อีกด้วย ตามรายงานที่ตีพิมพ์ StreamSpeech ใช้วิธีการตรวจสอบ "การจัดตำแหน่ง" เป็นหลักเพื่อตรวจสอบว่านักแปลกำลังรออยู่หรือไม่ สิ่งที่น่าตกใจคือความล่าช้าในการแปลของโมเดลการแปลนี้ถึง 0.3 วินาทีอย่างน่าประหลาดใจ เป็นที่น่าสังเกตว่านี่เทียบเท่ากับเวลาตอบสนองโดยเฉลี่ยของมนุษย์ด้วยซ้ำ ความเร็วในการแปลนี้เกินกว่าระดับที่คนจริงๆ สามารถบรรลุได้ สำหรับล่ามจริง เวลาตั้งแต่ผู้พูดพูดไปจนถึงการได้ยินและทำความเข้าใจในสมองนั้นมากกว่า 0.3 วินาที น่าเสียดายที่ในส่วนโอเพ่นซอร์สปัจจุบันของโมเดล โมเดลรองรับเฉพาะการแปลภาษาอังกฤษ-ฝรั่งเศส ภาษาอังกฤษ-สเปน และภาษาอังกฤษ-เยอรมัน และขณะนี้ยังไม่รองรับภาษาจีน และในการทดสอบโมเดลเวลาแฝงต่ำ ความราบรื่นของการแปลค่อนข้างไม่น่าพอใจ และเนื้อหาที่แปลก็เหมือนกับ "การแปลด้วยเครื่องคำต่อคำ" มากกว่าการแปลความหมายของประโยคที่ราบรื่น ปัญหานี้เกิดขึ้นมากขึ้นเนื่องจากความล่าช้าต่ำเกินไป ทำให้เครื่องแปลถูก "บังคับ" ให้แปลประโยคที่ยังเขียนไม่เสร็จบางส่วน
Cicada Future แตกต่างจาก Meta และ Chinese Academy of Sciences โดยเป็นทีมวิจัยและพัฒนาขนาดเล็กของจีนที่ตั้งอยู่ในลอนดอน ขณะนี้ทีมงานอยู่ระหว่างการจัดหาเงินทุนและยังไม่ได้เปิดแหล่งที่มาของแบบจำลอง ข้อมูลสาธารณะเกี่ยวกับแบบจำลองนี้มีเพียงหน้าต่างประสบการณ์การทดสอบและบทคัดย่อกระดาษเท่านั้น ตามบทคัดย่อของรายงานสาธารณะ เมื่อเปรียบเทียบกับสองรุ่นก่อนหน้านี้ นวัตกรรมของโมเดลการตีความพร้อมกัน v3 ของ Zhifu คือการมอบฟังก์ชัน "ว่าจะรอข้อมูลเพิ่มเติมหรือไม่" ให้กับโมเดลการแปลโดยตรง ขณะนี้กำลังทดสอบโมเดล 2 รุ่นภายใน โดยโมเดลขนาดเล็กมีเป้าหมายหลักคือเวลาแฝงต่ำ จากการทดสอบภายใน พบว่าความล่าช้าในการแปลโดยเฉลี่ยอยู่ที่ 1-3 วินาที เมื่อผู้พูดพูดได้ชัดเจน ความแม่นยำในการแปลจะเกินกว่าสองโมเดลข้างต้นมาก . แบบจำลองขนาดใหญ่มีความแม่นยำสูง ความล่าช้าในการแปลโดยเฉลี่ยคือ 2-5 วินาที ความแม่นยำและความคล่องในการแปลเข้าถึงหรือเกินระดับของคนจริงๆ มันยังรองรับการแปลสำนวนผสมจีนและอังกฤษที่แม่นยำ ภาษาถิ่นและมส์ยอดนิยม สิ่งที่น่าสังเกตคือจำนวนสถานที่สำหรับการทดสอบภายในของรุ่นนี้มีจำนวนจำกัด และการทดสอบดังกล่าวได้รับความนิยมมากจนมักต้องมีคิวใช้งาน ฟังก์ชั่นการแปลหน้าเว็บยังห่างไกลจากการเป็นเชิงพาณิชย์ ผลิตภัณฑ์ และในปัจจุบันเป็นเหมือนหน้าเว็บ "การแสดงโมเดล" มากกว่า
โดยสรุป ความก้าวหน้าทางเทคโนโลยีของการตีความพร้อมกันของ AI ได้นำความเป็นไปได้ที่เป็นไปได้มาสู่ความเป็นจริงมากขึ้น เราอยู่ห่างไกลจากฉากในภาพยนตร์เรื่อง "The Wandering Earth" ที่ "คนสองคนที่พูดภาษาต่างกันสามารถสื่อสารได้ตามปกติหลังจากสวม หูฟัง" มันเข้ามาอย่างรวดเร็วจนมองเห็นได้ด้วยตาเปล่า ในปัจจุบัน ซอฟต์แวร์อย่าง Zhifu Simultaneous Interpretation ซึ่งใกล้เคียงกับสถานการณ์นี้มากที่สุด ยังไม่ได้เริ่มเปิดตัวผลิตภัณฑ์ใด ๆ เลย ในสถานการณ์ใดที่จะถูกใช้งานก่อน ใครจะเป็นผู้ใช้ชุดแรก ตลาด. คำถาม.
ก่อนที่จะคิดถึงปัญหานี้ ลองย้อนกลับไปที่ฟังก์ชันหลักที่การตีความพร้อมกันจะใช้: การใช้เสียงของผู้พูดเป็นอินพุตแบบเรียลไทม์ และการจำลองเสียงที่แปลเพื่อจำลองน้ำเสียงของผู้พูดเป็นเอาต์พุตแบบเรียลไทม์ ด้วยฟังก์ชันนี้ เราจึงคิดถึงตัวอย่างดีๆ ที่จะแบ่งปันกับคุณที่นี่ โดยหวังว่าจะสร้างแรงบันดาลใจให้กับทุกคน:
1. ประกาศของพนักงานต้อนรับบนเครื่องบิน
ในเที่ยวบินระหว่างประเทศ พนักงานต้อนรับบนเครื่องบินมักจะต้องพูดสองภาษาหรือหลายภาษาด้วยซ้ำ นอกจากการให้บริการผู้โดยสารที่ดีขึ้นแล้ว สิ่งที่สำคัญกว่าคือการถ่ายทอดการเดินทางและข้อมูลอื่น ๆ ในระหว่างเที่ยวบิน เช่น "คำแนะนำในการเข้า ข้อมูลการเปลี่ยนเที่ยวบิน" และเนื้อหาอื่น ๆ ที่ผู้โดยสารจากประเทศต่างๆ จำเป็นต้องเข้าใจ ดังนั้น พวกเขาจึงต้อง เพื่อพูดภาษาต่าง ๆ ในเวลาเดียวกัน การพูดได้หลายภาษาถือเป็นความท้าทายที่ยิ่งใหญ่สำหรับพนักงานต้อนรับบนเครื่องบิน และการแสดงออกทางวาจาที่ไม่ชัดเจนจะสร้างปัญหาให้กับผู้โดยสาร การตีความพร้อมกันของ AI อาจช่วยได้ในเวลานี้ เพียงต้องการให้พนักงานต้อนรับบนเครื่องบินสามารถพูดภาษาได้ และ AI มีหน้าที่ในการถ่ายทอดเนื้อหาไปยังหูของผู้โดยสารด้วยน้ำเสียงเดียวกัน เพื่อให้ผู้โดยสารจากทุกคน ทั่วโลกสามารถฟังได้บนเครื่องบิน ฟังอย่างชัดเจนและทำให้การเดินทางของคุณปลอดภัยยิ่งขึ้น
2. การศึกษาออนไลน์
ในขณะที่โลกาภิวัตน์ของการศึกษาออนไลน์เร่งตัวขึ้น แพลตฟอร์มและสถาบันการศึกษาต่างๆ ก็หวังว่าจะดึงดูดนักศึกษาจากทั่วทุกมุมโลกเพิ่มมากขึ้นเรื่อยๆ อย่างไรก็ตาม ความแตกต่างทางภาษามักกลายเป็นอุปสรรคสำหรับนักเรียนในการได้รับทรัพยากรทางการศึกษาคุณภาพสูง โดยเฉพาะนักเรียนที่ภาษาแม่เป็นภาษาชนกลุ่มน้อย เมื่อเรียนหลักสูตรภาษาที่ไม่ใช่เจ้าของภาษาไม่เพียงแต่เข้าใจยากเท่านั้น แต่ยังส่งผลต่อความสามารถในการเรียนรู้ในวิชาหลัก เช่น คณิตศาสตร์ และฟิสิกส์ ส่งผลให้นักเรียนที่มีความสามารถจำนวนมากถูกฝัง . เทคโนโลยีการตีความพร้อมกันของ AI สามารถทำลายอุปสรรคนี้และให้บริการการแปลแบบเรียลไทม์สำหรับอาจารย์ ดังนั้นไม่ว่าอาจารย์จะใช้ภาษาใดในการสอน นักเรียนสามารถรับเนื้อหาที่แปลได้พร้อม ๆ กัน เพื่อที่พวกเขาจะไม่ถูกจำกัดด้วยภาษาใน สภาพแวดล้อมทางการศึกษาโลกาภิวัตน์
เทคโนโลยีการตีความพร้อมกันของ AI สามารถให้บริการการแปลแบบเรียลไทม์และแม่นยำสำหรับโอกาสเหล่านี้ หลีกเลี่ยงความล่าช้าและความเข้าใจผิดในการส่งข้อมูล จึงส่งเสริมการสื่อสารและความร่วมมือระหว่างประเทศที่มีประสิทธิภาพมากขึ้น นอกจากนั้น ยังมีสถานการณ์การใช้งานอื่นๆ ที่เป็นไปได้อีกในอนาคตหรือไม่ บางทีจุดก้าวหน้าต่อไปอาจซ่อนอยู่ในรายละเอียดในชีวิตประจำวันของเรา ในขณะที่เทคโนโลยีมีการปรับปรุงอย่างต่อเนื่อง การตีความพร้อมกันของ AI จะค่อยๆ เข้าสู่สถานการณ์การใช้งานรายวันมากขึ้น และกลายเป็นส่วนที่ขาดไม่ได้ของการสื่อสารระดับโลกในอนาคต