مع التطور السريع لتكنولوجيا الذكاء الاصطناعي، لم تعد اللغة عائقًا أمام التواصل. يتيح أحدث التقدم في تقنية الترجمة الفورية المدعومة بالذكاء الاصطناعي للجميع التواصل بسلاسة في بيئات لغوية مختلفة دون القلق بشأن الإزعاج الناجم عن الاختلافات اللغوية. تتيح هذه التكنولوجيا لكل شخص عادي أن "يحمل" مترجمًا فوريًا مخصصًا عند الخروج في أي وقت. لذا، مع نضوج التكنولوجيا، ما هي سيناريوهات التطبيق التي ستتأثر أولاً وتصبح جزءًا من حياتنا اليومية؟
في الوقت الحاضر، لم يعد العديد من الأشخاص على دراية ببرامج الترجمة المدعومة بالذكاء الاصطناعي. تعتمد معظم هذه البرامج على تقنية ترجمة النصوص وتدمج وظائف تركيب الكلام المدعومة بالذكاء الاصطناعي تدريجيًا لمحاكاة تجربة الترجمة الفورية. على سبيل المثال، تعد منتجات مثل iFlytek Simultaneous Interpretation وYoudao Translator وTencent Translator جميعها ممثلة لهذا المجال. يتمثل مبدأ عمل هذا النوع من البرامج عمومًا في التعرف أولاً على صوت المتحدث بسرعة وتحويله إلى نص، ثم ترجمة النص من خلال خوارزميات معالجة اللغة الطبيعية القوية، وأخيرًا تحويل كل جملة مترجمة إلى كلام واحدًا تلو الآخر وتشغيله. لتحقيق تأثير "الترجمة في الوقت الحقيقي".
ومع ذلك، فإن هذه السلسلة من العمليات ستؤدي حتمًا إلى تأخير الترجمة. من أجل تقليل التأخير، تختار العديد من برامج الترجمة التخلي عن وظيفة تشغيل الصوت وعرض النص المترجم فقط. يمكن لهذه الطريقة ترجمة الكلام في الوقت الفعلي وتحديثه باستمرار في شكل "ترجمات". حتى إذا تم تعديل نتائج الترجمة وإعادة تشغيلها بشكل متكرر بسبب التغييرات في الإدخال، فلن تتأثر تجربة القراءة للمستخدم. ومن خلال إلغاء تشغيل الصوت، يمكن تقديم محتوى الترجمة المحدث للمستخدمين بسرعة أكبر وباستمرار، وبالتالي تحسين تجربة المستخدم الشاملة.
يستخدم نموذج الترجمة الفورية للذكاء الاصطناعي مبدأً مختلفًا تمامًا.
بفضل التقدم الهائل الذي حققته نماذج الذكاء الاصطناعي في السنوات الأخيرة، ستبدأ نماذج الترجمة الفورية التي تتبع زمن استجابة منخفض للغاية وتترجم الكلام مباشرة إلى كلام في الظهور تدريجيًا في عام 2024. الغرض من هذا النوع من النماذج هو ترجمة الكلام بشكل مباشر أو غير مباشر إلى كلام في اللغة الهدف. من بينها، ثلاثة نماذج ذات أداء متميز جذبت اهتمامًا خاصًا وهي الحلول الأقرب إلى الترجمة الفورية من شخص حقيقي: البث السلس لـ Meta (فيسبوك سابقًا)، وStreamSpeech من معهد تكنولوجيا الكمبيوتر، والأكاديمية الصينية للعلوم، وZhifu. نموذج الترجمة الفورية v3 يختلف هذا النوع من النماذج عن برامج الترجمة التقليدية المعتمدة على الذكاء الاصطناعي، وسيحاول تقليد سلوك الترجمة البشرية، ولن يترجم خطاب المتحدث على الفور، ولكنه "سيستمع" أثناء الحكم على ما إذا كان محتوى الكلام الحالي مناسبًا للترجمة الكاملة والكاملة. الترجمة هل تحتاج إلى سماع المزيد للترجمة.
تتمتع Meta بتأثير كبير في مجال الذكاء الاصطناعي، خاصة في المساهمات مفتوحة المصدر وأبحاث التكنولوجيا المتطورة. حقق قسم أبحاث الذكاء الاصطناعي التابع لها Meta AI اختراقات مهمة في مجالات متعددة للذكاء الاصطناعي، حيث تم استخدام نموذج LLaMA (نموذج اللغة الكبير) على نطاق واسع في مجتمع أبحاث الذكاء الاصطناعي، وأصبح إطار العمل مفتوح المصدر PyTorch أبحاث الذكاء الاصطناعي العالمية والأدوات السائدة في التطبيقات. نموذج الترجمة الفورية السلس الخاص بها هو أيضًا مفتوح المصدر هذه المرة، مما يسمح لأي شخص بالوصول إلى مبادئه الأساسية. وفقًا للأبحاث ذات الصلة التي نشرتها، يختار البث السلس استخدام استراتيجية "EMMA" لتحديد ما إذا كان يجب على المترجم ترجمة النص على الفور. سمعت المحتوى لا تزال تنتظر المزيد من المدخلات. في الاستخدام التجريبي، حقق نموذج البث السلس ترجمة دقيقة مع تأخير حوالي 3 ثوانٍ. ببساطة، يتأخر المحتوى المترجم عن الكلام الأصلي بحوالي 3 ثوانٍ. بالمقارنة مع تأخير 15 ثانية لبرنامج الترجمة التقليدي الذي يعمل بالذكاء الاصطناعي "الترجمة الفورية"، فقد حقق تحسينًا مذهلاً ووصل بالفعل إلى مستوى تأخير الترجمة الفورية للشخص الحقيقي، ومع ذلك، لسوء الحظ، لا تزال الدقة غير كافية مقارنة بالذكاء الاصطناعي التقليدي ترجمة. خاصة في اختبار الترجمة للغات المعقدة مثل الصينية، هناك مشاكل مثل سوء الفهم وعدم القدرة على فهم "النص الفرعي".
باعتبارها أعلى مؤسسة أكاديمية ومركز بحث علمي شامل في الصين، قامت الأكاديمية الصينية للعلوم أيضًا بفتح مصادر أبحاثها على نموذج StreamSpeech. وفقًا لبحثها المنشور، يستخدم StreamSpeech بشكل أساسي طريقة التحقق من "المحاذاة" لتحديد ما إذا كان المترجم ينتظر أم لا. الأمر المثير للصدمة هو أن تأخير الترجمة لنموذج الترجمة هذا يصل إلى 0.3 ثانية بشكل مذهل، ومن الجدير بالذكر أن هذا يعادل متوسط وقت رد الفعل البشري. لقد تجاوزت سرعة الترجمة هذه المستوى الذي يمكن أن يحققه الأشخاص الحقيقيون بكثير. بالنسبة للمترجمين الفوريين الحقيقيين، فإن الوقت من نطق المتحدث للكلمة إلى سماعها وفهمها في الدماغ يزيد عن 0.3 ثانية. لسوء الحظ، في الجزء الحالي مفتوح المصدر من النموذج، يدعم النموذج فقط الترجمة الإنجليزية-الفرنسية، والإنجليزية-الإسبانية، والإنجليزية-الألمانية، ولا يدعم اللغة الصينية حاليًا. وفي اختبار نموذج الكمون المنخفض، كانت سلاسة الترجمة غير مرضية إلى حد ما، وكان المحتوى المترجم أشبه بـ "ترجمة آلية كلمة مقابل كلمة" وليس ترجمة سلسة لمعنى الجملة. تحدث هذه المشكلة أكثر لأن التأخير منخفض جدًا، مما يتسبب في "إجبار" آلة الترجمة على ترجمة بعض الجمل غير المكتملة.
على عكس Meta والأكاديمية الصينية للعلوم، فإن Cicada Future هو فريق بحث وتطوير صيني صغير يقع في لندن. يقوم الفريق حاليًا بعملية التمويل ولم يفتح نموذجه بعد؛ ولا تحتوي معلوماته العامة حول هذا النموذج إلا على نافذة تجربة اختبار وملخص ورقي. وفقًا لملخص بحثها العام، مقارنة بالنموذجين السابقين، فإن الابتكار في نموذج الترجمة الفورية v3 الخاص بـ Zhifu هو أنه يسلم مباشرة وظيفة "ما إذا كان علينا انتظار المزيد من المدخلات" إلى نموذج الترجمة. يتم حاليًا اختبار نموذجين داخليًا: يتميز النموذج المصغر بزمن وصول منخفض كهدف أساسي له. وفقًا للاختبار الداخلي، يبلغ تأخير الترجمة من 1 إلى 3 ثوانٍ في المتوسط. عندما يتحدث المتحدث بوضوح، تتجاوز دقة الترجمة النموذجين المذكورين أعلاه . يتميز النموذج الكبير بالدقة العالية. متوسط تأخير الترجمة هو 2-5 ثواني. تصل دقة وطلاقة الترجمة إلى مستوى الأشخاص الحقيقيين أو حتى تتجاوزها. كما أنه يدعم الترجمة الدقيقة للتعبيرات المختلطة الصينية والإنجليزية، والقصائد القديمة. اللهجات والميمات الشعبية. تكمن المشكلة في أن عدد الأماكن المخصصة للاختبار الداخلي لهذا النموذج محدود حاليًا، والاختبار شائع جدًا لدرجة أنه غالبًا ما تكون هناك طوابير لاستخدامه، ولا تزال وظيفة ترجمة صفحات الويب الخاصة به بعيدة إلى حد ما عن كونها تجارية المنتج، وهو حاليًا أشبه بصفحة ويب "عرض النموذج".
خلاصة القول، إن التقدم التكنولوجي في الترجمة الفورية باستخدام الذكاء الاصطناعي قد جلب المزيد من الاحتمالات المحتملة إلى واقع ملموس. نحن بالفعل بعيدون عن المشهد في فيلم "الأرض المتجولة" حيث "يمكن لشخصين يتحدثان لغتين مختلفتين التواصل بشكل طبيعي بعد ارتداءهما". سماعات الرأس" يقترب بسرعة يمكن رؤيته بالعين المجردة. في الوقت الحالي، لم تبدأ برامج مثل Zhifu Simultaneous Interpretation، وهي الأقرب إلى هذا السيناريو، في إطلاق أي منتج؛ في أي سيناريو سيتم استخدامه أولاً؟ من سيكون أول دفعة من المستخدمين؟ السوق.
قبل التفكير في هذه المشكلة، دعونا نلقي نظرة على الوظائف الأساسية التي ستنفذها الترجمة الفورية: استخدام صوت المتحدث كمدخل في الوقت الفعلي، ومحاكاة الصوت المترجم لمحاكاة نغمة المتحدث كمخرج في الوقت الفعلي. لذا، وبالنظر إلى هذه الوظيفة، فكرنا في بعض الأمثلة الجيدة جدًا لمشاركتها معك هنا، على أمل أن تكون مصدر إلهام للجميع:
1. إعلان المضيفة
في الرحلات الجوية الدولية، يُطلب من المضيفات عادةً التحدث بلغتين أو حتى عدة لغات. بالإضافة إلى خدمة الركاب بشكل أفضل، فإن الأهم هو بث الرحلة والمعلومات الأخرى أثناء الرحلة، مثل "تعليمات الدخول، معلومات تحويل الرحلة" وغيرها من المحتويات التي يجب أن يفهمها الركاب من مختلف البلدان، لذلك يحتاجون للتحدث بلغات مختلفة في نفس الوقت. إن تعدد اللغات يمثل بالفعل تحديًا كبيرًا للمضيفات، كما أن التعبير الشفهي غير الواضح سيسبب مشاكل للركاب. قد تكون الترجمة الفورية باستخدام الذكاء الاصطناعي قادرة على المساعدة في هذا الوقت، فهي تتطلب فقط أن تتمكن المضيفة من التحدث بلغة ما، ويكون الذكاء الاصطناعي مسؤولاً عن نقل محتواها إلى آذان الركاب بنفس النغمة، حتى يتمكن الركاب من جميع أنحاء العالم. يمكن لجميع أنحاء العالم الاستماع إليها على متن الطائرة بوضوح وجعل رحلتك أكثر أمانًا.
2. التعليم عبر الإنترنت
مع تسارع عولمة التعليم عبر الإنترنت، تأمل المزيد والمزيد من المنصات والمؤسسات التعليمية في جذب الطلاب من جميع أنحاء العالم. ومع ذلك، غالبًا ما تصبح الاختلافات اللغوية عقبات أمام الطلاب للحصول على موارد تعليمية عالية الجودة. وخاصة الطلاب الذين لغتهم الأم هي لغة أقلية، عند تعلم دورات اللغة غير الأصلية، لا يكون من الصعب فهمها فحسب، بل يؤثر أيضًا على قدرتهم على التعلم في المواد الأساسية مثل الرياضيات والفيزياء، ونتيجة لذلك، يتم دفن العديد من الطلاب الموهوبين . يمكن لتقنية الترجمة الفورية المدعومة بالذكاء الاصطناعي أن تكسر هذا الحاجز وتوفر خدمات الترجمة في الوقت الفعلي للمحاضرين، بحيث بغض النظر عن اللغة التي يستخدمها المحاضر للتدريس، يمكن للطلاب الحصول على المحتوى المترجم في وقت واحد، بحيث لا يعودون مقيدين باللغة في بيئة التعليم العالمية.
ويمكن لتكنولوجيا الترجمة الفورية المعتمدة على الذكاء الاصطناعي أن توفر خدمات ترجمة دقيقة وفي الوقت الفعلي لهذه المناسبات، وتجنب التأخير وسوء الفهم في نقل المعلومات، وبالتالي تعزيز التواصل والتعاون الدوليين الأكثر كفاءة. وبصرف النظر عن ذلك، ما هي سيناريوهات الاستخدام المحتملة الأخرى الموجودة في المستقبل؟ ربما تكون نقطة الاختراق التالية مخفية بالتفصيل في حياتنا اليومية؟ مع استمرار تحسن التكنولوجيا، ستدخل الترجمة الفورية باستخدام الذكاء الاصطناعي تدريجيًا في المزيد من سيناريوهات التطبيق اليومية وستصبح جزءًا لا غنى عنه في الاتصالات العالمية المستقبلية.