تستعرض هذه المقالة مراحل التطوير الثمانية الرئيسية لنموذج Beanbao منذ إصداره في 15 مايو 2024، مما يوضح أدائه الرائع في التعرف على الكلام وإنشاء الموسيقى وإنشاء الفيديو وتحرير الصور وإمكانيات البرمجة وفهم النص والإدراك البصري وما إلى ذلك. تقدم. بدءًا من الاختراق الأولي للتعرف على الكلام وحتى التنفيذ النهائي لنموذج Doubao-pro العالمي المتوافق مع قدرات GPT-4، حقق نموذج Doubao نتائج رائعة في 230 يومًا فقط، مما يدل على القوة التقنية القوية وإمكانات التطوير. ويتناول المقال بالتفصيل الإنجازات التكنولوجية وسيناريوهات التطبيق في كل مرحلة، ويوضح بعض وظائفها بالصور.
1. اختراقات في التعرف على الكلام والتعبير العاطفيحقق نموذج دوباو طفرة كبيرة في مجال التعرف على الكلام في يوليو: حيث يمكنه فهم المحادثات المختلطة بأكثر من 20 لهجة، ولديه القدرة على التفكير أثناء الاستماع. ليس هذا فحسب، بل تعلم التعبير عن المشاعر في المحادثات، ويمكنه التدخل بحرية في التفاعلات، بل ويحتفظ بعادات اللغة البشرية مثل البلع واللكنة. التقنية الأساسية وراء ذلك هي نموذج التعرف على الكلام Beanbag Seed-ASR والنموذج الأساسي لتوليد الكلام Seed-TTS، حيث تدمج هذه النماذج نطاقًا أوسع من سلاسل البيانات والاستدلال، مما يمنحها إمكانات تعميم قوية للغاية.
2. ولادة فرقة الذكاء الاصطناعيفي سبتمبر، أدرك نموذج Doubao الكبير بشكل إبداعي مفهوم "نطاق الذكاء الاصطناعي". من كتابة الأغاني إلى توليد الأداء إلى الغناء الصوتي، أتقن Doubao Master أكثر من 10 مهارات في إنشاء الموسيقى ويمكنه تقديم إلهام غير متوقع لإنشاء الموسيقى. التكنولوجيا التي تقف وراءها هي إطار عمل Seed-Music، الذي يجمع بين مزايا نماذج اللغة ونماذج الانتشار لتنفيذ إطار عالمي لتوليد الموسيقى ويتمتع بإمكانية تحكم عالية للغاية في التحرير.
3. توليد فيديو دقيق والتحكم في العدسةوفي الشهر نفسه، كسر نموذج كيس الفول حدود الإبداع بشكل أكبر، حيث أصبح قادرًا على متابعة الكلمات السريعة المعقدة، وإنشاء مقاطع فيديو عالية الوضوح متعددة المواضيع، والتحكم بدقة في زاوية الكاميرا. بمساعدة نموذجين لتوليد الفيديو، PixelDance وSeaweed، يمكن لـ Doubao Big Model تحقيق إنشاء مؤثرات فيديو وصوت عالية الجودة في وقت واحد، مما يوفر للمبدعين تجربة بصرية أكثر واقعية وحالمة.
4. رفع مستوى قدرات تحرير الصور وإنشائهافي نوفمبر، أتقنت شركة Doubao Big Model قدرات "صورة P من جملة واحدة" و"إنشاء الملصقات بنقرة واحدة". يحتاج المستخدمون فقط إلى أوامر نصية بسيطة لإجراء تحرير دقيق للصور وإنشاء النص. من خلال نموذج الرسم البياني فينسنت المتكرر باستمرار SeedEdit، يمكن لـ Doubao تقديم مشاهد معقدة بدقة وتوفير تحرير الصور المعتمد على اللغة الطبيعية.
5. قفزة في القدرة على البرمجةومع دخول شهر ديسمبر، تحسنت قدرات دوباو البرمجية بشكل كبير، وأصبح مبرمجًا للذكاء الاصطناعي ومحلل بيانات. من خلال Doubao MarsCode، يمكن للمستخدمين بسهولة تنفيذ كتابة التعليمات البرمجية ومعالجة البيانات والتحليل البصري. يدعم نموذج التعليمات البرمجية الكبير لـ Doubao Doubao-coder بعمق 16 لغة برمجة ويمكنه تلبية احتياجات البرمجة الكاملة مثل تطوير الواجهة الأمامية والخلفية والتعلم الآلي.
6. قدرات فائقة على فهم النص ومعالجتهيخترق نموذج Doubao الكبير أيضًا حد نافذة السياق، ويزيدها إلى 3 ملايين كلمة، وهو قادر على معالجة نص أكبر، ومع تأخير معالجة يبلغ 15 ثانية فقط لكل مليون رمز مميز. من خلال خوارزميات البيانات المرتبطة مثل STRING، يمكن لنموذج Beanbao الكبير اكتساب معرفة خارجية هائلة بسرعة وتوفير إمكانات فهم أكثر دقة.
7. اختراقات في الإدراك البصري والتفكير العميقفي منتصف ديسمبر، حقق نموذج كيس الفول الكبير إدراكًا بصريًا وكان قادرًا على دمج الحواس المتعددة للتفكير المتعمق. فهو لا يمكنه فهم الصور بدقة فحسب، بل يمكنه أيضًا إجراء عمليات معقدة، مثل التقاط صورة لمسألة رياضية في حساب التفاضل والتكامل، مما يدل على قدراته الممتازة في التعلم والاستدلال عبر الوسائط.
8. الطراز العام Doubao-pro المطور بالكاملفي منتصف ديسمبر، تمت ترقية النموذج العام Doubao Doubao-pro بالكامل، وكانت قدراته متوافقة تمامًا مع GPT-4، وتعلم "التفكير" أثناء عملية الإجابة. تعمل هذه الترقية على تحسين دقة فهم Doubao-pro وجودة التوليد، مما يجعلها "محاربًا سداسيًا" فعالاً مع أداء متوازن في القدرات المختلفة ويصبح معيارًا آخر في مجال الذكاء الاصطناعي.
هذا العام، حقق فريق Doubao Big Model تقدمًا كبيرًا في أبحاث الذكاء الاصطناعي الأساسية. وقد نشر الفريق 57 ورقة بحثية وظهر في أهم المؤتمرات مثل ICLR، وCVPR، وNeurIPS. بالإضافة إلى ذلك، يتمتع فريق Doubao Big Model بتعاون متعمق مع العديد من الجامعات الكبرى وأنشأ مختبرات مشتركة لتعزيز تطوير تكنولوجيا الذكاء الاصطناعي.
لا يعد نموذج كيس الفول الكبير طفرة في التكنولوجيا فحسب، بل يستخدم أيضًا على نطاق واسع في العديد من الصناعات. من خلال محرك البركان، يخدم Doubao Big Model أكثر من 30 صناعة، ويتجاوز متوسط المكالمات الرمزية اليومية 4 تريليون، بزيادة قدرها 33 مرة عن وقت الإصدار في مايو.
العنوان الرسمي: https://mp.weixin.qq.com/s/KVfu86njzyK2iK4j6VJONw
وبشكل عام، يشير التطور السريع والتطبيق الواسع النطاق لنموذج البين باج إلى الإمكانات الهائلة لتكنولوجيا الذكاء الاصطناعي في مختلف المجالات، وأن تطورها المستقبلي يستحق التطلع إليه.