في مؤتمر FORCE Motive Power في 18 ديسمبر 2024، أصدرت Volcano Engine ترقية شاملة لعائلة نماذج أكياس القماش الكبيرة، وأكثر ما يلفت الانتباه هو إطلاق نموذج جديد للفهم البصري. يدعم النموذج الإدخال المتزامن للنصوص والصور، ويتمتع بقدرات أقوى على التعرف والفهم والاستدلال، ويوفر الخدمات للمستخدمين بسعر تنافسي للغاية. لا تعمل هذه الترقية على تحسين قدرات التطبيق لنموذج Beanbao الكبير في مختلف المجالات فحسب، بل تشير أيضًا إلى أن تقنية الفهم البصري قد دخلت مرحلة جديدة من التطوير، مما يوفر حلول ذكاء اصطناعي أكثر ملاءمة وكفاءة للمؤسسات والمطورين.
في مؤتمر Volcano Engine FORCE Motive Power الذي عُقد في 18 ديسمبر 2024، أعلنت Volcano Engine عن ترقية شاملة لعائلة نماذج Beanbao الكبيرة وأصدرت نموذجًا جديدًا للفهم البصري.
وقال تان داي، رئيس Volcano Engine، إن متوسط الاستخدام اليومي للتوكنات في نموذج Doubao نما بسرعة في الأشهر القليلة الماضية، حيث وصل إلى أكثر من 4 تريليونات، أي بزيادة قدرها 33 ضعفًا مقارنة بالوقت الذي تم إصداره فيه في مايو. يُظهر هذا الاتجاه المتزايد الاستخدام الواسع النطاق لنماذج أكياس القماش الكبيرة في سيناريوهات التطبيقات المتعددة.
هذه المرة، أطلق Volcano Engine نموذجًا للفهم البصري، مما يسمح للمستخدمين بإدخال أسئلة نصية وصورية في نفس الوقت، ويمكن للنموذج أن يفهم بشكل شامل ويقدم إجابات دقيقة. سيؤدي هذا الابتكار إلى تبسيط عملية تطوير التطبيق إلى حد كبير وتفعيل إمكانات النماذج الكبيرة في المزيد من السيناريوهات.
يتمتع نموذج الفهم البصري بقدرات أقوى للتعرف على المحتوى، ولا يمكنه فقط تحديد العناصر الأساسية مثل فئات الكائنات والأشكال في الصور، بل يمكنه أيضًا فهم العلاقة بين الكائنات والتخطيط المكاني والمعنى العام للمشهد. على سبيل المثال، تحديد الظلال، وتحديد المعرفة الطبيعية، وما إلى ذلك.
يتمتع نموذج الفهم البصري بقدرات فهم واستدلال أقوى، ولا يمكنه فقط تحديد المحتوى بشكل أفضل، بل يمكنه أيضًا إجراء حسابات منطقية معقدة بناءً على معلومات النص والصورة التي تم التعرف عليها، مثل الاستدلال الرسومي والتفكير المادي.
بالإضافة إلى ذلك، فإنه يتمتع أيضًا بقدرة وصف بصري أكثر دقة، والتي يمكنها وصف محتوى الصورة بمزيد من التفاصيل بناءً على معلومات الصورة، ويمكنها أيضًا إنشاء مجموعة متنوعة من الأساليب الأدبية، مثل إنشاء الصور، وإنشاء الشعر المصور، وما إلى ذلك.
يُظهر نموذج الفهم البصري Doubao آفاق تطبيق واسعة في العديد من المجالات مثل التعليم والسياحة والتجارة الإلكترونية. على سبيل المثال، في التعليم، يمكن للنموذج أن يساعد الطلاب على تحسين مؤلفاتهم ومعرفتهم العلمية الشائعة؛ في السياحة، يمكن للنموذج أن يزود السائحين بترجمات قوائم الطعام الأجنبية وتفسيرات المعرفة الأساسية المعمارية في تسويق التجارة الإلكترونية، ويمكن أن يساعد التجار في الوصف خصائص المنتج بالتفصيل، وبالتالي تحسين فعالية الإعلان.
تكلفة استخدام نموذج الفهم البصري قريبة جدًا أيضًا من الأشخاص. السعر لكل ألف رمز هو 0.003 يوان، وهو أقل بنسبة 85٪ من متوسط سعر الصناعة. يسمح مستوى السعر هذا لكل دولار بمعالجة ما يصل إلى 284 صورة بدقة 720 بكسل، مما يمثل دخول تكنولوجيا الفهم البصري إلى "عصر السنتي". بالإضافة إلى ذلك، يوفر Volcano Engine أيضًا للمؤسسات والمطورين ما يصل إلى 15000 دعم أولي لحركة المرور لمساعدتهم على الاستفادة بشكل أفضل من هذه التكنولوجيا.
في هذا المؤتمر، لم يصدر Volcano Engine نموذجًا للفهم البصري فحسب، بل قام أيضًا بترقية العديد من النماذج الأخرى. زادت القدرة الشاملة على معالجة المهام في Doubao Universal Model Pro بنسبة 32% مقارنة بشهر مايو، وكانت هناك أيضًا تحسينات كبيرة في مجالات مثل الاستدلال ومتابعة التعليمات والبرمجة والرياضيات. وفي الوقت نفسه، سيكون نموذج إنتاج البين باج والفيديو مفتوحًا للجمهور في يناير 2025، ويمكن للشركات تحديد موعد لاستخدامه.
ومن أجل تحسين قدرات الحصول على المعلومات والتوصية بالبحث لدى المؤسسات، أطلقت Volcano Engine أيضًا خدمة بحث عالمية تعمل بالذكاء الاصطناعي لمساعدة المؤسسات على ربط المعلومات واحتياجات المستخدمين بشكل أفضل، وتسهيل التحول الذكي لمختلف الصناعات.
أبرز النقاط:
بلغ متوسط الاستخدام اليومي للرمز المميز لـ Doubao Big Model 4 تريليون، بزيادة قدرها 33 مرة مقارنة بشهر مايو.
ويدعم نموذج الفهم البصري الذي تم إطلاقه حديثًا الإدخال المتزامن للنصوص والصور، وهو مناسب لمجالات مثل التعليم والسياحة والتجارة الإلكترونية.
تبلغ تكلفة الاستخدام لكل ألف رمز 0.003 يوان فقط، وهو أقل بكثير من متوسط سعر الصناعة.
باختصار، تُظهر ترقية نموذج كيس الفول الكبير ونموذج الفهم البصري الجديد الذي أصدرته Volcano Engine هذه المرة ابتكارها المستمر في مجال الذكاء الاصطناعي وفهمها العميق لاحتياجات المستخدم، مما يوفر دعمًا فنيًا قويًا للتحول الذكي لمختلف الصناعات.