أصدرت شركة Beijing Dark Side of the Moon Technology Co., Ltd. نموذجًا جديدًا لفهم الصور متعدد الوسائط Moonshot-v1-vision-preview، ويعد هذا النموذج امتدادًا لسلسلة moonshot-v1 ويحسن بشكل كبير قدرة Kimi على فهم معلومات الصورة . يتمتع نموذج Vision بقدرات قوية للتعرف على الصور ويمكنه التمييز بدقة بين الاختلافات الدقيقة، مثل التمييز بسهولة بين الصور المتشابهة جدًا لكعك التوت الأزرق وكلاب الشيواوا. بالإضافة إلى ذلك، فإنه يؤدي أيضًا أداءً جيدًا في التعرف على النص بالتعرف الضوئي على الحروف (OCR)، ويمكنه التعرف بدقة على المستندات المختلفة بما في ذلك الكتابة اليدوية المخربشة، مثل الإيصالات وأوامر التسليم السريع. يدعم هذا النموذج مجموعة متنوعة من الميزات، مثل الحوار متعدد الجولات وإخراج البث وما إلى ذلك، مما يوفر للمستخدمين تجربة أكثر ملاءمة وكفاءة.
في 15 يناير 2025، أعلنت شركة Beijing Dark Side of the Moon Technology Co., Ltd. عن الإصدار الرسمي لنموذج فهم الصور متعدد الوسائط الجديد Moonshot-v1-vision-preview سلسلة نماذج -v1 وتساعد كيمي على فهم العالم بشكل أفضل.
يتمتع نموذج Vision بقدرات قوية للتعرف على الصور ويمكنه تحديد التفاصيل المعقدة والفروق الدقيقة في الصور بدقة، سواء كانت طعامًا أو حيوانات، ويمكنه التمييز بين الأشياء المتشابهة ولكن غير المتطابقة. على سبيل المثال، في مواجهة 16 صورة متشابهة لفطائر التوت والشيواوا التي يصعب على العين البشرية تمييزها، يستطيع نموذج الرؤية تمييزها والتعرف عليها بدقة.
يتمتع نموذج Vision أيضًا بقدرات متقدمة رائدة في مجال التعرف على الصور في البلاد، كما أنه يعمل بشكل جيد في سيناريوهات التعرف على النصوص وفهم الصور باستخدام تقنية التعرف الضوئي على الحروف (OCR)، وهو أكثر دقة من برامج المسح الضوئي للمستندات العادية والتعرف على تقنية التعرف الضوئي على الحروف (OCR)، ويمكنه التعرف على المحتوى المكتوب بخط اليد مثل الإيصالات وأوامر التسليم السريع. .
يدعم نموذج Vision Vision جولات متعددة من الحوار وإخراج البث واستدعاء الأدوات ووضع JSON والوضع الجزئي وميزات أخرى، ولكنه لا يدعم حاليًا البحث عبر الإنترنت ولا يدعم إنشاء ذاكرة تخزين مؤقت للسياق مع محتوى الصورة، ولكنه يدعم ذلك استخدام مكالمات ذاكرة التخزين المؤقت التي تم إنشاؤها بنجاح لا يدعم نموذج Vision الصور بتنسيق URL ويدعم حاليًا محتوى الصورة المشفر بواسطة base64 فقط.
الفواتير النموذجية
سعر وحدة الفوترة النموذجية moonshot-v1-8k-vision-preview1M من الرموز المميزة¥12.00moonshot-v1-32k-vision-preview1M من الرموز المميزة¥24.00moonshot-v1-128k-vision-preview1M من الرموز المميزة¥60.00يمثل إصدار نموذج Moonshot-v1-vision-preview إنجازًا جديدًا حققته شركة Beijing Dark Side of the Moon Technology Co., Ltd. في مجال الذكاء الاصطناعي متعدد الوسائط ويوفر اتجاهًا جديدًا لتطوير فهم الصور تكنولوجيا. إن أدائها القوي ووظائفها الغنية يمنحها آفاق تطبيق واسعة في العديد من سيناريوهات التطبيق، ومن الجدير التطلع إلى تطويرها وتطبيقها في المستقبل.