أعلنت شركة Openai مؤخرًا عن تحديث مهم لواجهة برمجة التطبيقات في الوقت الفعلي ، حيث أطلقت خمسة خيارات صوتية جديدة وتقليل تكاليف التخزين المؤقت ، بهدف تزويد المطورين بحلول تطبيقات أكثر تكلفة من الصوت.
اليوم ، أعلن Openai تحديثًا إلى واجهة برمجة التطبيقات في الوقت الفعلي ، الذي لا يزال في بيتا. إن تسليط الضوء على هذا التحديث هو إطلاق خمسة خيارات صوتية جديدة ، مصممة لتطبيقات الصوت إلى الخزانة ، مع تقليل رسوم ذاكرة التخزين المؤقت ذات الصلة ، مما يجعل المطورين أكثر تكلفة عند استخدامها.
من بين الأصوات الخمسة الجديدة التي تم إصدارها ، أظهر Openai ثلاثة من هذه الأصوات الجديدة في مقال عن X و Ash و Verse و Ballad البريطاني. ليست هذه الأصوات أكثر حيوية وقابلة للتعديل فحسب ، بل توفر أيضًا تجربة اتصال أكثر طبيعية. ذكرت Openai في وثائق API الخاصة بها أن ميزة الصوت إلى الصوتية الأصلية تلغي معالجة تنسيق النص الوسيط ، مما يتيح انخفاض الكمون وإخراج أكثر حساسية.
ومع ذلك ، يذكر Openai أيضًا المستخدمين أنه نظرًا لأن واجهة برمجة التطبيقات في الوقت الفعلي لا تزال في مرحلة الاختبار ، فإنه غير قادر مؤقتًا على توفير مصادقة العميل. بالإضافة إلى ذلك ، قد تتأثر معالجة الصوت في الوقت الفعلي بظروف الشبكة ، والتي تشكل أيضًا تحديات في نقل الصوت على نطاق واسع. يشير Openai إلى أن ضمان انتقال الصوت الموثوق به هو في الواقع مهمة صعبة عندما تكون ظروف الشبكة غير مستقرة.
تاريخ تنمية Openai في تكنولوجيا الصوت مثير للجدل أيضًا. في شهر مارس ، أطلقوا محرك الصوت ، وهو منصة استنساخ صوتي ، حاولت التنافس مع أحد عشر منسًا ، لكنها كانت مفتوحة فقط لعدد قليل من الباحثين. من خلال مظاهرة GPT-4O والأوضاع الصوتية ، تخلص Openai الذي توقف الصوت الذي يسمى "Sky" في مايو ، حيث أعربت الممثلة في هوليوود سكارليت جونسون عن عدم رضاه ، معتقدين أنها كانت مشابهة لصوتها.
في سبتمبر ، أطلقت Openai وضع ChatGpt Advanced Voice لمشتركيها المدفوعون ، والذي يمكن استخدامه من قبل مستخدمين مثل ChatGpt Plus و Enterprise و Teams و EDU. من خلال تقنية الصوت إلى الصوفية ، يمكن للمؤسسات توليد استجابات في الوقت الفعلي بسرعة أكبر ، مما يحسن بشكل كبير من كفاءة خدمة العملاء.
تقليل التكاليف بأكثر من 50 ٪فيما يتعلق بتسعير واجهات برمجة التطبيقات في الوقت الفعلي ، تم تسعير Openai بسعر 0.06 دولار في إصدار سابق عند 0.06 دولار في دقائق من مدخلات الصوت و 0.24 دولار في إخراج الصوت ، وهو مرتفع نسبيًا للمطورين. ومع ذلك ، بعد هذا التحديث ، سيتم تخفيض تكلفة استخدام إدخال النص المخبأة بنسبة 50 ٪ ، في حين أن تكلفة مدخلات الصوت المخبأة تصل إلى 80 ٪.
أعلنت Openai عن الميزة الجديدة المتمثلة في "التخزين المؤقت السريع" في يوم المطور ، والتي يمكن أن توفر مطالبات السياق للطلبات المتكررة في ذكرى النموذج ، مما يقلل من عدد الرموز المطلوبة لإنشاء استجابة. من خلال خفض سعر الإدخال ، يأمل Openai في جذب المزيد من المطورين لاستخدام واجهة برمجة التطبيقات الخاصة به.
بالإضافة إلى ذلك ، أطلقت الشركات الأخرى مثل الأنثروبور ميزات تخزين مؤقت مماثلة لزيادة جاذبية تكنولوجيا الصوت الخاصة بهم.
النقاط الرئيسية:
تتم إضافة خمسة أصوات طبيعية جديدة لتحسين تجربة التطبيق الصوتي
API في الوقت الحقيقي يقلل من تكاليف الإدخال من خلال ذاكرة التخزين المؤقت ، مما يجعل المطورين أكثر فعالية من حيث التكلفة
تتأثر معالجة الصوت في الوقت الفعلي بظروف الشبكة ، ويجب الانتباه إلى الموثوقية
لا يحسن هذا التحديث لـ Openai تجربة تطبيق التكنولوجيا الصوتية فحسب ، بل يجذب أيضًا المزيد من المطورين عن طريق تقليل التكاليف ، وزيادة تعزيز تعميم وتطوير تكنولوجيا الصوت.