أطلقت شركة ElevenLabs، وهي شركة ناشئة تركز على استنساخ الصوت بالذكاء الاصطناعي وواجهة برمجة تطبيقات تحويل النص إلى كلام، مؤخرًا ميزة جديدة لافتة للنظر: يمكن للمستخدمين إنشاء وكلاء محادثة كاملين بالذكاء الاصطناعي بشكل مستقل. يمثل هذا التحديث تحول ElevenLabs من مزود تكنولوجيا الصوت النقي إلى مزود حلول الذكاء الاصطناعي الأكثر شمولاً، مما يوفر للمطورين مساحة تخصيص غير مسبوقة، ويبشر أيضًا بمزيد من المنافسة الشديدة في مجال حوار الذكاء الاصطناعي. سيمنحك محرر Downcodes فهمًا متعمقًا لقوة هذه الميزة الجديدة.
يمكن للمستخدمين الآن تخصيص متغيرات مختلفة لوكيل المحادثة وفقًا لاحتياجاتهم الخاصة على منصة مطوري ElevenLabs، مثل نغمة الصوت وطول الرد.
قدمت ElevenLabs في المقام الأول خدمات مختلفة للكلام وتحويل النص إلى كلام في الماضي. صرح سام سكلار، رئيس قسم النمو في الشركة، لـ TechCrunch أن العديد من العملاء يستخدمون بالفعل النظام الأساسي لإنشاء عملاء الذكاء الاصطناعي للمحادثة. لكن دمج قاعدة المعرفة والتعامل مع انقطاع خدمة العملاء يمثل أكبر التحديات. لذا قررت شركة ElevenLabs إنشاء خط أنابيب كامل لروبوتات المحادثة لتسهيل هذه العملية.
يمكن للمستخدمين البدء في إنشاء وكلاء محادثة عن طريق تسجيل الدخول إلى حساب ElevenLabs الخاص بهم، أو تحديد قالب، أو إنشاء مشروع جديد. يمكنهم تحديد اللغة الأساسية للوكيل، والرسالة الأولى، ومطالبات النظام لتحديد شخصية الوكيل.
بالإضافة إلى ذلك، يحتاج المطورون إلى اختيار نموذج لغة كبير (مثل Gemini أو GPT أو Claude)، ودرجة حرارة الاستجابة (التي تحدد الإبداع)، وقيود استخدام الرمز المميز.
يمكن للمستخدمين أيضًا إضافة قواعد المعرفة مثل الملفات أو عناوين URL أو الكتل النصية وفقًا لاحتياجاتهم لتعزيز قدرات روبوت المحادثة. وفي الوقت نفسه، يمكنهم دمج نماذج اللغة الكبيرة المخصصة الخاصة بهم مع الروبوت. يتوافق SDK الخاص بـ ElevenLabs مع Python وJavaScript وReact وSwift، وتوفر الشركة أيضًا واجهة برمجة تطبيقات WebSocket لمزيد من التخصيص.
كما تتيح الشركة للمستخدمين تحديد معايير جمع البيانات، مثل الاسم والبريد الإلكتروني للعميل الذي تحدث إلى الوكيل، واستخدام اللغة الطبيعية لتحديد معايير تقييم نجاح المكالمة.
تعمل ElevenLabs على الاستفادة من خط أنابيب تحويل النص إلى كلام الحالي الخاص بها بينما تعمل أيضًا على تطوير إمكانات تحويل الكلام إلى نص لمنتجات المحادثة الجديدة التي تعمل بالذكاء الاصطناعي. حاليًا، لا تقدم الشركة واجهة برمجة تطبيقات منفصلة لتحويل الكلام إلى نص، لكنها قد تطلقها في المستقبل، وبالتالي تتنافس مع واجهات برمجة تطبيقات تحويل الكلام إلى نص الخاصة بشركات مثل Google، وMicrosoft، وAmazon، وكذلك مع تتنافس واجهات برمجة التطبيقات Whisper وAssemblyAI وDeepgram وSpeechmatics وGladia.
وتخطط الشركة لجمع جولة جديدة من التمويل بقيمة تزيد عن 3 مليارات دولار، وتتنافس مع شركات ناشئة أخرى تعمل بالذكاء الاصطناعي الصوتي مثل Vapi وRetell، والتي تقوم أيضًا ببناء وكلاء محادثة. علاوة على ذلك، سوف تتنافس ElevenLabs مع واجهة برمجة التطبيقات للمحادثة في الوقت الفعلي الخاصة بـ OpenAI. ومع ذلك، تعتقد ElevenLabs أن قدرتها على التخصيص والمرونة في تبديل النماذج ستمنحها ميزة على المنافسة.
لا تعمل هذه الميزة الجديدة لـ ElevenLabs على تعزيز قدرتها التنافسية في مجال صوت الذكاء الاصطناعي فحسب، بل توفر أيضًا للمطورين أدوات ملائمة لبناء عملاء ذكاء اصطناعي أكثر قوة وتخصيصًا للمحادثة. في المستقبل، مع إطلاق وظيفة تحويل الكلام إلى نص وإضافة المزيد من خيارات التخصيص، من المتوقع أن تحتل ElevenLabs مكانًا في مجال حوار الذكاء الاصطناعي. سيستمر محرر Downcodes في الاهتمام بتطويره.