أول نموذج مفتوح المصدر للصوت المحادثة Hertz-Dev 120ms Ultra-Low Contancing Amazing الشبكة بأكملها-AI مقالات

الكاتب：Eve Cole وقت التحديث：2025-02-12 19:00:03

قام Hertz-Dev ، وهو نموذج صوتي مفتوح المصدر الثوري ، بعمل موجات ضخمة في مجال صوت الذكاء الاصطناعى بمعلمات 8.5 مليار و 20 مليون ساعة من البيانات الصوتية عالية الجودة. إنه يدرك الحوار في الوقت الفعلي الكامل ، والكمون المنخفض للغاية البالغ 120 ميلي ثانية هو اختراق ، ويحسن تفاعل الإنسان والحاسوب إلى مستوى غير مسبوق من النعومة والطبيعة ، مما يغير تمامًا التجربة التفاعلية للنماذج الصوتية السابقة. يكمن اختراقها الأساسي في التكنولوجيا الفاكسة الكاملة ، وضغط الصوت الممتاز ، وقدرات الحوار الطويلة ، والكمون الثوري المنخفض ، والذي يوفر للمطورين إمكانيات غير محدودة.

ظهر نموذج صوتي ثوري مفتوح المصدر ، Hertz-dev ، من المطورين المصابين بالصدمة في جميع أنحاء العالم بمؤشرات الأداء المذهلة. حقق هذا الوحش الصوتي من الذكاء الاصطناعي مع 8.5 مليار معلمة الحوار في الوقت الحقيقي الكامل الذي يحلم به البشر خلال 20 مليون ساعة من التدريب على البيانات الصوتية عالية الجودة.

الشيء الأكثر إثارة للدهشة هو أدائها المدمر للغاية الذي يبلغ 120 ميلي ثانية ، والذي يضاعف النموذج العام الحالي ، مما يسمح بتجربة حوار الكمبيوتر إلى مستوى جديد تمامًا. تخيل أنه عندما تتحدث إلى الذكاء الاصطناعي ، لا يتعين عليك الانتظار حتى ينهي الشخص الآخر التحدث ويمكنك المقاطعة بشكل طبيعي ، تمامًا مثل محادثة إنسانية حقيقية.

تشمل الاختراقات الأساسية لـ Hertz-Dev:

تقنية الانفصال الكامل: يفسد تمامًا نموذج الكلام الدوار التقليدي ويدرك اتصالًا حقيقيًا في الوقت الفعلي في الوقت الفعلي

ضغط صوتي ممتاز: مع ضمان جودة الصوت العالية ، تقليل استخدام النطاق الترددي بشكل كبير

قدرة الحوار الطويل: فهم بسهولة وإنشاء محتوى حوار مستمر

زمن انتقال منخفض ثوري: سرعة استجابة 120 مللي ثانية ، مما يخلق حقبة جديدة من التفاعل في الوقت الفعلي

كنموذج محول أساسي يركز على الصوت ، يستفيد Hertz-Dev بالكامل لبيانات الحوار في العالم الحقيقي أثناء التدريب ويلتقط بميزات دقيقة في الكلام البشري ، بما في ذلك إيقاعات الإيقاف الطبيعي وتغييرات النغمة العاطفية الغنية.

للمطورين ، هذا كنز مفتوح المصدر. يمكنهم تنزيل النموذج بحرية ، وضبطه وفقًا لسيناريوهات التطبيق المحددة ، وإنشاء تطبيقات صوتية مبتكرة مختلفة. هذا يعني أنه من روبوتات خدمة العملاء إلى المساعدين الصوتيين ، من التدريس التعليمي إلى التفاعل الترفيهي ، سوف ندخل في قفزة نوعية.

عنوان المشروع: https://github.com/standard-intelligence/hertz-dev

تمنح ميزة Hertz-Dev المصدر المفتوحة إمكانات تطوير ضخمة وسيتم تطبيقها في المزيد من الحقول في المستقبل ، مما يجعل المطورين والمستخدمين تجربة تفاعل صوتي أكثر ملاءمة وأكثر ذكاءً. نتطلع إلى تطور هيرتز ديف المستمر في المستقبل وجلب المزيد من الابتكار إلى مجال صوت الذكاء الاصطناعي.