ومع ذلك، لا أحد يعرف ما إذا كانت الآلة قادرة على إنشاء شيء جديد أم أن الأمر يقتصر على ما تعرفه بالفعل. ولكن حتى الآن، يستطيع الذكاء الاصطناعي حل المشكلات المعقدة وتحليل مجموعات البيانات غير المنظمة. قررنا في دودو إجراء تجربة. لتنظيم ووصف هيكلي لشيء يعتبر فوضويًا وذاتيًا - الذوق. قررنا استخدام الذكاء الاصطناعي للعثور على أروع مجموعات المكونات التي رغم ذلك سيعتبرها معظم الناس لذيذة.
بالتعاون مع خبراء من MIPT وSkoltech، أنشأنا ذكاءً اصطناعيًا قام بتحليل أكثر من 300000 وصفة ونتائج بحثية حول التركيبات الجزيئية للمكونات التي أجرتها كامبريدج والعديد من جامعات الولايات المتحدة الأمريكية الأخرى. وبناءً على ذلك، تعلم الذكاء الاصطناعي العثور على روابط غير واضحة بين المكونات وفهم كيفية إقران المكونات وكيف يؤثر وجود كل منها على مجموعات جميع المكونات الأخرى.
لأي نموذج تحتاج إلى البيانات. ولهذا السبب، من أجل تدريب الذكاء الاصطناعي لدينا، قمنا بجمع أكثر من 300000 وصفة طبخ.
لم يكن الجزء الصعب هو جمعها، بل جعلها بنفس الشكل. على سبيل المثال، يتم إدراج الفلفل الحار في الوصفات تحت اسم "الفلفل الحار" أو "الفلفل الحار" أو "الفلفل الحار" أو حتى "الفلفل الحار". من الواضح لنا أن كل هذه الكلمات تعني "الفلفل الحار"، لكن الشبكة العصبية تعتبر كل منها كيانًا فرديًا.
في البداية، كان لدينا أكثر من 100000 مكون فريد، وبعد أن قمنا بتنظيف البيانات، لم يتبق سوى 1000 موضع فريد.
بمجرد حصولنا على مجموعة البيانات، قمنا بإجراء تحليل أولي. أولاً، أجرينا تقييمًا كميًا لعدد المأكولات الموجودة في مجموعة البيانات الخاصة بنا.
لكل مطبخ، حددنا المكونات الأكثر شعبية.
تُظهر هذه الرسوم البيانية الاختلافات في تفضيلات أذواق الأشخاص حسب البلد والاختلافات في طريقة دمج المكونات.
بعد ذلك، قررنا تحليل وصفات البيتزا من جميع أنحاء العالم لاكتشاف الأنماط. هذه هي الاستنتاجات التي توصلنا إليها.
إن العثور على مجموعات المذاق الفعلية ليس مثل اكتشاف التركيبات الجزيئية. جميع أنواع الجبن لها نفس التركيب الجزيئي، لكن هذا لا يعني أن التركيبات الجيدة قد تأتي فقط من أقرب المكونات.
ومع ذلك، فإن مجموعات المكونات المتشابهة جزيئيًا هي التي نحتاج إلى رؤيتها عندما نحول المكونات إلى رياضيات. لأن الأشياء المتشابهة (نفس الجبن) يجب أن تظل متشابهة مهما وصفناها. بهذه الطريقة يمكننا تحديد ما إذا كانت الكائنات موصوفة بشكل صحيح.
لتقديم الوصفة في شكل مفهوم للشبكة العصبية، استخدمنا Skip-Gram Negative Sampling (SGNS) - وهي خوارزمية word2vec، استنادًا إلى حدوث الكلمات في السياق.
قررنا عدم استخدام نماذج word2vec المدربة مسبقًا لأن البنية الدلالية للوصفة تختلف عن النصوص البسيطة. ومع هذه النماذج، يمكن أن نفقد معلومات مهمة.
يمكنك تقييم نتيجة word2vec من خلال النظر إلى أقرب الجيران الدلالي. على سبيل المثال، إليك ما يعرفه نموذجنا عن الجبن:
لاختبار مدى قدرة النماذج الدلالية على التقاط العلاقات المتبادلة بين المكونات، قمنا بتطبيق نموذج الموضوع. بمعنى آخر، حاولنا تقسيم مجموعة بيانات الوصفة إلى مجموعات وفقًا لانتظامات محددة رياضيًا.
بالنسبة لجميع الوصفات، عرفنا مجموعات محددة تتوافق معها. بالنسبة لنماذج الوصفات، عرفنا ارتباطها بالمجموعات الحقيقية. وعلى هذا وجدنا الرابط بين هذين النوعين من العناقيد.
وكان الأكثر وضوحا فئة الحلويات، التي تم تضمينها في الموضوع 0 و 1، التي تم إنشاؤها بواسطة نموذج الموضوع. بالإضافة إلى الحلويات، لا توجد تقريبًا أي فئات أخرى حول هذه المواضيع، مما يشير إلى إمكانية فصل الحلويات بسهولة عن فئات الأطباق الأخرى. بالإضافة إلى ذلك، يحتوي كل موضوع على فصل يصفه بشكل أفضل. وهذا يعني أن نماذجنا نجحت في تحديد المعنى غير الواضح لـ "الذوق" رياضيًا.
استخدمنا شبكتين عصبيتين متكررتين لإنشاء وصفات جديدة. ولهذا الغرض، افترضنا أنه يوجد في مساحة الوصفة بأكملها مساحة فرعية تتوافق مع وصفات البيتزا. ولكي تتعلم الشبكة العصبية كيفية إنشاء وصفات بيتزا جديدة، كان علينا إيجاد هذا الفضاء الجزئي.
تشبه هذه المهمة الترميز التلقائي للصور، حيث نقدم الصورة كمتجه منخفض الأبعاد. يمكن أن تحتوي هذه المتجهات على الكثير من المعلومات المحددة حول الصورة.
على سبيل المثال، يمكن لهذه المتجهات تخزين معلومات حول لون شعر الشخص في خلية منفصلة للتعرف على الوجه في الصورة. لقد اخترنا هذا النهج على وجه التحديد بسبب الخصائص الفريدة للفضاء الجزئي المخفي.
لتحديد الفضاء الجزئي للبيتزا، قمنا بتشغيل وصفات البيتزا من خلال شبكتين عصبيتين متكررتين. تلقى الأول وصفة البيتزا ووجد تمثيلها كناقل كامن. أما الثاني فقد تلقى ناقلًا كامنًا من الشبكة العصبية الأولى وقام بإنشاء وصفة بناءً عليه. يجب أن تتطابق الوصفات عند إدخال الشبكة العصبية الأولى وعند إخراج الشبكة العصبية الثانية.
وبهذه الطريقة، تعلمت شبكتان عصبيتان كيفية تحويل وصفة الناقل الكامن بشكل صحيح. وبناء على ذلك، تمكنا من العثور على مساحة فرعية مخفية، والتي تتوافق مع مجموعة كاملة من وصفات البيتزا.
عندما قمنا بحل مشكلة إنشاء وصفة بيتزا، كان علينا إضافة معايير التركيب الجزيئي إلى النموذج. للقيام بذلك، استخدمنا نتائج دراسة مشتركة لعلماء من كامبريدج والعديد من الجامعات الأمريكية.
وجدت الدراسة أن المكونات ذات الأزواج الجزيئية الأكثر شيوعًا تشكل أفضل المجموعات. لذلك، عند إنشاء الوصفة، فضلت الشبكة العصبية المكونات ذات البنية الجزيئية المماثلة.
ونتيجة لذلك، تعلمت شبكتنا العصبية إنشاء وصفات البيتزا. من خلال ضبط المعاملات، يمكن للشبكة العصبية إنتاج وصفات كلاسيكية مثل المارجريتا أو البيبروني، ومثل هذه الوصفات غير العادية، إحداها هي قلب البيتزا المفتوحة المصدر.
لا | وصفة |
---|---|
1 | سبانخ، جبنة، طماطم، زيتون أسود، زيتون، ثوم، فلفل، ريحان، حمضيات، شمام، برعم، مخيض اللبن، ليمون، باس، جوز، روتاباجا |
2 | بصل، طماطم، زيتون، فلفل اسود، خبز، عجين |
3 | دجاج، بصل، زيتون أسود، جبنة، صلصة، طماطم، زيت زيتون، جبنة موزاريلا |
4 | طماطم، زبدة، جبنة كريمة، فلفل، زيت زيتون، جبنة، فلفل أسود، جبنة موزاريلا |
Open Source Pizza مرخص بموجب ترخيص MIT.
جولودياييف أرسيني، MIPT، سكولتيك، [email protected]
إيجور باريشنيكوف، سكولتيك، [email protected]