هذا مستودع للبيانات المستخدمة في ورق حائط الذاكرة والذكاء الاصطناعي. نقوم بالإبلاغ عن عدد المعلمات وحجم الميزة بالإضافة إلى إجمالي FLOPs للاستدلال/التدريب لنماذج SOTA في السيرة الذاتية وتعلم الكلام والبرمجة اللغوية العصبية.
نحن نركز في الغالب على حساب المقاييس المختلفة لنماذج المحولات، بدءًا من BERT FLOPs الأصلية للتدريب/الاستدلال، بالإضافة إلى معلماتها وبصمة الذاكرة. نقوم بعد ذلك بحساب نفس المقاييس لمختلف أشكال BERT كما هو مذكور في الجدول أدناه.
ملاحظة: يتم حساب إجمالي PFLOPs المطلوبة لتدريب كل نموذج باستخدام الإعداد المذكور في كل ورقة.
تاريخ | نموذج | حجم الرمز المميز | #بارامس | #سمات | استنتاج GFLOPs | تدريب PFLOPs |
---|---|---|---|---|---|---|
10/09/2014 | Seq2Seq | 11000 | ||||
06/12/2017 | محول | 512 | 65 م | 77 م | 54 | 23000 |
15/02/2018 | إلمو | 94 م | 3300 | |||
11/10/2018 | بيرت كبير | 512 | 330 م | 230 م | 340 | 250.000 |
11/06/2018 | جي بي تي-1 | 512 | 110 م | 85 م | 96 | 57000 |
14/02/2019 | جي بي تي-2 | 1024 | 1500 م | 2000 م | 3400 | |
26/07/2019 | روبرتا كبيرة | 512 | 1500 م | 2000 م | 3400 | 4,300,000 |
17/08/2019 | ميجاترون | 1024 | 8,300 م | 4,700 م | 18000 | 8,100,000 |
26/09/2019 | ألبرت XXL | 512 | 235 م | 450 م | 2500 | 31,000,000 |
13/02/2020 | مايكروسوفت تي-NLG | 1024 | 17,000 م | 5,700 م | 36000 | 28,000,000 |
23/03/2020 | إلكترا كبيرة | 128 | 330 م | 38 م | 79 | 3,100,000 |
28/05/2020 | جي بي تي-3 | 2048 | 175,000 م | 63,000 م | 740.000 | 310,000,000 |
30/06/2020 | جشارد | 600,000 م | ||||
20/06/2020 | بايدو ريكسيس-C | لا يوجد | 2,000,000م | لا يوجد | ~ يا (0.1) | لا يوجد |
20/06/2020 | بايدو ريكسيس-E | لا يوجد | 10,000,000م | لا يوجد | ~ يا (0.1) | لا يوجد |
يوضح الجدول أدناه المقاييس المختلفة لنماذج رؤية SOTA المختلفة، بما في ذلك دقة صورة الإدخال، وعدد المعلمات، وإجمالي الاستدلال GFLOPs، بالإضافة إلى إجمالي PFLOPs المطلوبة لتدريب كل نموذج.
تاريخ | نموذج | دقة الإدخال | #بارامس | استنتاج GFLOPs | تدريب PFLOPs |
---|---|---|---|---|---|
01/06/2012 | AlexNet | 227 × 227 | 61 م | 1.4 | 460 |
09/04/2014 | VGG-19 | 224 × 224 | 138 م | 39 | 11000 |
02/12/2015 | التأسيسV3 | 299 × 299 | 24 م | 5.7 | 100.000 |
12/10/2015 | ريسنيت152 | 224 × 224 | 55 م | 23 | 11000 |
26/02/2016 | التأسيسV4 | 299 × 299 | 82 م | 24.6 | |
07/10/2016 | اكسسيبشن | 299 × 299 | 23 م | 17 | 450.000 |
16/11/2016 | ResNeXt101 (64 × 4 د) | 224 × 224 | 83 م | 31 | 12000 |
03/12/2016 | دينسينت201 | 224 × 224 | 20 م | 8.9 | 2800 |
يوضح الجدول أدناه تفاصيل الذاكرة المطلوبة لتدريب نماذج SOTA المختلفة على مر السنين. يتضمن ذلك إجمالي الذاكرة المطلوبة لتخزين المعلمات، وقاعدة الذاكرة المرتبطة بخوارزمية التحسين، بالإضافة إلى ذاكرة التنشيط/الميزات.
سنة | نموذج | دقة الإدخال (طول الجملة) | حجم الدفعة | ذاكرة بارامز | محسن الذاكرة | ذاكرة التنشيط | إجمالي الذاكرة |
---|---|---|---|---|---|---|---|
2012 | AlexNet | 227 × 227 | 128 | 0.23 جيجابايت | 0.23 جيجابايت | 0.71 جيجابايت | 1.71 جيجابايت |
2014 | VGG19 | 224 × 224 | 64 | 0.54 جيجابايت | 0.54 جيجابايت | 4.64 جيجابايت | 5.72 جيجابايت |
2015 | ريسنيت152 | 224 × 224 | 32 | 0.22 جيجابايت | 0.22 جيجابايت | 5.14 جيجابايت | 5.58 جيجابايت |
2016 | دينسينت201 | 224 × 224 | 32 | 0.07 جيجابايت | 0.07 جيجابايت | 6.04 جيجابايت | 6.18 جيجابايت |
2016 | ResNeXt101 (64 × 4 د) | 224 × 224 | 32 | 0.31 جيجابايت | 0.31 جيجابايت | 7.34 جيجابايت | 7.96 جيجابايت |
2017 | محول كبير (WMT) | 512 | 6 | 1.02 جيجابايت | 2.04 جيجابايت | 11.78 جيجابايت | 14.84 جيجابايت |
2018 | بيرت كبير | 512 | 16 | 1.32 جيجابايت | 2.64 جيجابايت | 14.38 جيجابايت | 18.34 جيجابايت |
2019 | جي بي تي-2 | 2014 | 1 | 5.86 جيجابايت | 11.62 جيجابايت | 8.63 جيجابايت | 26.21 جيجابايت |
نحن نقدر ذلك إذا تفضلت بذكر الورقة التالية إذا وجدت المكتبة مفيدة لعملك:
Gholami A, Yao Z, Kim S, Mahoney MW, Keutzer K. AI and Memory Wall. RiseLab Medium Blog Post, University of Califonia Berkeley, 2021, March 29.
@article{gholami2020ai_and_memory_wall,
title={AI and Memory Wall},
author={ Gholami, Amir and Yao, Zhewei and Kim, Sehoon and Hooper, Coleman and Mahoney, Michael W, and Keutzer, Kurt},
journal={IEEE Micro Journal},
year={2024}
}