خوارزميات التدقيق رهيبة
قائمة منسقة من الخوارزميات لتدقيق خوارزميات الصندوق الأسود. في الوقت الحاضر، يتم تشغيل العديد من الخوارزميات (التوصية، والتسجيل، والتصنيف) لدى مقدمي خدمات خارجيين، دون أن يكون لدى المستخدمين أو المؤسسات أي رؤى حول كيفية عملهم على بياناتهم. وبالتالي تنطبق خوارزميات التدقيق في هذه القائمة على هذا الإعداد، الذي صاغ إعداد "الصندوق الأسود"، حيث يرغب أحد المراجعين في الحصول على بعض المعلومات حول هذه الخوارزميات البعيدة.
يستعلم المستخدم عن خوارزمية بعيدة (على سبيل المثال، من خلال واجهات برمجة التطبيقات المتاحة)، لاستنتاج معلومات حول تلك الخوارزمية.
محتويات
- أوراق
- الأحداث ذات الصلة (المؤتمرات/ورش العمل)
أوراق
2024
- تدقيق التفسيرات المحلية أمر صعب - (NeurIPS) يعطي تعقيد الاستعلام (المحظور) لتدقيق التفسيرات.
- LLMs تهلوس الرسوم البيانية أيضًا: منظور هيكلي - (شبكات معقدة) تستعلم LLMs عن الرسوم البيانية المعروفة وتدرس الهلوسة الطوبولوجية. يقترح رتبة الهلوسة الهيكلية.
- تدقيق العدالة من خلال التعاون متعدد الوكلاء - (ECAI) يأخذ في الاعتبار وجود العديد من الوكلاء الذين يعملون معًا، حيث يقوم كل منهم بمراجعة نفس النظام الأساسي لمهام مختلفة.
- رسم خرائط مجال تدقيق الخوارزميات: مراجعة منهجية للأدبيات تحديد اتجاهات البحث والتباينات اللغوية والجغرافية - (Arxiv) مراجعة منهجية لدراسات تدقيق الخوارزمية وتحديد الاتجاهات في مناهجها المنهجية.
- FairProof: عدالة سرية وقابلة للتصديق للشبكات العصبية - (Arxiv) تقترح نموذجًا بديلاً للتدقيق التقليدي باستخدام أدوات التشفير مثل Zero-Knowledge Proofs؛ يعطي نظامًا يسمى FairProof للتحقق من عدالة الشبكات العصبية الصغيرة.
- في ظل عمليات التلاعب، هل يصعب تدقيق بعض نماذج الذكاء الاصطناعي؟ - (SATML) يربط صعوبة عمليات تدقيق الصندوق الأسود بقدرة النماذج المستهدفة باستخدام تعقيد Rademacher.
- هجمات استدلال العضوية المحسنة ضد نماذج تصنيف اللغة - (ICLR) تقدم إطار عمل لتشغيل هجمات استدلال العضوية ضد المصنف، في وضع التدقيق.
- تدقيق العدالة عن طريق الرهان - (Neurips) [الكود] طرق متسلسلة تسمح بالمراقبة المستمرة للبيانات الواردة من مصنف الصندوق الأسود أو التراجع.
2023
- تدقيق الخصوصية من خلال تشغيل تدريبي واحد (1) - (NeurIPS - أفضل ورقة) مخطط لمراجعة أنظمة التعلم الآلي الخاصة التفاضلية من خلال تشغيل تدريبي واحد.
- تدقيق العدالة في ظل عدم الوعي من خلال الاستدلال المخالف للواقع - (معالجة المعلومات وإدارتها) يوضح كيفية الكشف عما إذا كان نموذج الصندوق الأسود، الذي يتوافق مع اللوائح، لا يزال متحيزًا أم لا.
- XAudit: نظرة نظرية على التدقيق مع التوضيحات - (Arxiv) إضفاء الطابع الرسمي على دور التفسيرات في التدقيق والتحقيق في ما إذا كانت التفسيرات النموذجية يمكن أن تساعد في عمليات التدقيق وكيف ذلك.
- مواكبة نماذج اللغة: التفاعل بين المتانة والتحيز في بيانات ونماذج NLI - (Arxiv) يقترح طريقة لتمديد العمر الافتراضي لمجموعات بيانات التدقيق باستخدام نماذج اللغة نفسها؛ يجد أيضًا مشكلات في مقاييس تدقيق التحيز الحالية ويقترح بدائل - تسلط هذه البدائل الضوء على أن هشاشة النموذج أدت بشكل سطحي إلى زيادة درجات التحيز السابقة.
- تدقيق العدالة عبر الإنترنت من خلال التحسين التكراري - (KDD) يوفر عملية تكيفية تعمل على أتمتة استنتاج الضمانات الاحتمالية المرتبطة بتقدير مقاييس العدالة.
- سرقة خوارزميات فك تشفير نماذج اللغة - (CCS) سرقة النوع والمعلمات الفائقة لخوارزميات فك التشفير الخاصة بماجستير القانون.
- نمذجة جحور الأرانب على YouTube - (SNAM) تصمم ديناميكيات الاصطياد للمستخدمين في ثقوب الأرانب على YouTube، وتوفر مقياسًا لهذه العلبة.
- تدقيق خوارزمية توصيات YouTube لفقاعات تصفية المعلومات الخاطئة - (المعاملات على أنظمة التوصية) ما يلزم "لتفجير الفقاعة"، أي إرجاع غلاف الفقاعة من التوصيات.
- تدقيق تصنيف أعمال Yelp ومراجعة التوصيات من خلال عدسة العدالة - (Arxiv) يتولى تدقيق عدالة تصنيف أعمال Yelp ومراجعة أنظمة التوصيات، مع التكافؤ الديموغرافي والتعرض والاختبارات الإحصائية مثل الانحدار الخطي واللوجستي الكمي.
- الربح السري: إثبات سري للتدريب العادل للأشجار - (ICLR) يقترح خوارزميات تعلم شجرة القرار العادل إلى جانب بروتوكولات إثبات المعرفة الصفرية للحصول على دليل على العدالة على الخادم الذي تم تدقيقه.
- توسيع النطاق: اكتشاف فعال للباب الخلفي على مستوى الإدخال من خلال تحليل اتساق التنبؤ المقيس - (ICLR) يأخذ في الاعتبار الكشف عن الباب الخلفي ضمن إعداد الصندوق الأسود في تطبيقات التعلم الآلي كخدمة (MLaaS).
2022
- ذو وجهين: التدقيق التنافسي لأنظمة التعرف على الوجوه التجارية - (ICWSM) يقوم بإجراء تدقيق عدائي على واجهات برمجة التطبيقات ومجموعات البيانات لأنظمة متعددة، مما يؤدي إلى عدد من الملاحظات المثيرة للقلق.
- توسيع نطاق عمليات تدقيق محرك البحث: رؤى عملية لتدقيق الخوارزمية - (مجلة علوم المعلومات) (الكود) تدقيق محركات بحث متعددة باستخدام سلوك التصفح المحاكى مع وكلاء افتراضيين.
- نكهة الجير: نحو مسافات نموذجية مستقلة عن الهندسة المعمارية - (ICLR) يقيس المسافة بين نموذجين بعيدين باستخدام LIME.
- التدقيق العادل النشط - (ICML) دراسات خوارزميات التدقيق القائمة على الاستعلام والتي يمكنها تقدير التكافؤ الديموغرافي لنماذج تعلم الآلة بطريقة فعالة للاستعلام.
- انظر إلى التباين! تفسيرات فعالة للصندوق الأسود مع تحليل الحساسية القائم على Sobol - توفر مؤشرات Sobol (NeurIPS) طريقة فعالة لالتقاط التفاعلات عالية الترتيب بين مناطق الصورة ومساهماتها في تنبؤ الشبكة العصبية (الصندوق الأسود) من خلال عدسة التباين.
- يتم سماع أصداءك: التتبع والتوصيف واستهداف الإعلانات في النظام البيئي لسماعات Amazon الذكية - (arxiv) يستنتج وجود رابط بين نظام Amazon Echo وخوارزمية استهداف الإعلانات.
2021
- عندما يكون الحكم أيضًا لاعبًا: التحيز في توصيات منتجات العلامات التجارية الخاصة في أسواق التجارة الإلكترونية - (FAccT) هل تحصل منتجات العلامات التجارية الخاصة بأمازون على حصة غير عادلة من التوصيات، وبالتالي فهي تتمتع بميزة مقارنة بمنتجات الطرف الثالث؟
- تدقيق الخوارزميات اليومية: فهم قوة المستخدمين اليوميين في مواجهة السلوكيات الخوارزمية الضارة - (CHI) يجعل حالة "التدقيق الخوارزمي اليومي" من قبل المستخدمين.
- تدقيق نماذج التنبؤ بالصندوق الأسود للامتثال لتقليل البيانات - (NeurIPS) يقيس مستوى تقليل البيانات الذي يلبيه نموذج التنبؤ باستخدام عدد محدود من الاستعلامات.
- ضبط السجل بشكل أكثر استقامة على حظر الظل - (INFOCOM) (الكود) يأخذ في الاعتبار إمكانية حظر الظل في تويتر (أي خوارزمية الصندوق الأسود المعتدل)، ويقيس احتمالية عدة فرضيات.
- استخراج بيانات التدريب من نماذج اللغات الكبيرة - (أمان USENIX) استخراج تسلسلات نصية حرفية من بيانات التدريب الخاصة بنموذج GPT-2.
- FairLens: تدقيق أنظمة دعم القرار السريري في الصندوق الأسود - (معالجة المعلومات وإدارتها) يقدم خط أنابيب لاكتشاف وشرح مشكلات العدالة المحتملة في DSS السريري، من خلال مقارنة مقاييس التباين المختلفة في التصنيف متعدد العلامات.
- تدقيق التحيز الخوارزمي على تويتر - (WebSci).
- تنفيذ خوارزمية بايزي: تقدير الخصائص الحسابية لوظائف الصندوق الأسود باستخدام المعلومات المتبادلة - (ICML) إجراء تحسين مقيد بالميزانية وافتراضي لاستخراج الخصائص من خوارزمية الصندوق الأسود.
2020
- Black-Box Ripper: نسخ نماذج الصندوق الأسود باستخدام خوارزميات تطورية توليدية - (NeurIPS) يكرر وظيفة نموذج الصندوق الأسود العصبي، ولكن بدون حدود لكمية الاستعلامات (عبر مخطط المعلم/الطالب والبحث التطوري) .
- تدقيق مسارات التطرف على - (FAT*) يدرس إمكانية الوصول إلى القنوات الراديكالية من بعضها البعض، باستخدام مسارات عشوائية على توصيات القنوات الثابتة.
- استخراج النموذج التنافسي على الشبكات العصبية الرسومية - (ورشة عمل AAAAI حول التعلم العميق على الرسوم البيانية: المنهجيات والتطبيقات) يقدم استخراج نموذج GNN ويقدم نهجًا أوليًا لذلك.
- تواجه إمكانية الشرح عن بعد مشكلة الحارس - (Nature Machine Intelligence المجلد 2، الصفحات 529–539) (الكود) يُظهر الاستحالة (مع طلب واحد) أو صعوبة اكتشافها تكمن في تفسيرات قرار الذكاء الاصطناعي عن بعد.
- GeoDA: إطار هندسي لهجمات الصندوق الأسود العدائية - (CVPR) (Code) يصنع أمثلة عدائية لخداع النماذج، في إعداد الصندوق الأسود النقي (بدون تدرجات، فئة مستنبطة فقط).
- لعبة التقليد: اختيار الخوارزمية عن طريق استغلال موصي الصندوق الأسود - (Netys) (الكود) تحديد خوارزمية التوصية المحلية عن طريق تقليد قرار خوارزمية بعيدة وأفضل تدريبًا.
- تدقيق أنظمة معالجة الأخبار: دراسة حالة لفحص المنطق الخوارزمي والتحريري في Apple News - (ICWSM) دراسة تدقيقية لـ Apple News كنظام معالجة أخبار اجتماعية تقنية (قسم القصص الشائعة).
- خوارزميات التدقيق: حول الدروس المستفادة ومخاطر تقليل البيانات - (AIES) تدقيق عملي لتطبيق توصيات الرفاهية الذي طورته شركة Telefónica (في الغالب على التحيز).
- استخراج بيانات التدريب من نماذج اللغة الكبيرة - (arxiv) ينفذ هجوم استخراج بيانات التدريب لاستعادة أمثلة التدريب الفردية عن طريق الاستعلام عن نموذج اللغة.
2019
- خياطة الحدود العدائية للعلامات المائية للشبكة العصبية عن بعد - (الحوسبة العصبية والتطبيقات) (التنفيذ البديل) تحقق مما إذا كان نموذج التعلم الآلي عن بعد هو نموذج "مسرب": من خلال طلبات واجهة برمجة التطبيقات القياسية إلى نموذج بعيد، استخرج (أو لا) صفر- علامة مائية بت، تم إدراجها لوضع علامة مائية على النماذج القيمة (على سبيل المثال، الشبكات العصبية العميقة الكبيرة).
- الشبكات المقلدة: سرقة وظائف نماذج الصندوق الأسود - (CVPR) اسأل إلى أي مدى يمكن للخصم أن يسرق وظائف مثل هذه النماذج "الضحية" بناءً على تفاعلات الصندوق الأسود فقط: الصورة الواردة، والتنبؤات بالخارج.
- فتح الصندوق الأسود: تدقيق خوارزمية أهم الأخبار في Google - (Flairs-32) تدقيق لوحة أهم الأخبار في Google والتي توفر رؤى حول اختياراتها الخوارزمية لاختيار ناشر الأخبار وتصنيفه
- جعل هجمات التهرب من الصندوق الأسود المستهدفة فعالة وفعالة - (arXiv) يبحث في كيفية استخدام الخصم لميزانية الاستعلام الخاصة به على النحو الأمثل لهجمات التهرب المستهدفة ضد الشبكات العصبية العميقة.
- التعلم عبر الإنترنت لقياس توافق الحوافز في مزادات الإعلانات - (WWW) يقيس آليات (IC) المتوافقة مع الحوافز (الندم) لمنصات مزادات الصندوق الأسود.
- TamperNN: الكشف الفعال عن التلاعب بالشبكات العصبية المنتشرة - خوارزميات (ISSRE) لصياغة المدخلات التي يمكنها اكتشاف العبث بنموذج مصنف يتم تنفيذه عن بعد.
- هجمات استخراج نموذج الشبكة العصبية في الأجهزة الطرفية عن طريق سماع التلميحات المعمارية - (arxiv) من خلال الحصول على أحداث الوصول إلى الذاكرة من تطفل الناقل، وتحديد تسلسل الطبقة بواسطة نموذج LSTM-CTC، واتصال طوبولوجيا الطبقة وفقًا لنمط الوصول إلى الذاكرة، وتقدير أبعاد الطبقة تحت ومع القيود المفروضة على حجم البيانات، فإنه يوضح أنه يمكن استعادة بنية الشبكة المشابهة بدقة لنقطة انطلاق الهجوم
- سرقة المعرفة من الشبكات العصبية العميقة المحمية باستخدام البيانات المركبة غير المسماة - (ICNN) الطريقة المركبة التي يمكن استخدامها لمهاجمة واستخراج المعرفة من نموذج الصندوق الأسود حتى لو كان يخفي تمامًا مخرجاته الناعمة القصوى.
- انقلاب الشبكة العصبية في بيئة الخصومة عبر محاذاة المعرفة الخلفية - (CCS) نهج الانعكاس النموذجي في بيئة الخصم استنادًا إلى تدريب نموذج انعكاس يعمل بمثابة معكوس للنموذج الأصلي. مع عدم وجود معرفة كاملة ببيانات التدريب الأصلية، لا يزال من الممكن إجراء انعكاس دقيق من خلال تدريب نموذج الانعكاس على عينات مساعدة مأخوذة من توزيع بيانات أكثر عمومية.
2018
- تفسيرات مضادة دون فتح الصندوق الأسود: القرارات الآلية واللائحة العامة لحماية البيانات - (مجلة هارفارد للقانون والتكنولوجيا) لشرح قرار بشأن x، ابحث عن مخالف للواقع: أقرب نقطة إلى x التي تغير القرار.
- التقطير والمقارنة: تدقيق نماذج الصندوق الأسود باستخدام تقطير النماذج الشفافة - (AIES) يتعامل مع نماذج الصندوق الأسود كمعلمين، ويقوم بتدريب نماذج الطلاب الشفافة لتقليد درجات المخاطر التي تحددها نماذج الصندوق الأسود.
- نحو هندسة عكسية للشبكات العصبية ذات الصندوق الأسود - (ICLR) (الكود) استنتج المعلمات الفائقة الداخلية (على سبيل المثال، عدد الطبقات، نوع التنشيط غير الخطي) لنموذج الشبكة العصبية البعيدة من خلال تحليل أنماط استجابتها لمدخلات معينة.
- هجمات استكشافية مدفوعة بالبيانات على مصنفات الصندوق الأسود في مجالات الخصومة - (الحوسبة العصبية) عكس نماذج المصنف عن بعد للمهندسين (على سبيل المثال، للتهرب من اختبار CAPTCHA).
- xGEMs: إنشاء أمثلة لشرح نماذج الصندوق الأسود - (arXiv) يبحث عن التحيز في نموذج الصندوق الأسود من خلال تدريب نموذج توليدي ضمني غير خاضع للرقابة. ثم يلخص سلوك نموذج الصندوق الأسود كميا عن طريق إزعاج عينات البيانات على طول مجمع البيانات.
- شبكات التعلم من أوجه التشابه بين العقدة العشوائية القائمة على المشي - (NIPS) عكس الرسوم البيانية من خلال ملاحظة بعض أوقات التنقل العشوائية.
- تحديد عائلة التعلم الآلي من نماذج الصندوق الأسود - (CAEPIA) يحدد نوع نموذج التعلم الآلي الذي يقف وراء التنبؤات التي يتم إرجاعها.
- سرقة الشبكات العصبية عبر قنوات التوقيت الجانبية - (arXiv) سرقة/تقريب نموذج من خلال هجمات التوقيت باستخدام الاستعلامات.
- مقلد CNN: سرقة المعرفة عن طريق إقناع الاعتراف ببيانات عشوائية غير مصنفة - (IJCNN) (كود) سرقة معرفة نماذج الصندوق الأسود (CNN) عن طريق الاستعلام عنها بصور طبيعية عشوائية (ImageNet وMicrosoft-COCO).
- تدقيق التخصيص وتكوين صفحات نتائج محرك البحث ذات الصلة بالسياسة - (WWW) امتداد Chrome للمشاركين في استطلاعات الرأي وجمع صفحات نتائج محرك البحث (SERPs) واقتراحات الإكمال التلقائي لدراسة التخصيص والتكوين.
2017
- كشف كتب الطبخ التأثير: الهندسة العكسية للتأثير الطوبولوجي في خدمات تصنيف الأقران - (CSCW) يهدف إلى تحديد مقاييس المركزية المستخدمة في خدمة تصنيف الأقران.
- الوجه الطوبولوجي للتوصية: النماذج والتطبيقات للكشف عن التحيز - (الشبكات المعقدة) تقترح إطارًا للكشف عن التحيز للعناصر الموصى بها للمستخدمين.
- هجمات استنتاج العضوية ضد نماذج التعلم الآلي - (ندوة حول الأمن والخصوصية) بالنظر إلى نموذج التعلم الآلي والسجل، حدد ما إذا كان هذا السجل قد تم استخدامه كجزء من مجموعة بيانات التدريب الخاصة بالنموذج أم لا.
- هجمات الصندوق الأسود العملية ضد التعلم الآلي - (آسيا CCS) فهم مدى ضعف الخدمة عن بعد لهجمات التصنيف الخصومية.
2016
- الشفافية الخوارزمية عبر تأثير المدخلات الكمية: النظرية والتجارب مع أنظمة التعلم - (IEEE S&P) تقييم التأثير الفردي والمشترك والهامشي للميزات على نموذج باستخدام قيم شابلي.
- تدقيق نماذج الصندوق الأسود للتأثير غير المباشر - (ICDM) تقييم تأثير المتغير على نموذج الصندوق الأسود عن طريق إزالته "بذكاء" من مجموعة البيانات والنظر في فجوة الدقة
- إسقاط الميزات المتعامدة التكراري لتشخيص التحيز في نماذج الصندوق الأسود - (ورشة عمل FATML) يقوم بترتيب الميزات لتحليل نماذج الصندوق الأسود
- التحيز في الأسواق المستقلة عبر الإنترنت: دليل من TaskRabbit - (ورشة عمل dat) يقيس تصنيف خوارزمية البحث الخاصة بـ TaskRabbit.
- سرقة نماذج التعلم الآلي عبر واجهات برمجة التطبيقات للتنبؤ - (Usenix Security) (الكود) تهدف إلى استخراج نماذج التعلم الآلي المستخدمة بواسطة الخدمات عن بعد.
- "لماذا يجب أن أثق بك؟" شرح تنبؤات أي مصنف - (arXiv) (الكود) يشرح نموذج مصنف الصندوق الأسود عن طريق أخذ عينات من مثيلات البيانات.
- العودة إلى الأسود: نحو تحليل الصندوق الأسود الرسمي للمطهرات والمرشحات - (الأمن والخصوصية) تحليل الصندوق الأسود للمطهرات والمرشحات.
- الشفافية الخوارزمية عبر تأثير المدخلات الكمية: النظرية والتجارب مع أنظمة التعلم - (الأمن والخصوصية) يقدم مقاييس تلتقط درجة تأثير المدخلات على مخرجات النظام المرصود.
- تحليل تجريبي للتسعير الخوارزمي في Amazon Marketplace - (WWW) (الكود) يطور منهجية لاكتشاف التسعير الخوارزمي، ويستخدمه تجريبيًا لتحليل مدى انتشاره وسلوكه في Amazon Marketplace.
2015
- التصديق على التأثير المتباين وإزالته - (SIGKDD) تقترح طرقًا قائمة على SVM للتأكد من عدم وجود تحيز وطرق لإزالة التحيزات من مجموعة البيانات.
- نظرة خاطفة تحت غطاء محرك السيارة Uber - (IMC) استنتج تفاصيل تنفيذ خوارزمية ارتفاع أسعار Uber.
2014
- نظرة خاطفة على الصندوق الأسود: استكشاف المصنفات عن طريق التوزيع العشوائي - (مجلة استخراج البيانات واكتشاف المعرفة) (الكود) يبحث عن مجموعات من الميزات التي يمكن تبديلها دون تغيير تسمية الإخراج للعينات المتوقعة
- الأشعة السينية: تعزيز شفافية الويب من خلال الارتباط التفاضلي - (أمان USENIX) يقوم بتدقيق بيانات الملف الشخصي للمستخدم التي تم استخدامها لاستهداف إعلان أو توصية أو سعر معين.
2013
- قياس التخصيص في بحث الويب - (WWW) تطوير منهجية لقياس التخصيص في نتائج بحث الويب.
- التدقيق: التعلم النشط مع تكاليف الاستعلام المعتمدة على النتائج - (NIPS) يتعلم من مصنف ثنائي يدفع فقط مقابل التسميات السلبية.
2012
- استراتيجيات الاستعلام لتجنب المصنفات المحدبة - (JMLR) طرق التهرب من المصنفات المحدبة. يأخذ في الاعتبار تعقيد التهرب.
2008
- أوراكل الخصوصية: نظام للعثور على تسربات التطبيقات باستخدام الاختبار التفاضلي للصندوق الأسود - (CCS) أوراكل الخصوصية: نظام يكشف عن تسرب التطبيقات للمعلومات الشخصية في عمليات النقل إلى الخوادم البعيدة.
2005
- التعلم التنافسي - (KDD) الهندسة العكسية للمصنفات الخطية عن بعد، باستخدام استعلامات العضوية.
الأحداث ذات الصلة
2024
- المؤتمر الدولي الأول للتدقيق والذكاء الاصطناعي
- ورشة عمل تعلم الآلة القابلة للتنظيم (RegML'24)
2023
- دعم مشاركة المستخدم في اختبار الذكاء الاصطناعي وتدقيقه ومنافسته (تدقيق الذكاء الاصطناعي لمستخدم CSCW)
- ورشة عمل حول التدقيق الخوارزمي للخوارزميات (WAAA)
- ورشة عمل تعلم الآلة القابلة للتنظيم (RegML'23)