การดำเนินการของ Bayesian Additive Regression Trees (BART) ใน JAX
หากคุณไม่รู้ว่า BART คืออะไร แต่รู้จัก XGBoost ให้พิจารณา BART ว่าเป็น Bayesian XGBoost bartz ทำให้ BART ทำงานเร็วเท่ากับ XGBoost
BART เป็นเทคนิคการถดถอยแบบเบย์แบบไม่มีพารามิเตอร์ กำหนดตัวทำนายการฝึกอบรม
โมดูล Python นี้นำเสนอการใช้งาน BART ที่ทำงานบน GPU เพื่อประมวลผลชุดข้อมูลขนาดใหญ่ได้เร็วขึ้น มันยังดีกับ CPU อีกด้วย การใช้งาน BART อื่นๆ ส่วนใหญ่ใช้สำหรับ R และทำงานบน CPU เท่านั้น
บน CPU นั้น bartz จะทำงานที่ความเร็ว dbarts (การใช้งานที่เร็วที่สุดที่ฉันรู้) ถ้า n > 20,000 แต่ใช้หน่วยความจำ 1/20 บน GPU ความเร็วระดับพรีเมียมจะขึ้นอยู่กับขนาดตัวอย่าง สะดวกกว่า CPU เพียง n > 10,000 เท่านั้น ความเร็วสูงสุดในปัจจุบันคือ 200x บน Nvidia A100 และมีการสังเกตอย่างน้อย 2,000,000 ครั้ง
สมุดบันทึก Colab นี้รัน bartz โดยมีการสังเกต n = 100,000 ครั้ง, p = ตัวทำนาย 1,000 ตัว, ต้นไม้ 10,000 ต้นสำหรับการทำซ้ำ MCMC 1,000 ครั้งใน 5 นาที
บทความ: Petrillo (2024), "ต้นไม้การถดถอยแบบเสริมแบบเบย์ที่รวดเร็วมากบน GPU", arXiv:2410.23244
หากต้องการอ้างอิงซอฟต์แวร์โดยตรง รวมถึงเวอร์ชันเฉพาะ ให้ใช้ zenodo