ดาวน์โหลด machine learning for trading - machine learning for trading ดาวน์โหลดซอร์สโค้ด

ML สำหรับการซื้อขาย - ฉบับ ^ที่ 2

หนังสือเล่มนี้มีจุดมุ่งหมายเพื่อแสดงให้เห็นว่า ML สามารถเพิ่มมูลค่าให้กับกลยุทธ์การซื้อขายแบบอัลกอริธึมในทางปฏิบัติแต่ครอบคลุมได้อย่างไร โดยครอบคลุมเทคนิค ML ที่หลากหลายตั้งแต่การถดถอยเชิงเส้นไปจนถึงการเรียนรู้การเสริมแรงเชิงลึก และสาธิตวิธีสร้าง ทดสอบย้อนกลับ และประเมินกลยุทธ์การซื้อขายที่ขับเคลื่อนโดยการคาดการณ์แบบจำลอง

ในสี่ส่วนมี 23 บทพร้อมภาคผนวก ครอบคลุม มากกว่า 800 หน้า :

ลักษณะสำคัญของการจัดหาข้อมูล วิศวกรรมคุณลักษณะทางการเงิน และการจัดการพอร์ตโฟลิโอ
การออกแบบและประเมินผล กลยุทธ์ระยะสั้นแบบยาวโดยใช้อัลกอริธึม ML แบบมีผู้ดูแลและไม่ได้รับการดูแล
วิธีดึงสัญญาณที่สามารถซื้อขายได้จาก ข้อมูลข้อความทางการเงิน เช่น เอกสารที่ยื่นต่อ SEC, ใบบันทึกการโทรเพื่อรับรายได้ หรือข่าวทางการเงิน
การใช้โมเดล การเรียนรู้เชิงลึก เช่น CNN และ RNN พร้อมตลาดและข้อมูลทางเลือก วิธีสร้างข้อมูลสังเคราะห์ด้วยเครือข่ายฝ่ายตรงข้ามที่สร้าง และการฝึกอบรมตัวแทนการค้าโดยใช้การเรียนรู้แบบเสริมกำลังเชิงลึก

การซื้อคืนนี้มี สมุดบันทึกมากกว่า 150 เล่ม ที่นำแนวคิด อัลกอริธึม และกรณีการใช้งานที่กล่าวถึงในหนังสือไปปฏิบัติจริง มีตัวอย่างมากมายที่แสดงว่า:

วิธีทำงานและแยกสัญญาณจากตลาด ข้อความพื้นฐานและทางเลือกและข้อมูลรูปภาพ
วิธีการฝึกอบรมและปรับแต่งแบบจำลองที่คาดการณ์ผลตอบแทนสำหรับสินทรัพย์ประเภทต่างๆ และขอบเขตการลงทุน รวมถึงวิธีทำซ้ำงานวิจัยที่เผยแพร่เมื่อเร็วๆ นี้ และ
วิธีการออกแบบ ทดสอบย้อนหลัง และประเมินกลยุทธ์การซื้อขาย

เรา ขอแนะนำให้ คุณทบทวนสมุดบันทึกขณะอ่านหนังสือ โดยปกติแล้วจะอยู่ในสถานะถูกดำเนินการและมักจะมีข้อมูลเพิ่มเติมที่ไม่รวมอยู่ในนั้นเนื่องจากข้อจำกัดด้านพื้นที่

นอกจากข้อมูลใน repo นี้แล้ว เว็บไซต์ของหนังสือยังประกอบด้วยบทสรุปบทและข้อมูลเพิ่มเติมอีกด้วย

เข้าร่วมชุมชน ML4T!

เพื่อให้ผู้อ่านถามคำถามเกี่ยวกับเนื้อหาและตัวอย่างโค้ดของหนังสือได้อย่างง่ายดาย ตลอดจนการพัฒนาและการนำกลยุทธ์และการพัฒนาอุตสาหกรรมของตนเองไปใช้ เราจึงเป็นเจ้าภาพแพลตฟอร์มออนไลน์

โปรดเข้าร่วมชุมชนของเราและเชื่อมต่อกับเพื่อนเทรดเดอร์ที่สนใจใช้ประโยชน์จาก ML สำหรับกลยุทธ์การซื้อขาย แบ่งปันประสบการณ์ของคุณ และเรียนรู้จากกันและกัน!

มีอะไรใหม่ในรุ่น ^ที่ 2?

ก่อนอื่น หนังสือเล่มนี้จะสาธิตวิธีที่คุณสามารถดึงสัญญาณจากแหล่งข้อมูลที่หลากหลาย และออกแบบกลยุทธ์การซื้อขายสำหรับสินทรัพย์ประเภทต่างๆ โดยใช้อัลกอริธึมการเรียนรู้แบบมีผู้ดูแล ไม่มีผู้ดูแล และเสริมกำลังที่หลากหลาย นอกจากนี้ยังให้ความรู้ทางคณิตศาสตร์และสถิติที่เกี่ยวข้องเพื่ออำนวยความสะดวกในการปรับแต่งอัลกอริทึมหรือการตีความผลลัพธ์ นอกจากนี้ยังครอบคลุมถึงภูมิหลังทางการเงินที่จะช่วยให้คุณทำงานกับตลาดและข้อมูลพื้นฐาน ดึงคุณสมบัติที่ให้ข้อมูล และจัดการประสิทธิภาพของกลยุทธ์การซื้อขาย

จากมุมมองเชิงปฏิบัติ ฉบับที่ 2 มุ่งหวังเพื่อให้คุณมีความเข้าใจแนวความคิดและเครื่องมือในการพัฒนากลยุทธ์การซื้อขายแบบอิง ML ของคุณเอง ด้วยเหตุนี้ จึงวางกรอบ ML ให้เป็นองค์ประกอบสำคัญในกระบวนการมากกว่าแบบฝึกหัดเดี่ยวๆ โดยแนะนำ ML แบบ end-to-end สำหรับเวิร์กโฟลว์การซื้อขาย ตั้งแต่การจัดหาข้อมูล วิศวกรรมฟีเจอร์ และการเพิ่มประสิทธิภาพโมเดล ไปจนถึงการออกแบบกลยุทธ์และการทดสอบย้อนกลับ

โดยเฉพาะอย่างยิ่ง ขั้นตอนการทำงาน ML4T เริ่มต้นด้วยการสร้างแนวคิดสำหรับจักรวาลการลงทุนที่มีการกำหนดชัดเจน การรวบรวมข้อมูลที่เกี่ยวข้อง และการแยกคุณลักษณะที่ให้ข้อมูล นอกจากนี้ยังเกี่ยวข้องกับการออกแบบ ปรับแต่ง และประเมินโมเดล ML ที่เหมาะกับงานคาดการณ์ด้วย สุดท้ายนี้ จำเป็นต้องมีการพัฒนากลยุทธ์การซื้อขายเพื่อดำเนินการกับสัญญาณคาดการณ์ของแบบจำลอง ตลอดจนการจำลองและประเมินผลการปฏิบัติงานของข้อมูลในอดีตโดยใช้เครื่องมือทดสอบย้อนหลัง เมื่อคุณตัดสินใจที่จะดำเนินกลยุทธ์อัลกอริธึมในตลาดจริง คุณจะพบว่าตัวเองต้องวนซ้ำขั้นตอนการทำงานนี้ซ้ำแล้วซ้ำเล่าเพื่อรวมข้อมูลใหม่และสภาพแวดล้อมที่เปลี่ยนแปลงไป

การเน้นย้ำในฉบับที่สองเกี่ยวกับเวิร์กโฟลว์ ML4t แปลเป็นบทใหม่เกี่ยวกับการทดสอบย้อนกลับเชิงกลยุทธ์ ภาคผนวกใหม่ที่อธิบายปัจจัยอัลฟ่าที่แตกต่างกันกว่า 100 รายการ และการใช้งานจริงใหม่ๆ มากมาย นอกจากนี้เรายังเขียนเนื้อหาส่วนใหญ่ที่มีอยู่ใหม่เพื่อความชัดเจนและอ่านง่าย

ขณะนี้แอปพลิเคชันการซื้อขายใช้แหล่งข้อมูลที่หลากหลายกว่าราคาหุ้นสหรัฐรายวัน รวมถึงหุ้นต่างประเทศและ ETF นอกจากนี้ยังสาธิตวิธีใช้ ML สำหรับกลยุทธ์ระหว่างวันด้วยข้อมูลหุ้นความถี่นาที นอกจากนี้ยังขยายความครอบคลุมของแหล่งข้อมูลทางเลือกเพื่อรวมเอกสารที่ยื่นต่อ SEC สำหรับการวิเคราะห์ความรู้สึกและการคาดการณ์ผลตอบแทน รวมถึงภาพถ่ายดาวเทียมเพื่อจำแนกการใช้ประโยชน์ที่ดิน

นวัตกรรมอีกอย่างหนึ่งของฉบับพิมพ์ครั้งที่สองคือการทำซ้ำแอปพลิเคชันการซื้อขายหลายรายการที่เพิ่งเผยแพร่ในวารสารชั้นนำ:

บทที่ 18 สาธิตวิธีใช้โครงข่ายประสาทเทียมแบบหมุนกับอนุกรมเวลาที่แปลงเป็นรูปแบบรูปภาพสำหรับการทำนายผลตอบแทนโดยอิงจาก Sezer และ Ozbahoglu (2018)
บทที่ 20 แสดงวิธีการแยกปัจจัยเสี่ยงที่มีเงื่อนไขตามลักษณะหุ้นสำหรับการกำหนดราคาสินทรัพย์โดยใช้ตัวเข้ารหัสอัตโนมัติตามแบบจำลองราคาสินทรัพย์ตัวเข้ารหัสอัตโนมัติโดย Shihao Gu, Bryan T. Kelly และ Dacheng Xiu (2019) และ
บทที่ 21 แสดงวิธีสร้างข้อมูลการฝึกอบรมสังเคราะห์โดยใช้เครือข่าย Generative Adversarial Networks โดยอิงตาม Time-series Generative Adversarial Networks โดย Jinsung Yoon, Daniel Jarrett และ Mihaela van der Schaar (2019)

ขณะนี้แอปพลิเคชันทั้งหมดใช้ซอฟต์แวร์เวอร์ชันล่าสุดที่มีอยู่ (ในขณะที่เขียน) เช่น pandas 1.0 และ TensorFlow 2.2 นอกจากนี้ยังมี Zipline เวอร์ชันที่ปรับแต่งเองซึ่งทำให้ง่ายต่อการรวมการคาดการณ์โมเดลการเรียนรู้ของเครื่องเมื่อออกแบบกลยุทธ์การซื้อขาย

การติดตั้ง แหล่งข้อมูล และรายงานข้อผิดพลาด

ตัวอย่างโค้ดอาศัยไลบรารี Python ที่หลากหลายจากโดเมนวิทยาศาสตร์ข้อมูลและการเงิน

ไม่จำเป็นต้องลองติดตั้งไลบรารีทั้งหมดพร้อมกัน เนื่องจากจะเพิ่มโอกาสที่จะเกิดปัญหาข้อขัดแย้งของเวอร์ชัน แต่เราขอแนะนำให้คุณติดตั้งไลบรารีที่จำเป็นสำหรับบทเฉพาะในขณะที่คุณดำเนินการต่อไป

อัปเดตมีนาคม 2565: zipline-reloaded , pyfolio-reloaded , alphalens-reloaded และ empyrical-reloaded พร้อมใช้งานแล้วในช่อง conda-forge ช่อง ml4t มีเฉพาะเวอร์ชันที่ล้าสมัยและจะถูกลบออกเร็วๆ นี้

อัปเดตเมษายน 2021: ด้วยการอัปเดต Zipline ทำให้ไม่จำเป็นต้องใช้ Docker อีกต่อไป คำแนะนำในการติดตั้งตอนนี้อ้างอิงถึงไฟล์สภาพแวดล้อมเฉพาะ OS ที่ควรช่วยลดความยุ่งยากในการใช้งานโน้ตบุ๊กของคุณ

อัปเดตกุมภาพันธ์ 2021: ตัวอย่างโค้ดรีลีส 2.0 อัปเดตสภาพแวดล้อม conda ที่อิมเมจ Docker จัดทำเป็น Python 3.8, Pandas 1.2 และ TensorFlow 1.2 และอื่นๆ อีกมากมาย สภาพแวดล้อมการทดสอบย้อนกลับของ Zipline ด้วยตอนนี้ใช้ Python 3.6

ไดเร็กทอรีการติดตั้งประกอบด้วยคำแนะนำโดยละเอียดเกี่ยวกับการตั้งค่าและการใช้อิมเมจ Docker เพื่อเรียกใช้โน้ตบุ๊ก นอกจากนี้ยังมีไฟล์การกำหนดค่าสำหรับการตั้งค่าสภาพแวดล้อม conda ต่างๆ และติดตั้งแพ็คเกจที่ใช้ในโน้ตบุ๊กลงบนเครื่องของคุณโดยตรงหากคุณต้องการ (และพร้อมที่จะก้าวไปอีกขั้นโดยขึ้นอยู่กับระบบของคุณ)
หากต้องการดาวน์โหลดและประมวลผลแหล่งข้อมูลจำนวนมากที่ใช้ในหนังสือเล่มนี้ล่วงหน้า โปรดดูคำแนะนำในไฟล์ README ควบคู่ไปกับสมุดบันทึกต่างๆ ในไดเร็กทอรีข้อมูล

หากคุณประสบปัญหาในการติดตั้งสภาพแวดล้อม ดาวน์โหลดข้อมูล หรือเรียกใช้โค้ด โปรดแจ้ง ปัญหา GitHub ใน repo (ที่นี่) มีการอธิบายการทำงานกับปัญหา GitHub ไว้ที่นี่

อัปเดต : คุณสามารถดาวน์โหลดข้อมูล algoseek ที่ใช้ในหนังสือได้ที่นี่ ดูคำแนะนำสำหรับการประมวลผลล่วงหน้าในบทที่ 2 และตัวอย่างระหว่างวันด้วยแบบจำลองการเร่งการไล่ระดับสีในบทที่ 12

อัปเดต : ไดเร็กทอรีตัวเลขมีแผนภูมิสีที่ใช้ในหนังสือ

โครงร่างและสรุปบท

หนังสือเล่มนี้มีสี่ส่วนที่กล่าวถึงความท้าทายต่างๆ ที่เกิดขึ้นเมื่อจัดหาและทำงานร่วมกับตลาด การจัดหาข้อมูลพื้นฐานและทางเลือก การพัฒนาโซลูชัน ML สำหรับงานคาดการณ์ต่างๆ ในบริบทการซื้อขาย และการออกแบบและประเมินกลยุทธ์การซื้อขายที่อาศัยสัญญาณคาดการณ์ที่สร้างโดย โมเดล ML

ไดเร็กทอรีสำหรับแต่ละบทประกอบด้วย README พร้อมข้อมูลเพิ่มเติมเกี่ยวกับเนื้อหา ตัวอย่างโค้ด และทรัพยากรเพิ่มเติม

ส่วนที่ 1: จากข้อมูลสู่การพัฒนากลยุทธ์

01 การเรียนรู้ของเครื่องเพื่อการซื้อขาย: จากแนวคิดสู่การดำเนินการ
02 ข้อมูลตลาดและข้อมูลพื้นฐาน: แหล่งที่มาและเทคนิค
03 ข้อมูลทางเลือกสำหรับการเงิน: หมวดหมู่และกรณีการใช้งาน
04 วิศวกรรมคุณสมบัติทางการเงิน: วิธีการวิจัยปัจจัยอัลฟ่า
05 การเพิ่มประสิทธิภาพพอร์ตโฟลิโอและการประเมินประสิทธิภาพ

ส่วนที่ 2: การเรียนรู้ของเครื่องเพื่อการซื้อขาย: พื้นฐาน

06 กระบวนการเรียนรู้ของเครื่อง
07 โมเดลเชิงเส้น: จากปัจจัยเสี่ยงไปจนถึงการคาดการณ์ผลตอบแทน
08 ขั้นตอนการทำงาน ML4T: จากแบบจำลองไปจนถึงการทดสอบย้อนกลับเชิงกลยุทธ์
09 แบบจำลองอนุกรมเวลาสำหรับการพยากรณ์ความผันผวนและการอนุญาโตตุลาการทางสถิติ
10 Bayesian ML: อัตราส่วนชาร์ปแบบไดนามิกและการซื้อขายคู่
11 Random Forests: กลยุทธ์ระยะสั้นระยะสั้นสำหรับหุ้นญี่ปุ่น
12 ส่งเสริมกลยุทธ์การซื้อขายของคุณ
13 ปัจจัยเสี่ยงที่ขับเคลื่อนด้วยข้อมูลและการจัดสรรสินทรัพย์ด้วยการเรียนรู้แบบไม่มีผู้ดูแล

ส่วนที่ 3: การประมวลผลภาษาธรรมชาติสำหรับการซื้อขาย

14 ข้อมูลข้อความสำหรับการซื้อขาย: การวิเคราะห์ความเชื่อมั่น
15 หัวข้อการสร้างแบบจำลอง: สรุปข่าวทางการเงิน
การฝังคำ 16 คำสำหรับ Earnings Calls และการยื่น SEC

ส่วนที่ 4: การเรียนรู้เชิงลึกและการเสริมกำลัง

17 การเรียนรู้เชิงลึกเพื่อการซื้อขาย
18 CNN สำหรับอนุกรมเวลาทางการเงินและภาพดาวเทียม
19 RNN สำหรับอนุกรมเวลาหลายตัวแปรและการวิเคราะห์ความเชื่อมั่น
ตัวเข้ารหัสอัตโนมัติ 20 ตัวสำหรับปัจจัยความเสี่ยงแบบมีเงื่อนไขและการกำหนดราคาสินทรัพย์
21 Generative Adversarial Nets สำหรับข้อมูลอนุกรมเวลาสังเคราะห์
22 การเรียนรู้การเสริมกำลังเชิงลึก: การสร้างตัวแทนการค้า
23 ข้อสรุปและขั้นตอนถัดไป
24 ภาคผนวก - ห้องสมุดปัจจัยอัลฟ่า

ส่วนที่ 1: จากข้อมูลสู่การพัฒนากลยุทธ์

ส่วนแรกเป็นกรอบการทำงานสำหรับการพัฒนากลยุทธ์การซื้อขายที่ขับเคลื่อนโดยการเรียนรู้ของเครื่อง (ML) โดยมุ่งเน้นไปที่ข้อมูลที่ขับเคลื่อนอัลกอริธึมและกลยุทธ์ ML ที่กล่าวถึงในหนังสือเล่มนี้ สรุปวิธีวิศวกรรมและประเมินคุณสมบัติที่เหมาะสมสำหรับโมเดล ML และวิธีการจัดการและวัดประสิทธิภาพของพอร์ตโฟลิโอในขณะที่ดำเนินการกลยุทธ์การซื้อขาย

01 การเรียนรู้ของเครื่องเพื่อการซื้อขาย: จากแนวคิดสู่การดำเนินการ

บทนี้สำรวจแนวโน้มของอุตสาหกรรมที่นำไปสู่การเกิดขึ้นของ ML ในฐานะแหล่งที่มาของความได้เปรียบทางการแข่งขันในอุตสาหกรรมการลงทุน นอกจากนี้เรายังจะดูว่า ML เหมาะกับกระบวนการลงทุนตรงไหนเพื่อเปิดใช้กลยุทธ์การซื้อขายแบบอัลกอริทึม

โดยเฉพาะอย่างยิ่งครอบคลุมหัวข้อต่อไปนี้:

แนวโน้มสำคัญเบื้องหลังการเพิ่มขึ้นของ ML ในอุตสาหกรรมการลงทุน
การออกแบบและการดำเนินการกลยุทธ์การซื้อขายที่ใช้ประโยชน์จาก ML
กรณีการใช้งานยอดนิยมสำหรับ ML ในการซื้อขาย

02 ข้อมูลตลาดและข้อมูลพื้นฐาน: แหล่งที่มาและเทคนิค

บทนี้จะแสดงวิธีการทำงานกับตลาดและข้อมูลพื้นฐาน และอธิบายแง่มุมที่สำคัญของสภาพแวดล้อมที่สะท้อนให้เห็น ตัวอย่างเช่น ความคุ้นเคยกับประเภทคำสั่งต่างๆ และโครงสร้างพื้นฐานการซื้อขายไม่เพียงแต่สำคัญสำหรับการตีความข้อมูลเท่านั้น แต่ยังรวมถึงการออกแบบการจำลองการทดสอบย้อนหลังอย่างถูกต้องอีกด้วย นอกจากนี้เรายังสาธิตวิธีใช้ Python เพื่อเข้าถึงและจัดการข้อมูลการซื้อขายและงบการเงิน

ตัวอย่างที่ใช้งานได้จริงสาธิตวิธีการทำงานกับข้อมูลการซื้อขายจากข้อมูล Tick ของ NASDAQ และข้อมูลแถบนาทีของ Algoseek พร้อมด้วยชุดคุณลักษณะที่หลากหลายซึ่งรวบรวมไดนามิกของอุปสงค์-อุปทาน ซึ่งเราจะใช้สำหรับกลยุทธ์ระหว่างวันที่ใช้ ML ในภายหลัง นอกจากนี้เรายังครอบคลุมถึง API ของผู้ให้บริการข้อมูลต่างๆ และวิธีแหล่งที่มาของข้อมูลงบการเงินจาก SEC

โดยเฉพาะอย่างยิ่งบทนี้ครอบคลุมถึง:

ข้อมูลตลาดสะท้อนถึงโครงสร้างของสภาพแวดล้อมการซื้อขายอย่างไร
การทำงานกับข้อมูลการซื้อขายระหว่างวันและราคาเสนอราคาที่ความถี่นาที
การสร้าง สมุดคำสั่งจำกัด ใหม่จากข้อมูลเห็บโดยใช้ NASDAQ ITCH
การสรุปข้อมูลเห็บโดยใช้แท่งประเภทต่างๆ
การทำงานกับ เอกสารอิเล็กทรอนิกส์ ที่เข้ารหัสด้วย eXtensible Business Reporting Language (XBRL)
การแยกวิเคราะห์และรวมตลาดและข้อมูลพื้นฐานเพื่อสร้างซีรี่ส์ P/E
วิธีเข้าถึงตลาดและแหล่งข้อมูลพื้นฐานต่างๆ โดยใช้ Python

03 ข้อมูลทางเลือกสำหรับการเงิน: หมวดหมู่และกรณีการใช้งาน

บทนี้สรุปหมวดหมู่และกรณีการใช้งานข้อมูลทางเลือก อธิบายเกณฑ์ในการประเมินแหล่งที่มาและผู้ให้บริการจำนวนมาก และสรุปภาพรวมของตลาดในปัจจุบัน

นอกจากนี้ยังสาธิตวิธีสร้างชุดข้อมูลทางเลือกโดยการคัดลอกเว็บไซต์ เช่น การรวบรวมบันทึกการโทรเพื่อรับรายได้เพื่อใช้กับการประมวลผลภาษาธรรมชาติ (NLP) และอัลกอริธึมการวิเคราะห์ความรู้สึกในส่วนที่สามของหนังสือ

โดยเฉพาะอย่างยิ่ง บทนี้ครอบคลุมถึง:

แหล่งสัญญาณใหม่ใดเกิดขึ้นระหว่างการปฏิวัติข้อมูลทางเลือก
วิธีที่บุคคล ธุรกิจ และเซ็นเซอร์สร้างชุดข้อมูลทางเลือกที่หลากหลาย
หมวดหมู่ที่สำคัญและผู้ให้บริการข้อมูลทางเลือก
การประเมินว่าข้อมูลทางเลือกที่มีเพิ่มขึ้นอย่างรวดเร็วสามารถนำมาใช้ในการซื้อขายได้อย่างไร
การทำงานกับข้อมูลทางเลือกใน Python เช่น โดยการคัดลอกอินเทอร์เน็ต

04 วิศวกรรมคุณสมบัติทางการเงิน: วิธีการวิจัยปัจจัยอัลฟ่า

หากคุณคุ้นเคยกับ ML อยู่แล้ว คุณจะรู้ว่าวิศวกรรมฟีเจอร์เป็นองค์ประกอบสำคัญสำหรับการคาดการณ์ที่ประสบความสำเร็จ อย่างน้อยก็มีความสำคัญไม่แพ้กันในโดเมนการซื้อขาย ซึ่งนักวิจัยด้านวิชาการและอุตสาหกรรมได้ตรวจสอบมานานหลายทศวรรษว่าอะไรขับเคลื่อนตลาดและราคาสินทรัพย์ และฟีเจอร์ใดที่ช่วยอธิบายหรือทำนายการเคลื่อนไหวของราคา

บทนี้สรุปประเด็นสำคัญในการวิจัยนี้เพื่อเป็นจุดเริ่มต้นในการแสวงหาปัจจัยอัลฟ่าของคุณเอง นอกจากนี้ยังนำเสนอเครื่องมือที่จำเป็นในการคำนวณและทดสอบปัจจัยอัลฟ่า โดยเน้นว่าไลบรารี NumPy, pandas และ TA-Lib อำนวยความสะดวกในการจัดการข้อมูลได้อย่างไร และนำเสนอเทคนิคการปรับให้เรียบยอดนิยม เช่น เวฟเล็ตและตัวกรองคาลมานที่ช่วยลดสัญญาณรบกวนในข้อมูล หลังจากอ่านแล้วคุณจะรู้เกี่ยวกับ:

ปัจจัยประเภทใดบ้างที่มีอยู่ เหตุใดจึงทำงาน และวิธีการวัดผล
การสร้างปัจจัยอัลฟ่าโดยใช้ NumPy, pandas และ TA-Lib
วิธีลดสัญญาณรบกวนโดยใช้เวฟเล็ตและตัวกรองคาลมาน
การใช้ Zipline เพื่อทดสอบปัจจัยอัลฟ่าแต่ละรายการและหลายปัจจัย
วิธีใช้ Alphalens เพื่อประเมินประสิทธิภาพการคาดการณ์

05 การเพิ่มประสิทธิภาพพอร์ตโฟลิโอและการประเมินประสิทธิภาพ

ปัจจัยอัลฟ่าสร้างสัญญาณว่ากลยุทธ์อัลกอริธึมแปลงเป็นการซื้อขาย ซึ่งในทางกลับกันจะสร้างตำแหน่งยาวและสั้น ผลตอบแทนและความเสี่ยงของพอร์ตโฟลิโอที่ได้จะเป็นตัวกำหนดว่ากลยุทธ์นั้นตรงตามวัตถุประสงค์การลงทุนหรือไม่

มีหลายวิธีในการเพิ่มประสิทธิภาพพอร์ตการลงทุน ซึ่งรวมถึงการประยุกต์ใช้การเรียนรู้ของเครื่อง (ML) เพื่อเรียนรู้ความสัมพันธ์แบบลำดับชั้นระหว่างสินทรัพย์ และถือเป็นส่วนเสริมหรือทดแทนเมื่อออกแบบโปรไฟล์ความเสี่ยงของพอร์ตโฟลิโอ บทนี้ครอบคลุมถึง:

วิธีวัดความเสี่ยงและผลตอบแทนของพอร์ตการลงทุน
การจัดการน้ำหนักพอร์ตโฟลิโอโดยใช้การเพิ่มประสิทธิภาพความแปรปรวนเฉลี่ยและทางเลือกอื่น
การใช้การเรียนรู้ของเครื่องเพื่อเพิ่มประสิทธิภาพการจัดสรรสินทรัพย์ในบริบทพอร์ตโฟลิโอ
จำลองการซื้อขายและสร้างพอร์ตโฟลิโอตามปัจจัยอัลฟ่าโดยใช้ Zipline
วิธีประเมินประสิทธิภาพพอร์ตโฟลิโอโดยใช้ pyfolio

ส่วนที่ 2: การเรียนรู้ของเครื่องเพื่อการซื้อขาย: พื้นฐาน

ส่วนที่สองครอบคลุมอัลกอริธึมการเรียนรู้ขั้นพื้นฐานแบบมีผู้ดูแลและไม่ได้รับการดูแล และแสดงให้เห็นการประยุกต์ใช้กับกลยุทธ์การซื้อขาย นอกจากนี้ยังแนะนำแพลตฟอร์ม Quantopian ที่ช่วยให้คุณสามารถใช้ประโยชน์และรวมข้อมูลและเทคนิค ML ที่พัฒนาขึ้นในหนังสือเล่มนี้เพื่อใช้กลยุทธ์อัลกอริทึมที่ดำเนินการซื้อขายในตลาดจริง

06 กระบวนการเรียนรู้ของเครื่อง

บทนี้จะเริ่มต้นส่วนที่ 2 ซึ่งแสดงให้เห็นว่าคุณสามารถใช้โมเดล ML แบบมีผู้ดูแลและไม่ได้รับผู้ดูแลในการซื้อขายได้อย่างไร เราจะอธิบายสมมติฐานและกรณีการใช้งานของแต่ละรุ่นก่อนที่เราจะสาธิตการใช้งานที่เกี่ยวข้องโดยใช้ไลบรารี Python ต่างๆ

มีหลายแง่มุมที่โมเดลเหล่านี้และการใช้งานมีเหมือนกัน บทนี้ครอบคลุมประเด็นทั่วไปเหล่านี้ เพื่อให้เราสามารถมุ่งเน้นไปที่การใช้งานเฉพาะรุ่นในบทต่อไปนี้ โดยจะกำหนดขั้นตอนโดยการสรุปวิธีการกำหนด ฝึกอบรม ปรับแต่ง และประเมินประสิทธิภาพเชิงคาดการณ์ของโมเดล ML เป็นเวิร์กโฟลว์ที่เป็นระบบ เนื้อหาประกอบด้วย:

การเรียนรู้จากข้อมูลแบบมีผู้ดูแลและไม่ได้รับการดูแลทำงานอย่างไร
การฝึกอบรมและการประเมินโมเดลการเรียนรู้แบบมีผู้สอนสำหรับงานการถดถอยและการจำแนกประเภท
การแลกเปลี่ยนความแปรปรวนของอคติส่งผลต่อประสิทธิภาพในการคาดการณ์อย่างไร
วิธีการวินิจฉัยและแก้ไขข้อผิดพลาดในการคาดคะเนเนื่องจากการโอเวอร์ฟิต
การใช้การตรวจสอบข้ามเพื่อเพิ่มประสิทธิภาพไฮเปอร์พารามิเตอร์โดยเน้นที่ข้อมูลอนุกรมเวลา
เหตุใดข้อมูลทางการเงินจึงต้องได้รับการดูแลเพิ่มเติมเมื่อทำการทดสอบนอกตัวอย่าง

07 โมเดลเชิงเส้น: จากปัจจัยเสี่ยงไปจนถึงการคาดการณ์ผลตอบแทน

โมเดลเชิงเส้นเป็นเครื่องมือมาตรฐานสำหรับการอนุมานและการทำนายในบริบทการถดถอยและการจำแนกประเภท โมเดลการกำหนดราคาสินทรัพย์ที่ใช้กันอย่างแพร่หลายจำนวนมากอาศัยการถดถอยเชิงเส้น โมเดลที่ทำให้เป็นมาตรฐาน เช่น การถดถอยแบบ Ridge และ Lasso มักจะให้ผลการทำนายที่ดีกว่า โดยการจำกัดความเสี่ยงของการถดถอยมากเกินไป การใช้งานการถดถอยทั่วไปจะระบุปัจจัยเสี่ยงที่ขับเคลื่อนผลตอบแทนของสินทรัพย์เพื่อจัดการความเสี่ยงหรือคาดการณ์ผลตอบแทน ในทางกลับกัน ปัญหาการจำแนกประเภทรวมถึงการพยากรณ์ราคาแบบทิศทาง

บทที่ 07 ครอบคลุมหัวข้อต่อไปนี้:

วิธีการทำงานของการถดถอยเชิงเส้นและสมมติฐานที่ใช้
การฝึกอบรมและการวินิจฉัยตัวแบบการถดถอยเชิงเส้น
การใช้การถดถอยเชิงเส้นเพื่อทำนายผลตอบแทนของหุ้น
ใช้การทำให้เป็นมาตรฐานเพื่อปรับปรุงประสิทธิภาพการคาดการณ์
การถดถอยโลจิสติกทำงานอย่างไร
การแปลงการถดถอยเป็นปัญหาการจำแนกประเภท

08 ขั้นตอนการทำงาน ML4T: จากแบบจำลองไปจนถึงการทดสอบย้อนกลับเชิงกลยุทธ์

บทนี้นำเสนอมุมมองตั้งแต่ต้นจนจบในการออกแบบ จำลอง และประเมินกลยุทธ์การซื้อขายที่ขับเคลื่อนโดยอัลกอริธึม ML เราจะสาธิตรายละเอียดวิธีทดสอบย้อนกลับกลยุทธ์ที่ขับเคลื่อนด้วย ML ในบริบทของตลาดในอดีตโดยใช้ไลบรารี Python backtrader และ Zipline ท้ายที่สุดแล้ว ขั้นตอนการทำงานของ ML4T มีเป้าหมายเพื่อรวบรวมหลักฐานจากข้อมูลในอดีตที่ช่วยตัดสินใจว่าจะปรับใช้กลยุทธ์ที่เป็นตัวเลือกในตลาดจริงและทำให้ทรัพยากรทางการเงินตกอยู่ในความเสี่ยงหรือไม่ การจำลองกลยุทธ์ของคุณอย่างสมจริงจำเป็นต้องแสดงถึงวิธีการทำงานของตลาดความปลอดภัยและการดำเนินการซื้อขายอย่างซื่อสัตย์ นอกจากนี้ ยังมีแง่มุมด้านระเบียบวิธีหลายประการที่ต้องให้ความสนใจเพื่อหลีกเลี่ยงผลลัพธ์ที่ลำเอียงและการค้นพบที่ผิดพลาดซึ่งจะนำไปสู่การตัดสินใจลงทุนที่ไม่ดี

โดยเฉพาะอย่างยิ่ง หลังจากอ่านบทนี้แล้ว คุณจะสามารถ:

วางแผนและดำเนินการทดสอบย้อนกลับเชิงกลยุทธ์แบบ end-to-end
ทำความเข้าใจและหลีกเลี่ยงข้อผิดพลาดร้ายแรงเมื่อนำการทดสอบย้อนกลับไปใช้
อภิปรายการข้อดีและข้อเสียของกลไกการทดสอบย้อนกลับแบบเวกเตอร์และแบบขับเคลื่อนด้วยเหตุการณ์
ระบุและประเมินองค์ประกอบสำคัญของ backtester ที่ขับเคลื่อนด้วยเหตุการณ์
ออกแบบและดำเนินการเวิร์กโฟลว์ ML4T โดยใช้แหล่งข้อมูลที่ความถี่นาทีและรายวัน โดยฝึกฝนโมเดล ML แยกกันหรือเป็นส่วนหนึ่งของการทดสอบย้อนหลัง
ใช้ Zipline และ backtrader เพื่อออกแบบและประเมินกลยุทธ์ของคุณเอง

09 แบบจำลองอนุกรมเวลาสำหรับการพยากรณ์ความผันผวนและการอนุญาโตตุลาการทางสถิติ

บทนี้เน้นที่แบบจำลองที่แยกสัญญาณจากประวัติอนุกรมเวลาเพื่อทำนายค่าในอนาคตสำหรับอนุกรมเวลาเดียวกัน แบบจำลองอนุกรมเวลามีการใช้กันอย่างแพร่หลายเนื่องจากมิติเวลาที่มีอยู่ในการซื้อขาย โดยนำเสนอเครื่องมือในการวินิจฉัยลักษณะอนุกรมเวลา เช่น ความคงที่ และการแยกคุณสมบัติที่จับรูปแบบที่อาจเป็นประโยชน์ นอกจากนี้ยังแนะนำแบบจำลองอนุกรมเวลาแบบตัวแปรเดียวและแบบหลายตัวแปรเพื่อคาดการณ์ข้อมูลมาโครและรูปแบบความผันผวน สุดท้ายนี้ จะอธิบายว่า Cointegration ระบุแนวโน้มทั่วไปในอนุกรมเวลาได้อย่างไร และแสดงวิธีพัฒนากลยุทธ์การซื้อขายคู่เงินตามแนวคิดที่สำคัญนี้

โดยเฉพาะอย่างยิ่งจะครอบคลุมถึง:

วิธีใช้การวิเคราะห์อนุกรมเวลาเพื่อเตรียมและแจ้งขั้นตอนการสร้างแบบจำลอง
การประมาณและวินิจฉัยแบบจำลองการถดถอยอัตโนมัติและค่าเฉลี่ยเคลื่อนที่ที่ไม่แปรผัน
การสร้างแบบจำลองเฮเทอโรสเคดาสติกซิตี้แบบมีเงื่อนไขแบบออโต้รีเกรสซีฟ (ARCH) เพื่อทำนายความผันผวน
วิธีสร้างโมเดลเวกเตอร์ถดถอยอัตโนมัติหลายตัวแปร
การใช้ Cointegration เพื่อพัฒนากลยุทธ์การซื้อขายคู่

10 Bayesian ML: อัตราส่วนชาร์ปแบบไดนามิกและการซื้อขายคู่

สถิติแบบเบย์ช่วยให้เราสามารถระบุปริมาณความไม่แน่นอนเกี่ยวกับเหตุการณ์ในอนาคต และปรับปรุงการประมาณการด้วยวิธีที่เป็นหลักการเมื่อมีข้อมูลใหม่เข้ามา แนวทางแบบไดนามิกนี้ปรับให้เข้ากับลักษณะการพัฒนาของตลาดการเงินได้เป็นอย่างดี วิธีการแบบเบย์สำหรับ ML ช่วยให้เกิดข้อมูลเชิงลึกใหม่ๆ เกี่ยวกับความไม่แน่นอนเกี่ยวกับตัวชี้วัดทางสถิติ การประมาณค่าพารามิเตอร์ และการคาดการณ์ แอปพลิเคชันมีตั้งแต่การจัดการความเสี่ยงที่ละเอียดยิ่งขึ้นไปจนถึงการอัปเดตแบบไดนามิกของแบบจำลองการคาดการณ์ที่รวมการเปลี่ยนแปลงในสภาพแวดล้อมของตลาด

โดยเฉพาะอย่างยิ่ง บทนี้ครอบคลุมถึง:

สถิติแบบเบย์นำไปใช้กับการเรียนรู้ของเครื่องอย่างไร
การเขียนโปรแกรมความน่าจะเป็นด้วย PyMC3
การกำหนดและฝึกอบรมโมเดลการเรียนรู้ของเครื่องโดยใช้ PyMC3
วิธีดำเนินการวิธีการสุ่มตัวอย่างที่ล้ำสมัยเพื่อดำเนินการอนุมานโดยประมาณ
แอปพลิเคชัน Bayesian ML เพื่อคำนวณอัตราส่วน Sharpe แบบไดนามิก คู่แบบไดนามิกสำหรับการซื้อขายอัตราส่วนการป้องกันความเสี่ยง และประมาณการความผันผวนแบบสุ่ม

11 Random Forests: กลยุทธ์ระยะสั้นระยะสั้นสำหรับหุ้นญี่ปุ่น

บทนี้ใช้แผนผังการตัดสินใจและฟอเรสต์สุ่มในการซื้อขาย แผนผังการตัดสินใจเรียนรู้กฎจากข้อมูลที่เข้ารหัสความสัมพันธ์อินพุตและเอาท์พุตแบบไม่เชิงเส้น เราแสดงวิธีฝึกอบรมแผนผังการตัดสินใจเพื่อคาดการณ์ปัญหาการถดถอยและการจัดหมวดหมู่ แสดงภาพและตีความกฎที่โมเดลเรียนรู้ และปรับแต่งไฮเปอร์พารามิเตอร์ของโมเดลเพื่อเพิ่มประสิทธิภาพการแลกเปลี่ยนอคติ-ความแปรปรวน และป้องกันการใส่มากเกินไป

ส่วนที่สองของบทนี้จะแนะนำแบบจำลองทั้งมวลที่รวมแผนผังการตัดสินใจหลายแบบในลักษณะสุ่มเพื่อสร้างการทำนายเดียวโดยมีข้อผิดพลาดต่ำกว่า ปิดท้ายด้วยกลยุทธ์ระยะสั้นระยะยาวสำหรับหุ้นญี่ปุ่นโดยอิงจากสัญญาณการซื้อขายที่สร้างโดยแบบจำลองฟอเรสต์แบบสุ่ม

โดยย่อ บทนี้ครอบคลุมถึง:

ใช้แผนผังการตัดสินใจสำหรับการถดถอยและการจำแนกประเภท
รับข้อมูลเชิงลึกจากแผนผังการตัดสินใจและแสดงภาพกฎที่เรียนรู้จากข้อมูล
ทำความเข้าใจว่าเหตุใดโมเดลทั้งมวลจึงมีแนวโน้มที่จะให้ผลลัพธ์ที่เหนือกว่า
ใช้การรวมบูตสแตรปเพื่อจัดการกับความท้าทายที่มากเกินไปของแผนผังการตัดสินใจ
ฝึกฝน ปรับแต่ง และตีความป่าแบบสุ่ม
ใช้ฟอเรสต์แบบสุ่มเพื่อออกแบบและประเมินกลยุทธ์การซื้อขายที่ทำกำไร

12 ส่งเสริมกลยุทธ์การซื้อขายของคุณ

การเพิ่มการไล่ระดับสีเป็นอัลกอริธึมวงดนตรีทางเลือกที่อิงต้นไม้ซึ่งมักจะให้ผลลัพธ์ที่ดีกว่าฟอเรสต์แบบสุ่ม ความแตกต่างที่สำคัญคือการเพิ่มประสิทธิภาพจะแก้ไขข้อมูลที่ใช้ในการฝึกต้นไม้แต่ละต้นตามข้อผิดพลาดสะสมที่ทำโดยแบบจำลอง ในขณะที่ป่าสุ่มฝึกต้นไม้จำนวนมากอย่างอิสระโดยใช้ชุดย่อยของข้อมูลแบบสุ่ม การเพิ่มการดำเนินการตามลำดับและน้ำหนักข้อมูลใหม่ บทนี้แสดงให้เห็นว่าห้องสมุดล้ำสมัยบรรลุผลการดำเนินงานที่น่าประทับใจได้อย่างไร และใช้การเพิ่มประสิทธิภาพกับข้อมูลรายวันและความถี่สูงเพื่อทดสอบกลยุทธ์การซื้อขายระหว่างวัน

โดยเฉพาะอย่างยิ่ง เราจะครอบคลุมหัวข้อต่อไปนี้:

การเพิ่มประสิทธิภาพแตกต่างจากการบรรจุถุงอย่างไร และการเพิ่มการไล่ระดับสีมีวิวัฒนาการมาจากการเพิ่มแบบปรับตัวอย่างไร
ออกแบบและปรับแต่งโมเดลเร่งความเร็วแบบปรับได้และการไล่ระดับสีด้วย scikit-learn
สร้าง เพิ่มประสิทธิภาพ และประเมินโมเดลการเร่งการไล่ระดับสีบนชุดข้อมูลขนาดใหญ่ด้วยการใช้งานที่ล้ำสมัย XGBoost, LightGBM และ CatBoost
การตีความและรับข้อมูลเชิงลึกจากแบบจำลองการเร่งความเร็วแบบไล่ระดับสีโดยใช้ค่า SHAP และ
การใช้การเพิ่มประสิทธิภาพด้วยข้อมูลความถี่สูงเพื่อออกแบบกลยุทธ์ระหว่างวัน

13 ปัจจัยเสี่ยงที่ขับเคลื่อนด้วยข้อมูลและการจัดสรรสินทรัพย์ด้วยการเรียนรู้แบบไม่มีผู้ดูแล

การลดขนาดและการจัดกลุ่มเป็นงานหลักสำหรับการเรียนรู้แบบไม่มีผู้ดูแล:

การลดขนาดจะแปลงคุณลักษณะที่มีอยู่ให้เป็นชุดใหม่ที่เล็กลงพร้อมทั้งลดการสูญเสียข้อมูลให้เหลือน้อยที่สุด มีอัลกอริธึมมากมายที่แตกต่างกันไปตามวิธีการวัดการสูญเสียข้อมูล ไม่ว่าจะใช้การแปลงเชิงเส้นหรือไม่เชิงเส้น หรือข้อจำกัดที่กำหนดให้กับชุดคุณลักษณะใหม่
อัลกอริธึมการจัดกลุ่มจะระบุและจัดกลุ่มการสังเกตหรือคุณลักษณะที่คล้ายกัน แทนที่จะระบุคุณลักษณะใหม่ อัลกอริทึมต่างกันในการกำหนดความคล้ายคลึงของการสังเกตและการสันนิษฐานเกี่ยวกับกลุ่มผลลัพธ์

โดยเฉพาะอย่างยิ่ง บทนี้ครอบคลุมถึง:

วิธีที่การวิเคราะห์องค์ประกอบหลักและองค์ประกอบอิสระ (PCA และ ICA) ดำเนินการลดขนาดเชิงเส้น
การระบุปัจจัยเสี่ยงที่ขับเคลื่อนด้วยข้อมูลและพอร์ตโฟลิโอเฉพาะจากผลตอบแทนสินทรัพย์โดยใช้ PCA
การแสดงภาพข้อมูลมิติสูงแบบไม่เชิงเส้นอย่างมีประสิทธิภาพโดยใช้การเรียนรู้ที่หลากหลาย
การใช้ T-SNE และ UMAP เพื่อสำรวจข้อมูลภาพที่มีมิติสูง
วิธีการทำงานของอัลกอริธึมการจัดกลุ่มแบบเคมีน ลำดับชั้น และตามความหนาแน่น
การใช้การจัดกลุ่มแบบกลุ่มเพื่อสร้างพอร์ตการลงทุนที่แข็งแกร่งโดยมีความเท่าเทียมของความเสี่ยงแบบลำดับชั้น

ส่วนที่ 3: การประมวลผลภาษาธรรมชาติสำหรับการซื้อขาย

ข้อมูลข้อความมีเนื้อหามากมาย แต่ไม่มีรูปแบบที่มีโครงสร้าง ดังนั้นจึงต้องมีการประมวลผลล่วงหน้ามากขึ้น เพื่อให้อัลกอริธึมการเรียนรู้ของเครื่องสามารถแยกสัญญาณที่เป็นไปได้ได้ ความท้าทายที่สำคัญประกอบด้วยการแปลงข้อความเป็นรูปแบบตัวเลขเพื่อใช้โดยอัลกอริทึม ขณะเดียวกันก็แสดงความหมายหรือความหมายของเนื้อหาไปพร้อมๆ กัน

สามบทถัดไปครอบคลุมถึงเทคนิคต่างๆ ที่จับความแตกต่างทางภาษาที่มนุษย์เข้าใจได้ง่าย เพื่อให้อัลกอริธึมการเรียนรู้ของเครื่องสามารถตีความได้เช่นกัน

14 ข้อมูลข้อความสำหรับการซื้อขาย: การวิเคราะห์ความเชื่อมั่น

ข้อมูลข้อความมีเนื้อหามากมาย แต่ไม่มีโครงสร้างสูง ดังนั้นจึงต้องมีการประมวลผลล่วงหน้าเพิ่มเติมเพื่อเปิดใช้งานอัลกอริธึม ML เพื่อแยกข้อมูลที่เกี่ยวข้อง ความท้าทายหลักประกอบด้วยการแปลงข้อความเป็นรูปแบบตัวเลขโดยไม่สูญเสียความหมาย บทนี้แสดงวิธีการแสดงเอกสารเป็นเวกเตอร์ของการนับโทเค็นโดยการสร้างเมทริกซ์เงื่อนไขเอกสาร ซึ่งในทางกลับกัน จะทำหน้าที่เป็นอินพุตสำหรับการจำแนกข้อความและการวิเคราะห์ความรู้สึก นอกจากนี้ยังแนะนำอัลกอริทึม Naive Bayes และเปรียบเทียบประสิทธิภาพกับโมเดลเชิงเส้นและแบบต้นไม้

โดยเฉพาะอย่างยิ่งในบทนี้ครอบคลุมถึง:

ขั้นตอนการทำงานของ NLP พื้นฐานเป็นอย่างไร
วิธีสร้างไปป์ไลน์การแยกฟีเจอร์หลายภาษาโดยใช้ spaCy และ TextBlob
ดำเนินงาน NLP เช่น การแท็กส่วนของคำพูด หรือการจดจำเอนทิตีที่มีชื่อ
การแปลงโทเค็นเป็นตัวเลขโดยใช้เมทริกซ์ระยะเอกสาร
การจำแนกข่าวโดยใช้แบบจำลองเบส์ไร้เดียงสา
วิธีการวิเคราะห์ความคิดเห็นโดยใช้อัลกอริธึม ML ต่างๆ

15 หัวข้อการสร้างแบบจำลอง: สรุปข่าวทางการเงิน

บทนี้ใช้การเรียนรู้แบบไม่มีผู้ดูแลเพื่อสร้างโมเดลหัวข้อที่แฝงอยู่และแยกธีมที่ซ่อนอยู่ออกจากเอกสาร ธีมเหล่านี้สามารถสร้างข้อมูลเชิงลึกโดยละเอียดในคลังรายงานทางการเงินขนาดใหญ่ โมเดลหัวข้อจะสร้างคุณลักษณะข้อความที่ซับซ้อนและตีความได้โดยอัตโนมัติ ซึ่งจะช่วยแยกสัญญาณการซื้อขายจากคอลเลกชันข้อความที่กว้างขวาง ช่วยให้การตรวจสอบเอกสารเร็วขึ้น เปิดใช้งานการรวมกลุ่มของเอกสารที่คล้ายกัน และสร้างคำอธิบายประกอบที่เป็นประโยชน์สำหรับการสร้างแบบจำลองเชิงคาดการณ์ แอปพลิเคชันประกอบด้วยการระบุประเด็นสำคัญในการเปิดเผยของบริษัท สำเนาบันทึกการโทรเพื่อรับรายได้หรือสัญญา และคำอธิบายประกอบตามการวิเคราะห์ความรู้สึกหรือการใช้ผลตอบแทนของสินทรัพย์ที่เกี่ยวข้อง

โดยเฉพาะอย่างยิ่งครอบคลุมถึง:

การสร้างแบบจำลองหัวข้อมีการพัฒนาไปอย่างไร ประสบความสำเร็จอะไรบ้าง และเหตุใดจึงมีความสำคัญ
การลดมิติของ DTM โดยใช้การจัดทำดัชนีความหมายแฝง
แยกหัวข้อด้วยการวิเคราะห์ความหมายแฝงที่น่าจะเป็น (pLSA)
การจัดสรร Dirichlet ที่แฝงอยู่ (LDA) ช่วยปรับปรุง pLSA ให้กลายเป็นรูปแบบหัวข้อที่ได้รับความนิยมมากที่สุดได้อย่างไร
การแสดงภาพและประเมินผลการสร้างแบบจำลองหัวข้อ -
ใช้งาน LDA โดยใช้ scikit-learn และ gensim
วิธีใช้การสร้างแบบจำลองหัวข้อกับการรวบรวมการโทรเพื่อรับรายได้และบทความข่าวทางการเงิน

การฝังคำ 16 คำสำหรับ Earnings Calls และการยื่น SEC

บทนี้ใช้โครงข่ายประสาทเทียมเพื่อเรียนรู้การแสดงเวกเตอร์ของหน่วยความหมายแต่ละหน่วย เช่น คำหรือย่อหน้า เวกเตอร์เหล่านี้มีความหนาแน่นโดยมีรายการมูลค่าจริงเพียงไม่กี่ร้อยรายการ เมื่อเปรียบเทียบกับเวกเตอร์กระจัดกระจายที่มีมิติสูงกว่าของแบบจำลองถุงคำ เป็นผลให้เวกเตอร์เหล่านี้ฝังหรือค้นหาแต่ละหน่วยความหมายในปริภูมิเวกเตอร์ต่อเนื่อง

การฝังเป็นผลมาจากการฝึกโมเดลเพื่อเชื่อมโยงโทเค็นกับบริบท โดยมีประโยชน์ที่การใช้งานที่คล้ายกันบ่งบอกถึงเวกเตอร์ที่คล้ายกัน ด้วยเหตุนี้ พวกเขาจึงเข้ารหัสแง่มุมทางความหมาย เช่น ความสัมพันธ์ระหว่างคำต่างๆ ผ่านตำแหน่งที่สัมพันธ์กัน เป็นคุณสมบัติอันทรงพลังที่เราจะใช้กับโมเดลการเรียนรู้เชิงลึกในบทต่อไปนี้

โดยเฉพาะอย่างยิ่ง ในบทนี้ เราจะกล่าวถึง:

การฝังคำคืออะไร และคำเหล่านี้จับข้อมูลเชิงความหมายอย่างไร
วิธีรับและใช้คำเวกเตอร์ที่ผ่านการฝึกอบรมมาแล้ว
สถาปัตยกรรมเครือข่ายใดมีประสิทธิภาพมากที่สุดในการฝึกโมเดล word2vec
วิธีฝึกโมเดล word2vec โดยใช้ TensorFlow และ gensim
การแสดงภาพและการประเมินคุณภาพของเวกเตอร์คำ
วิธีฝึกโมเดล word2vec ในการยื่นต่อ SEC เพื่อคาดการณ์การเคลื่อนไหวของราคาหุ้น
doc2vec ขยาย word2vec และช่วยวิเคราะห์ความรู้สึกอย่างไร
เหตุใดกลไกความสนใจของหม้อแปลงจึงมีผลกระทบต่อ NLP เช่นนี้
วิธีปรับแต่งโมเดล BERT ที่ได้รับการฝึกอบรมล่วงหน้าเกี่ยวกับข้อมูลทางการเงิน

ส่วนที่ 4: การเรียนรู้เชิงลึกและการเสริมกำลัง

ส่วนที่สี่อธิบายและสาธิตวิธีใช้ประโยชน์จากการเรียนรู้เชิงลึกสำหรับการซื้อขายแบบอัลกอริทึม ความสามารถอันทรงพลังของอัลกอริธึมการเรียนรู้เชิงลึกในการระบุรูปแบบในข้อมูลที่ไม่มีโครงสร้าง ทำให้เหมาะอย่างยิ่งสำหรับข้อมูลทางเลือก เช่น รูปภาพและข้อความ

ตัวอย่างแอปพลิเคชันจะแสดงวิธีรวมข้อความและข้อมูลราคาเพื่อคาดการณ์รายได้ที่น่าประหลาดใจจากการยื่นฟ้องของ SEC สร้างอนุกรมเวลาสังเคราะห์เพื่อขยายจำนวนข้อมูลการฝึกอบรม และฝึกอบรมตัวแทนการค้าโดยใช้การเรียนรู้แบบเสริมกำลังเชิงลึก แอปพลิเคชันเหล่านี้หลายรายการทำซ้ำงานวิจัยที่ตีพิมพ์เมื่อเร็วๆ นี้ในวารสารชั้นนำ

17 การเรียนรู้เชิงลึกเพื่อการซื้อขาย

บทนี้นำเสนอโครงข่ายประสาทเทียมแบบฟีดฟอร์เวิร์ด (NN) และสาธิตวิธีฝึกโมเดลขนาดใหญ่อย่างมีประสิทธิภาพโดยใช้การแพร่กระจายกลับ ขณะเดียวกันก็จัดการความเสี่ยงของการติดตั้งมากเกินไป นอกจากนี้ยังแสดงวิธีใช้ TensorFlow 2.0 และ PyTorch และวิธีการเพิ่มประสิทธิภาพสถาปัตยกรรม NN เพื่อสร้างสัญญาณการซื้อขาย ในบทต่อไปนี้ เราจะสร้างรากฐานนี้เพื่อประยุกต์สถาปัตยกรรมที่หลากหลายกับแอปพลิเคชันการลงทุนที่แตกต่างกัน โดยมุ่งเน้นไปที่ข้อมูลทางเลือก ซึ่งรวมถึง NN ที่เกิดซ้ำซึ่งปรับแต่งให้เหมาะกับข้อมูลตามลำดับ เช่น อนุกรมเวลาหรือภาษาธรรมชาติ และ NN แบบสลับ ซึ่งเหมาะอย่างยิ่งกับข้อมูลภาพ นอกจากนี้เรายังจะครอบคลุมการเรียนรู้เชิงลึกแบบไม่มีผู้ดูแล เช่น วิธีสร้างข้อมูลสังเคราะห์โดยใช้ Generative Adversarial Networks (GAN) นอกจากนี้ เราจะหารือเกี่ยวกับการเรียนรู้แบบเสริมกำลังเพื่อฝึกอบรมตัวแทนที่เรียนรู้แบบโต้ตอบจากสภาพแวดล้อมของพวกเขา

โดยเฉพาะบทนี้จะกล่าวถึง

DL แก้ปัญหาความท้าทายด้าน AI ในโดเมนที่ซับซ้อนได้อย่างไร
นวัตกรรมสำคัญที่ทำให้ DL ได้รับความนิยมในปัจจุบัน
เครือข่ายฟีดฟอร์เวิร์ดเรียนรู้การเป็นตัวแทนจากข้อมูลอย่างไร
การออกแบบและการฝึกอบรม Deep Neural Networks (NN) ใน Python
การใช้งาน NN ระดับลึกโดยใช้ Keras, TensorFlow และ PyTorch
การสร้างและปรับแต่ง NN เชิงลึกเพื่อคาดการณ์ผลตอบแทนของสินทรัพย์
การออกแบบและทดสอบกลยุทธ์การซื้อขายย้อนหลังตามสัญญาณ NN แบบเจาะลึก

18 CNN สำหรับอนุกรมเวลาทางการเงินและภาพดาวเทียม

สถาปัตยกรรมของ CNN มีการพัฒนาอย่างต่อเนื่อง บทนี้อธิบาย Building Block ทั่วไปสำหรับแอปพลิเคชันที่ประสบความสำเร็จ สาธิตวิธีที่การถ่ายโอนการเรียนรู้สามารถเร่งการเรียนรู้ และวิธีการใช้ CNN สำหรับการตรวจจับวัตถุ CNN สามารถสร้างสัญญาณการซื้อขายจากรูปภาพหรือข้อมูลอนุกรมเวลา ข้อมูลดาวเทียมสามารถคาดการณ์แนวโน้มสินค้าโภคภัณฑ์ผ่านภาพถ่ายทางอากาศของพื้นที่เกษตรกรรม เหมือง หรือเครือข่ายการขนส่ง ภาพจากกล้องสามารถช่วยคาดการณ์กิจกรรมของผู้บริโภคได้ เราแสดงวิธีสร้าง CNN ที่จำแนกกิจกรรมทางเศรษฐกิจด้วยภาพถ่ายดาวเทียม CNN ยังสามารถส่งมอบผลลัพธ์การจำแนกอนุกรมเวลาคุณภาพสูงโดยใช้ประโยชน์จากความคล้ายคลึงทางโครงสร้างกับรูปภาพ และเราจะออกแบบกลยุทธ์ตามข้อมูลอนุกรมเวลาที่มีรูปแบบเหมือนรูปภาพ

โดยเฉพาะอย่างยิ่ง บทนี้ครอบคลุมถึง:

CNNs ใช้หน่วยการสร้างหลายอย่างเพื่อสร้างแบบจำลองข้อมูลที่มีลักษณะคล้ายกริดได้อย่างมีประสิทธิภาพ
การฝึกอบรมการปรับแต่งและการทำให้เป็นปกติ CNNs สำหรับภาพและข้อมูลอนุกรมเวลาโดยใช้ TensorFlow
ใช้การถ่ายโอนการเรียนรู้เพื่อปรับปรุง CNNs แม้จะมีข้อมูลน้อยลง
การออกแบบกลยุทธ์การซื้อขายโดยใช้การทำนายผลตอบแทนโดย CNN ที่ผ่านการฝึกอบรมเกี่ยวกับข้อมูลอนุกรมเวลาที่จัดรูปแบบเหมือนรูปภาพ
วิธีการจำแนกกิจกรรมทางเศรษฐกิจตามภาพดาวเทียม

19 RNN สำหรับอนุกรมเวลาหลายตัวแปรและการวิเคราะห์ความเชื่อมั่น

เครือข่าย Neural Recurrent (RNNS) คำนวณแต่ละเอาต์พุตเป็นฟังก์ชั่นของเอาต์พุตก่อนหน้าและข้อมูลใหม่การสร้างโมเดลที่มีหน่วยความจำที่แชร์พารามิเตอร์ข้ามกราฟการคำนวณที่ลึกกว่า สถาปัตยกรรมที่โดดเด่นรวมถึงหน่วยความจำระยะสั้นระยะยาว (LSTM) และหน่วยกำเริบที่มีรั้วรอบขอบชิด (GRU) ที่จัดการกับความท้าทายของการเรียนรู้การพึ่งพาระยะยาว RNNs ได้รับการออกแบบมาเพื่อแมปลำดับอินพุตหนึ่งรายการขึ้นไปกับลำดับเอาต์พุตอย่างน้อยหนึ่งลำดับและเหมาะอย่างยิ่งกับภาษาธรรมชาติ พวกเขายังสามารถนำไปใช้กับอนุกรมเวลา univariate และหลายตัวแปรเพื่อทำนายตลาดหรือข้อมูลพื้นฐาน บทนี้ครอบคลุมวิธีที่ RNN สามารถสร้างแบบจำลองข้อมูลข้อความทางเลือกโดยใช้คำที่ฝังอยู่ในบทที่ 16 เพื่อจำแนกความเชื่อมั่นที่แสดงในเอกสาร

โดยเฉพาะอย่างยิ่งที่อยู่บทนี้:

การเชื่อมต่อที่เกิดขึ้นซ้ำช่วยให้ RNNs จดจำรูปแบบและจำลองสถานะที่ซ่อนอยู่ได้อย่างไร
คลี่ออกและวิเคราะห์กราฟการคำนวณของ RNNS
หน่วยที่มีรั้วรอบขอบชิดเรียนรู้ที่จะควบคุมหน่วยความจำ RNN จากข้อมูลเพื่อเปิดใช้งานการพึ่งพาระยะยาว
การออกแบบและฝึกอบรม RNNs สำหรับอนุกรมเวลา univariate และหลายตัวแปรใน Python
วิธีการเรียนรู้การฝังคำหรือใช้เวกเตอร์คำที่ผ่านการฝึกอบรมเพื่อการวิเคราะห์ความเชื่อมั่นด้วย RNNS
การสร้าง RNN แบบสองทิศทางเพื่อทำนายผลตอบแทนหุ้นโดยใช้การฝังคำที่กำหนดเอง

20 Autoencoders สำหรับปัจจัยเสี่ยงตามเงื่อนไขและการกำหนดราคาสินทรัพย์

บทนี้แสดงวิธีการใช้ประโยชน์จากการเรียนรู้อย่างลึกซึ้งที่ไม่ได้รับการดูแลสำหรับการซื้อขาย นอกจากนี้เรายังหารือเกี่ยวกับระบบอัตโนมัติคือเครือข่ายประสาทที่ได้รับการฝึกฝนให้ทำซ้ำอินพุตในขณะที่เรียนรู้การเป็นตัวแทนใหม่ที่เข้ารหัสโดยพารามิเตอร์ของเลเยอร์ที่ซ่อนอยู่ AutoEncoders ถูกนำมาใช้เป็นเวลานานสำหรับการลดมิติเชิงเส้นโดยใช้ประโยชน์จากสถาปัตยกรรม NN ที่เรากล่าวถึงในสามบทสุดท้าย เราทำซ้ำกระดาษ AQR ล่าสุดที่แสดงให้เห็นว่า autoencoders สามารถสนับสนุนกลยุทธ์การซื้อขายได้อย่างไร เราจะใช้เครือข่ายประสาทลึกที่ต้องอาศัยระบบอัตโนมัติเพื่อแยกปัจจัยเสี่ยงและทำนายผลตอบแทนของผู้ถือหุ้นโดยมีเงื่อนไขในช่วงของแอตทริบิวต์ของผู้ถือหุ้น

โดยเฉพาะอย่างยิ่งในบทนี้คุณจะได้เรียนรู้เกี่ยวกับ:

Autoencoders ประเภทใดที่ใช้งานได้จริงและวิธีการทำงานของพวกเขา
การสร้างและฝึกอบรมอัตโนมัติโดยใช้ Python
การใช้ AutoEncoders เพื่อแยกปัจจัยเสี่ยงที่ขับเคลื่อนด้วยข้อมูลซึ่งคำนึงถึงลักษณะสินทรัพย์เพื่อทำนายผลตอบแทน

21 อวน antcersarial สำหรับข้อมูลอนุกรมเวลาสังเคราะห์

บทนี้แนะนำเครือข่ายที่เป็นปฏิปักษ์ต่อการกำเนิด (GAN) GANS ฝึกอบรมเครื่องกำเนิดไฟฟ้าและเครือข่าย discriminator ในการตั้งค่าการแข่งขันเพื่อให้เครื่องกำเนิดไฟฟ้าเรียนรู้ที่จะสร้างตัวอย่างที่ผู้จำแนกไม่สามารถแยกแยะความแตกต่างจากข้อมูลการฝึกอบรมที่กำหนด เป้าหมายคือการให้แบบจำลองการกำเนิดที่สามารถผลิตตัวอย่างสังเคราะห์ได้เป็นตัวแทนของคลาสนี้ ในขณะที่ได้รับความนิยมมากที่สุดจากข้อมูลภาพ GANS ยังถูกใช้เพื่อสร้างข้อมูลอนุกรมเวลาสังเคราะห์ในโดเมนการแพทย์ การทดลองครั้งต่อไปกับข้อมูลทางการเงินที่สำรวจว่า GANS สามารถสร้างวิถีราคาทางเลือกที่มีประโยชน์สำหรับการฝึกอบรม ML หรือกลยุทธ์ย้อนหลังหรือไม่ เราทำซ้ำกระดาษ Neurips Time Series GaN เพื่อแสดงวิธีการและแสดงให้เห็นถึงผลลัพธ์

โดยเฉพาะอย่างยิ่งในบทนี้คุณจะได้เรียนรู้เกี่ยวกับ:

วิธีการทำงานของ Gans ทำไมพวกเขาถึงมีประโยชน์และวิธีที่พวกเขาสามารถนำไปใช้กับการซื้อขาย
การออกแบบและฝึกอบรม Gans โดยใช้ TensorFlow 2
การสร้างข้อมูลทางการเงินสังเคราะห์เพื่อขยายอินพุตที่มีให้สำหรับการฝึกอบรมแบบจำลอง ML และการทดสอบ backtesting

22 การเรียนรู้การเสริมแรงอย่างลึกซึ้ง: การสร้างตัวแทนการซื้อขาย

แบบจำลองการเรียนรู้เสริมแรง (RL) การเรียนรู้แบบกำกับเป้าหมายโดยตัวแทนที่โต้ตอบกับสภาพแวดล้อมสุ่ม RL เพิ่มประสิทธิภาพการตัดสินใจของตัวแทนที่เกี่ยวข้องกับวัตถุประสงค์ระยะยาวโดยการเรียนรู้คุณค่าของรัฐและการกระทำจากสัญญาณรางวัล เป้าหมายสูงสุดคือการได้รับนโยบายที่เข้ารหัสกฎพฤติกรรมและแผนที่สถานะการกระทำ บทนี้แสดงวิธีการกำหนดและแก้ปัญหา RL มันครอบคลุมวิธีการตามแบบจำลองและแบบจำลองฟรีแนะนำสภาพแวดล้อม OpenAI Gym และรวมการเรียนรู้อย่างลึกซึ้งกับ RL เพื่อฝึกอบรมตัวแทนที่นำทางสภาพแวดล้อมที่ซับซ้อน ในที่สุดเราจะแสดงวิธีการปรับ RL ให้เป็นอัลกอริทึมการซื้อขายโดยการสร้างแบบจำลองตัวแทนที่โต้ตอบกับตลาดการเงินในขณะที่พยายามเพิ่มประสิทธิภาพฟังก์ชั่นวัตถุประสงค์

โดยเฉพาะอย่างยิ่งบทนี้จะครอบคลุม:

กำหนดปัญหาการตัดสินใจของมาร์คอฟ (MDP)
ใช้มูลค่าและการทำซ้ำนโยบายเพื่อแก้ไข MDP
ใช้ Q-Learning ในสภาพแวดล้อมที่มีสถานะและการกระทำที่ไม่ต่อเนื่อง
สร้างและฝึกอบรมตัวแทน Q-learning ลึกในสภาพแวดล้อมที่ต่อเนื่อง
ใช้ Openai Gym เพื่อออกแบบสภาพแวดล้อมในตลาดที่กำหนดเองและฝึกอบรมตัวแทน RL เพื่อซื้อขายหุ้น

23 บทสรุปและขั้นตอนต่อไป

ในบทสรุปนี้เราจะสรุปเครื่องมือที่จำเป็นแอปพลิเคชันและบทเรียนที่เรียนรู้ตลอดเวลาเพื่อหลีกเลี่ยงการสูญเสียภาพรวมหลังจากรายละเอียดมากมาย จากนั้นเราจะระบุพื้นที่ที่เราไม่ได้ครอบคลุม แต่จะคุ้มค่าที่จะมุ่งเน้นไปที่เมื่อคุณขยายเทคนิคการเรียนรู้ของเครื่องจักรมากมายที่เราแนะนำและมีประสิทธิผลในการใช้งานประจำวัน

โดยรวมในบทนี้เราจะ

ทบทวนประเด็นสำคัญและบทเรียนที่ได้เรียนรู้
ชี้ให้เห็นขั้นตอนต่อไปเพื่อสร้างเทคนิคในหนังสือเล่มนี้
แนะนำวิธีที่จะรวม ML เข้ากับกระบวนการลงทุนของคุณ

24 ภาคผนวก - ไลบรารีอัลฟ่าแฟคเตอร์

ตลอดหนังสือเล่มนี้เราเน้นว่าการออกแบบคุณสมบัติที่ชาญฉลาดรวมถึงการประมวลผลล่วงหน้าและ denoising ที่เหมาะสมโดยทั่วไปจะนำไปสู่กลยุทธ์ที่มีประสิทธิภาพ ภาคผนวกนี้สังเคราะห์บทเรียนบางอย่างที่ได้เรียนรู้เกี่ยวกับวิศวกรรมคุณลักษณะและให้ข้อมูลเพิ่มเติมเกี่ยวกับหัวข้อสำคัญนี้

ด้วยเหตุนี้เราจึงมุ่งเน้นไปที่ตัวชี้วัดที่หลากหลายที่ดำเนินการโดย TA-LIB (ดูบทที่ 4) และกระดาษอัลฟาสสูตร 101 ของ WorldQuant (Kakushadze 2016) ซึ่งนำเสนอปัจจัยการซื้อขายเชิงปริมาณในชีวิตจริงที่ใช้ในการผลิตโดยเฉลี่ย 0.6-6.4 วัน

บทนี้ครอบคลุม:

วิธีคำนวณตัวชี้วัดทางเทคนิคหลายโหลโดยใช้ Ta-lib และ numpy/pandas
การสร้างสูตรอัลฟ่าอธิบายไว้ในกระดาษด้านบนและ
การประเมินคุณภาพการทำนายของผลลัพธ์โดยใช้ตัวชี้วัดต่าง ๆ จากความสัมพันธ์อันดับและข้อมูลร่วมกันเพื่อนำเสนอความสำคัญค่า SHAP และ Alphalens

ขยาย