หนังสือเล่มนี้มีจุดมุ่งหมายเพื่อแสดงให้เห็นว่า ML สามารถเพิ่มมูลค่าให้กับกลยุทธ์การซื้อขายแบบอัลกอริธึมในทางปฏิบัติแต่ครอบคลุมได้อย่างไร โดยครอบคลุมเทคนิค ML ที่หลากหลายตั้งแต่การถดถอยเชิงเส้นไปจนถึงการเรียนรู้การเสริมแรงเชิงลึก และสาธิตวิธีสร้าง ทดสอบย้อนกลับ และประเมินกลยุทธ์การซื้อขายที่ขับเคลื่อนโดยการคาดการณ์แบบจำลอง
ในสี่ส่วนมี 23 บทพร้อมภาคผนวก ครอบคลุม มากกว่า 800 หน้า :
การซื้อคืนนี้มี สมุดบันทึกมากกว่า 150 เล่ม ที่นำแนวคิด อัลกอริธึม และกรณีการใช้งานที่กล่าวถึงในหนังสือไปปฏิบัติจริง มีตัวอย่างมากมายที่แสดงว่า:
เรา ขอแนะนำให้ คุณทบทวนสมุดบันทึกขณะอ่านหนังสือ โดยปกติแล้วจะอยู่ในสถานะถูกดำเนินการและมักจะมีข้อมูลเพิ่มเติมที่ไม่รวมอยู่ในนั้นเนื่องจากข้อจำกัดด้านพื้นที่
นอกจากข้อมูลใน repo นี้แล้ว เว็บไซต์ของหนังสือยังประกอบด้วยบทสรุปบทและข้อมูลเพิ่มเติมอีกด้วย
เพื่อให้ผู้อ่านถามคำถามเกี่ยวกับเนื้อหาและตัวอย่างโค้ดของหนังสือได้อย่างง่ายดาย ตลอดจนการพัฒนาและการนำกลยุทธ์และการพัฒนาอุตสาหกรรมของตนเองไปใช้ เราจึงเป็นเจ้าภาพแพลตฟอร์มออนไลน์
โปรดเข้าร่วมชุมชนของเราและเชื่อมต่อกับเพื่อนเทรดเดอร์ที่สนใจใช้ประโยชน์จาก ML สำหรับกลยุทธ์การซื้อขาย แบ่งปันประสบการณ์ของคุณ และเรียนรู้จากกันและกัน!
ก่อนอื่น หนังสือเล่มนี้จะสาธิตวิธีที่คุณสามารถดึงสัญญาณจากแหล่งข้อมูลที่หลากหลาย และออกแบบกลยุทธ์การซื้อขายสำหรับสินทรัพย์ประเภทต่างๆ โดยใช้อัลกอริธึมการเรียนรู้แบบมีผู้ดูแล ไม่มีผู้ดูแล และเสริมกำลังที่หลากหลาย นอกจากนี้ยังให้ความรู้ทางคณิตศาสตร์และสถิติที่เกี่ยวข้องเพื่ออำนวยความสะดวกในการปรับแต่งอัลกอริทึมหรือการตีความผลลัพธ์ นอกจากนี้ยังครอบคลุมถึงภูมิหลังทางการเงินที่จะช่วยให้คุณทำงานกับตลาดและข้อมูลพื้นฐาน ดึงคุณสมบัติที่ให้ข้อมูล และจัดการประสิทธิภาพของกลยุทธ์การซื้อขาย
จากมุมมองเชิงปฏิบัติ ฉบับที่ 2 มุ่งหวังเพื่อให้คุณมีความเข้าใจแนวความคิดและเครื่องมือในการพัฒนากลยุทธ์การซื้อขายแบบอิง ML ของคุณเอง ด้วยเหตุนี้ จึงวางกรอบ ML ให้เป็นองค์ประกอบสำคัญในกระบวนการมากกว่าแบบฝึกหัดเดี่ยวๆ โดยแนะนำ ML แบบ end-to-end สำหรับเวิร์กโฟลว์การซื้อขาย ตั้งแต่การจัดหาข้อมูล วิศวกรรมฟีเจอร์ และการเพิ่มประสิทธิภาพโมเดล ไปจนถึงการออกแบบกลยุทธ์และการทดสอบย้อนกลับ
โดยเฉพาะอย่างยิ่ง ขั้นตอนการทำงาน ML4T เริ่มต้นด้วยการสร้างแนวคิดสำหรับจักรวาลการลงทุนที่มีการกำหนดชัดเจน การรวบรวมข้อมูลที่เกี่ยวข้อง และการแยกคุณลักษณะที่ให้ข้อมูล นอกจากนี้ยังเกี่ยวข้องกับการออกแบบ ปรับแต่ง และประเมินโมเดล ML ที่เหมาะกับงานคาดการณ์ด้วย สุดท้ายนี้ จำเป็นต้องมีการพัฒนากลยุทธ์การซื้อขายเพื่อดำเนินการกับสัญญาณคาดการณ์ของแบบจำลอง ตลอดจนการจำลองและประเมินผลการปฏิบัติงานของข้อมูลในอดีตโดยใช้เครื่องมือทดสอบย้อนหลัง เมื่อคุณตัดสินใจที่จะดำเนินกลยุทธ์อัลกอริธึมในตลาดจริง คุณจะพบว่าตัวเองต้องวนซ้ำขั้นตอนการทำงานนี้ซ้ำแล้วซ้ำเล่าเพื่อรวมข้อมูลใหม่และสภาพแวดล้อมที่เปลี่ยนแปลงไป
การเน้นย้ำในฉบับที่สองเกี่ยวกับเวิร์กโฟลว์ ML4t แปลเป็นบทใหม่เกี่ยวกับการทดสอบย้อนกลับเชิงกลยุทธ์ ภาคผนวกใหม่ที่อธิบายปัจจัยอัลฟ่าที่แตกต่างกันกว่า 100 รายการ และการใช้งานจริงใหม่ๆ มากมาย นอกจากนี้เรายังเขียนเนื้อหาส่วนใหญ่ที่มีอยู่ใหม่เพื่อความชัดเจนและอ่านง่าย
ขณะนี้แอปพลิเคชันการซื้อขายใช้แหล่งข้อมูลที่หลากหลายกว่าราคาหุ้นสหรัฐรายวัน รวมถึงหุ้นต่างประเทศและ ETF นอกจากนี้ยังสาธิตวิธีใช้ ML สำหรับกลยุทธ์ระหว่างวันด้วยข้อมูลหุ้นความถี่นาที นอกจากนี้ยังขยายความครอบคลุมของแหล่งข้อมูลทางเลือกเพื่อรวมเอกสารที่ยื่นต่อ SEC สำหรับการวิเคราะห์ความรู้สึกและการคาดการณ์ผลตอบแทน รวมถึงภาพถ่ายดาวเทียมเพื่อจำแนกการใช้ประโยชน์ที่ดิน
นวัตกรรมอีกอย่างหนึ่งของฉบับพิมพ์ครั้งที่สองคือการทำซ้ำแอปพลิเคชันการซื้อขายหลายรายการที่เพิ่งเผยแพร่ในวารสารชั้นนำ:
ขณะนี้แอปพลิเคชันทั้งหมดใช้ซอฟต์แวร์เวอร์ชันล่าสุดที่มีอยู่ (ในขณะที่เขียน) เช่น pandas 1.0 และ TensorFlow 2.2 นอกจากนี้ยังมี Zipline เวอร์ชันที่ปรับแต่งเองซึ่งทำให้ง่ายต่อการรวมการคาดการณ์โมเดลการเรียนรู้ของเครื่องเมื่อออกแบบกลยุทธ์การซื้อขาย
ตัวอย่างโค้ดอาศัยไลบรารี Python ที่หลากหลายจากโดเมนวิทยาศาสตร์ข้อมูลและการเงิน
ไม่จำเป็นต้องลองติดตั้งไลบรารีทั้งหมดพร้อมกัน เนื่องจากจะเพิ่มโอกาสที่จะเกิดปัญหาข้อขัดแย้งของเวอร์ชัน แต่เราขอแนะนำให้คุณติดตั้งไลบรารีที่จำเป็นสำหรับบทเฉพาะในขณะที่คุณดำเนินการต่อไป
อัปเดตมีนาคม 2565:
zipline-reloaded
,pyfolio-reloaded
,alphalens-reloaded
และempyrical-reloaded
พร้อมใช้งานแล้วในช่องconda-forge
ช่องml4t
มีเฉพาะเวอร์ชันที่ล้าสมัยและจะถูกลบออกเร็วๆ นี้
อัปเดตเมษายน 2021: ด้วยการอัปเดต Zipline ทำให้ไม่จำเป็นต้องใช้ Docker อีกต่อไป คำแนะนำในการติดตั้งตอนนี้อ้างอิงถึงไฟล์สภาพแวดล้อมเฉพาะ OS ที่ควรช่วยลดความยุ่งยากในการใช้งานโน้ตบุ๊กของคุณ
อัปเดตกุมภาพันธ์ 2021: ตัวอย่างโค้ดรีลีส 2.0 อัปเดตสภาพแวดล้อม conda ที่อิมเมจ Docker จัดทำเป็น Python 3.8, Pandas 1.2 และ TensorFlow 1.2 และอื่นๆ อีกมากมาย สภาพแวดล้อมการทดสอบย้อนกลับของ Zipline ด้วยตอนนี้ใช้ Python 3.6
conda
ต่างๆ และติดตั้งแพ็คเกจที่ใช้ในโน้ตบุ๊กลงบนเครื่องของคุณโดยตรงหากคุณต้องการ (และพร้อมที่จะก้าวไปอีกขั้นโดยขึ้นอยู่กับระบบของคุณ)หากคุณประสบปัญหาในการติดตั้งสภาพแวดล้อม ดาวน์โหลดข้อมูล หรือเรียกใช้โค้ด โปรดแจ้ง ปัญหา GitHub ใน repo (ที่นี่) มีการอธิบายการทำงานกับปัญหา GitHub ไว้ที่นี่
อัปเดต : คุณสามารถดาวน์โหลดข้อมูล algoseek ที่ใช้ในหนังสือได้ที่นี่ ดูคำแนะนำสำหรับการประมวลผลล่วงหน้าในบทที่ 2 และตัวอย่างระหว่างวันด้วยแบบจำลองการเร่งการไล่ระดับสีในบทที่ 12
อัปเดต : ไดเร็กทอรีตัวเลขมีแผนภูมิสีที่ใช้ในหนังสือ
หนังสือเล่มนี้มีสี่ส่วนที่กล่าวถึงความท้าทายต่างๆ ที่เกิดขึ้นเมื่อจัดหาและทำงานร่วมกับตลาด การจัดหาข้อมูลพื้นฐานและทางเลือก การพัฒนาโซลูชัน ML สำหรับงานคาดการณ์ต่างๆ ในบริบทการซื้อขาย และการออกแบบและประเมินกลยุทธ์การซื้อขายที่อาศัยสัญญาณคาดการณ์ที่สร้างโดย โมเดล ML
ไดเร็กทอรีสำหรับแต่ละบทประกอบด้วย README พร้อมข้อมูลเพิ่มเติมเกี่ยวกับเนื้อหา ตัวอย่างโค้ด และทรัพยากรเพิ่มเติม
ส่วนที่ 1: จากข้อมูลสู่การพัฒนากลยุทธ์
ส่วนที่ 2: การเรียนรู้ของเครื่องเพื่อการซื้อขาย: พื้นฐาน
ส่วนที่ 3: การประมวลผลภาษาธรรมชาติสำหรับการซื้อขาย
ส่วนที่ 4: การเรียนรู้เชิงลึกและการเสริมกำลัง
ส่วนแรกเป็นกรอบการทำงานสำหรับการพัฒนากลยุทธ์การซื้อขายที่ขับเคลื่อนโดยการเรียนรู้ของเครื่อง (ML) โดยมุ่งเน้นไปที่ข้อมูลที่ขับเคลื่อนอัลกอริธึมและกลยุทธ์ ML ที่กล่าวถึงในหนังสือเล่มนี้ สรุปวิธีวิศวกรรมและประเมินคุณสมบัติที่เหมาะสมสำหรับโมเดล ML และวิธีการจัดการและวัดประสิทธิภาพของพอร์ตโฟลิโอในขณะที่ดำเนินการกลยุทธ์การซื้อขาย
บทนี้สำรวจแนวโน้มของอุตสาหกรรมที่นำไปสู่การเกิดขึ้นของ ML ในฐานะแหล่งที่มาของความได้เปรียบทางการแข่งขันในอุตสาหกรรมการลงทุน นอกจากนี้เรายังจะดูว่า ML เหมาะกับกระบวนการลงทุนตรงไหนเพื่อเปิดใช้กลยุทธ์การซื้อขายแบบอัลกอริทึม
โดยเฉพาะอย่างยิ่งครอบคลุมหัวข้อต่อไปนี้:
บทนี้จะแสดงวิธีการทำงานกับตลาดและข้อมูลพื้นฐาน และอธิบายแง่มุมที่สำคัญของสภาพแวดล้อมที่สะท้อนให้เห็น ตัวอย่างเช่น ความคุ้นเคยกับประเภทคำสั่งต่างๆ และโครงสร้างพื้นฐานการซื้อขายไม่เพียงแต่สำคัญสำหรับการตีความข้อมูลเท่านั้น แต่ยังรวมถึงการออกแบบการจำลองการทดสอบย้อนหลังอย่างถูกต้องอีกด้วย นอกจากนี้เรายังสาธิตวิธีใช้ Python เพื่อเข้าถึงและจัดการข้อมูลการซื้อขายและงบการเงิน
ตัวอย่างที่ใช้งานได้จริงสาธิตวิธีการทำงานกับข้อมูลการซื้อขายจากข้อมูล Tick ของ NASDAQ และข้อมูลแถบนาทีของ Algoseek พร้อมด้วยชุดคุณลักษณะที่หลากหลายซึ่งรวบรวมไดนามิกของอุปสงค์-อุปทาน ซึ่งเราจะใช้สำหรับกลยุทธ์ระหว่างวันที่ใช้ ML ในภายหลัง นอกจากนี้เรายังครอบคลุมถึง API ของผู้ให้บริการข้อมูลต่างๆ และวิธีแหล่งที่มาของข้อมูลงบการเงินจาก SEC
โดยเฉพาะอย่างยิ่งบทนี้ครอบคลุมถึง:บทนี้สรุปหมวดหมู่และกรณีการใช้งานข้อมูลทางเลือก อธิบายเกณฑ์ในการประเมินแหล่งที่มาและผู้ให้บริการจำนวนมาก และสรุปภาพรวมของตลาดในปัจจุบัน
นอกจากนี้ยังสาธิตวิธีสร้างชุดข้อมูลทางเลือกโดยการคัดลอกเว็บไซต์ เช่น การรวบรวมบันทึกการโทรเพื่อรับรายได้เพื่อใช้กับการประมวลผลภาษาธรรมชาติ (NLP) และอัลกอริธึมการวิเคราะห์ความรู้สึกในส่วนที่สามของหนังสือ
โดยเฉพาะอย่างยิ่ง บทนี้ครอบคลุมถึง:
หากคุณคุ้นเคยกับ ML อยู่แล้ว คุณจะรู้ว่าวิศวกรรมฟีเจอร์เป็นองค์ประกอบสำคัญสำหรับการคาดการณ์ที่ประสบความสำเร็จ อย่างน้อยก็มีความสำคัญไม่แพ้กันในโดเมนการซื้อขาย ซึ่งนักวิจัยด้านวิชาการและอุตสาหกรรมได้ตรวจสอบมานานหลายทศวรรษว่าอะไรขับเคลื่อนตลาดและราคาสินทรัพย์ และฟีเจอร์ใดที่ช่วยอธิบายหรือทำนายการเคลื่อนไหวของราคา
บทนี้สรุปประเด็นสำคัญในการวิจัยนี้เพื่อเป็นจุดเริ่มต้นในการแสวงหาปัจจัยอัลฟ่าของคุณเอง นอกจากนี้ยังนำเสนอเครื่องมือที่จำเป็นในการคำนวณและทดสอบปัจจัยอัลฟ่า โดยเน้นว่าไลบรารี NumPy, pandas และ TA-Lib อำนวยความสะดวกในการจัดการข้อมูลได้อย่างไร และนำเสนอเทคนิคการปรับให้เรียบยอดนิยม เช่น เวฟเล็ตและตัวกรองคาลมานที่ช่วยลดสัญญาณรบกวนในข้อมูล หลังจากอ่านแล้วคุณจะรู้เกี่ยวกับ:
ปัจจัยอัลฟ่าสร้างสัญญาณว่ากลยุทธ์อัลกอริธึมแปลงเป็นการซื้อขาย ซึ่งในทางกลับกันจะสร้างตำแหน่งยาวและสั้น ผลตอบแทนและความเสี่ยงของพอร์ตโฟลิโอที่ได้จะเป็นตัวกำหนดว่ากลยุทธ์นั้นตรงตามวัตถุประสงค์การลงทุนหรือไม่
มีหลายวิธีในการเพิ่มประสิทธิภาพพอร์ตการลงทุน ซึ่งรวมถึงการประยุกต์ใช้การเรียนรู้ของเครื่อง (ML) เพื่อเรียนรู้ความสัมพันธ์แบบลำดับชั้นระหว่างสินทรัพย์ และถือเป็นส่วนเสริมหรือทดแทนเมื่อออกแบบโปรไฟล์ความเสี่ยงของพอร์ตโฟลิโอ บทนี้ครอบคลุมถึง:
ส่วนที่สองครอบคลุมอัลกอริธึมการเรียนรู้ขั้นพื้นฐานแบบมีผู้ดูแลและไม่ได้รับการดูแล และแสดงให้เห็นการประยุกต์ใช้กับกลยุทธ์การซื้อขาย นอกจากนี้ยังแนะนำแพลตฟอร์ม Quantopian ที่ช่วยให้คุณสามารถใช้ประโยชน์และรวมข้อมูลและเทคนิค ML ที่พัฒนาขึ้นในหนังสือเล่มนี้เพื่อใช้กลยุทธ์อัลกอริทึมที่ดำเนินการซื้อขายในตลาดจริง
บทนี้จะเริ่มต้นส่วนที่ 2 ซึ่งแสดงให้เห็นว่าคุณสามารถใช้โมเดล ML แบบมีผู้ดูแลและไม่ได้รับผู้ดูแลในการซื้อขายได้อย่างไร เราจะอธิบายสมมติฐานและกรณีการใช้งานของแต่ละรุ่นก่อนที่เราจะสาธิตการใช้งานที่เกี่ยวข้องโดยใช้ไลบรารี Python ต่างๆ
มีหลายแง่มุมที่โมเดลเหล่านี้และการใช้งานมีเหมือนกัน บทนี้ครอบคลุมประเด็นทั่วไปเหล่านี้ เพื่อให้เราสามารถมุ่งเน้นไปที่การใช้งานเฉพาะรุ่นในบทต่อไปนี้ โดยจะกำหนดขั้นตอนโดยการสรุปวิธีการกำหนด ฝึกอบรม ปรับแต่ง และประเมินประสิทธิภาพเชิงคาดการณ์ของโมเดล ML เป็นเวิร์กโฟลว์ที่เป็นระบบ เนื้อหาประกอบด้วย:
โมเดลเชิงเส้นเป็นเครื่องมือมาตรฐานสำหรับการอนุมานและการทำนายในบริบทการถดถอยและการจำแนกประเภท โมเดลการกำหนดราคาสินทรัพย์ที่ใช้กันอย่างแพร่หลายจำนวนมากอาศัยการถดถอยเชิงเส้น โมเดลที่ทำให้เป็นมาตรฐาน เช่น การถดถอยแบบ Ridge และ Lasso มักจะให้ผลการทำนายที่ดีกว่า โดยการจำกัดความเสี่ยงของการถดถอยมากเกินไป การใช้งานการถดถอยทั่วไปจะระบุปัจจัยเสี่ยงที่ขับเคลื่อนผลตอบแทนของสินทรัพย์เพื่อจัดการความเสี่ยงหรือคาดการณ์ผลตอบแทน ในทางกลับกัน ปัญหาการจำแนกประเภทรวมถึงการพยากรณ์ราคาแบบทิศทาง
บทที่ 07 ครอบคลุมหัวข้อต่อไปนี้:
บทนี้นำเสนอมุมมองตั้งแต่ต้นจนจบในการออกแบบ จำลอง และประเมินกลยุทธ์การซื้อขายที่ขับเคลื่อนโดยอัลกอริธึม ML เราจะสาธิตรายละเอียดวิธีทดสอบย้อนกลับกลยุทธ์ที่ขับเคลื่อนด้วย ML ในบริบทของตลาดในอดีตโดยใช้ไลบรารี Python backtrader และ Zipline ท้ายที่สุดแล้ว ขั้นตอนการทำงานของ ML4T มีเป้าหมายเพื่อรวบรวมหลักฐานจากข้อมูลในอดีตที่ช่วยตัดสินใจว่าจะปรับใช้กลยุทธ์ที่เป็นตัวเลือกในตลาดจริงและทำให้ทรัพยากรทางการเงินตกอยู่ในความเสี่ยงหรือไม่ การจำลองกลยุทธ์ของคุณอย่างสมจริงจำเป็นต้องแสดงถึงวิธีการทำงานของตลาดความปลอดภัยและการดำเนินการซื้อขายอย่างซื่อสัตย์ นอกจากนี้ ยังมีแง่มุมด้านระเบียบวิธีหลายประการที่ต้องให้ความสนใจเพื่อหลีกเลี่ยงผลลัพธ์ที่ลำเอียงและการค้นพบที่ผิดพลาดซึ่งจะนำไปสู่การตัดสินใจลงทุนที่ไม่ดี
โดยเฉพาะอย่างยิ่ง หลังจากอ่านบทนี้แล้ว คุณจะสามารถ:
บทนี้เน้นที่แบบจำลองที่แยกสัญญาณจากประวัติอนุกรมเวลาเพื่อทำนายค่าในอนาคตสำหรับอนุกรมเวลาเดียวกัน แบบจำลองอนุกรมเวลามีการใช้กันอย่างแพร่หลายเนื่องจากมิติเวลาที่มีอยู่ในการซื้อขาย โดยนำเสนอเครื่องมือในการวินิจฉัยลักษณะอนุกรมเวลา เช่น ความคงที่ และการแยกคุณสมบัติที่จับรูปแบบที่อาจเป็นประโยชน์ นอกจากนี้ยังแนะนำแบบจำลองอนุกรมเวลาแบบตัวแปรเดียวและแบบหลายตัวแปรเพื่อคาดการณ์ข้อมูลมาโครและรูปแบบความผันผวน สุดท้ายนี้ จะอธิบายว่า Cointegration ระบุแนวโน้มทั่วไปในอนุกรมเวลาได้อย่างไร และแสดงวิธีพัฒนากลยุทธ์การซื้อขายคู่เงินตามแนวคิดที่สำคัญนี้
โดยเฉพาะอย่างยิ่งจะครอบคลุมถึง:
สถิติแบบเบย์ช่วยให้เราสามารถระบุปริมาณความไม่แน่นอนเกี่ยวกับเหตุการณ์ในอนาคต และปรับปรุงการประมาณการด้วยวิธีที่เป็นหลักการเมื่อมีข้อมูลใหม่เข้ามา แนวทางแบบไดนามิกนี้ปรับให้เข้ากับลักษณะการพัฒนาของตลาดการเงินได้เป็นอย่างดี วิธีการแบบเบย์สำหรับ ML ช่วยให้เกิดข้อมูลเชิงลึกใหม่ๆ เกี่ยวกับความไม่แน่นอนเกี่ยวกับตัวชี้วัดทางสถิติ การประมาณค่าพารามิเตอร์ และการคาดการณ์ แอปพลิเคชันมีตั้งแต่การจัดการความเสี่ยงที่ละเอียดยิ่งขึ้นไปจนถึงการอัปเดตแบบไดนามิกของแบบจำลองการคาดการณ์ที่รวมการเปลี่ยนแปลงในสภาพแวดล้อมของตลาด
โดยเฉพาะอย่างยิ่ง บทนี้ครอบคลุมถึง:
บทนี้ใช้แผนผังการตัดสินใจและฟอเรสต์สุ่มในการซื้อขาย แผนผังการตัดสินใจเรียนรู้กฎจากข้อมูลที่เข้ารหัสความสัมพันธ์อินพุตและเอาท์พุตแบบไม่เชิงเส้น เราแสดงวิธีฝึกอบรมแผนผังการตัดสินใจเพื่อคาดการณ์ปัญหาการถดถอยและการจัดหมวดหมู่ แสดงภาพและตีความกฎที่โมเดลเรียนรู้ และปรับแต่งไฮเปอร์พารามิเตอร์ของโมเดลเพื่อเพิ่มประสิทธิภาพการแลกเปลี่ยนอคติ-ความแปรปรวน และป้องกันการใส่มากเกินไป
ส่วนที่สองของบทนี้จะแนะนำแบบจำลองทั้งมวลที่รวมแผนผังการตัดสินใจหลายแบบในลักษณะสุ่มเพื่อสร้างการทำนายเดียวโดยมีข้อผิดพลาดต่ำกว่า ปิดท้ายด้วยกลยุทธ์ระยะสั้นระยะยาวสำหรับหุ้นญี่ปุ่นโดยอิงจากสัญญาณการซื้อขายที่สร้างโดยแบบจำลองฟอเรสต์แบบสุ่ม
โดยย่อ บทนี้ครอบคลุมถึง:
การเพิ่มการไล่ระดับสีเป็นอัลกอริธึมวงดนตรีทางเลือกที่อิงต้นไม้ซึ่งมักจะให้ผลลัพธ์ที่ดีกว่าฟอเรสต์แบบสุ่ม ความแตกต่างที่สำคัญคือการเพิ่มประสิทธิภาพจะแก้ไขข้อมูลที่ใช้ในการฝึกต้นไม้แต่ละต้นตามข้อผิดพลาดสะสมที่ทำโดยแบบจำลอง ในขณะที่ป่าสุ่มฝึกต้นไม้จำนวนมากอย่างอิสระโดยใช้ชุดย่อยของข้อมูลแบบสุ่ม การเพิ่มการดำเนินการตามลำดับและน้ำหนักข้อมูลใหม่ บทนี้แสดงให้เห็นว่าห้องสมุดล้ำสมัยบรรลุผลการดำเนินงานที่น่าประทับใจได้อย่างไร และใช้การเพิ่มประสิทธิภาพกับข้อมูลรายวันและความถี่สูงเพื่อทดสอบกลยุทธ์การซื้อขายระหว่างวัน
โดยเฉพาะอย่างยิ่ง เราจะครอบคลุมหัวข้อต่อไปนี้:
การลดขนาดและการจัดกลุ่มเป็นงานหลักสำหรับการเรียนรู้แบบไม่มีผู้ดูแล:
โดยเฉพาะอย่างยิ่ง บทนี้ครอบคลุมถึง:
ข้อมูลข้อความมีเนื้อหามากมาย แต่ไม่มีรูปแบบที่มีโครงสร้าง ดังนั้นจึงต้องมีการประมวลผลล่วงหน้ามากขึ้น เพื่อให้อัลกอริธึมการเรียนรู้ของเครื่องสามารถแยกสัญญาณที่เป็นไปได้ได้ ความท้าทายที่สำคัญประกอบด้วยการแปลงข้อความเป็นรูปแบบตัวเลขเพื่อใช้โดยอัลกอริทึม ขณะเดียวกันก็แสดงความหมายหรือความหมายของเนื้อหาไปพร้อมๆ กัน
สามบทถัดไปครอบคลุมถึงเทคนิคต่างๆ ที่จับความแตกต่างทางภาษาที่มนุษย์เข้าใจได้ง่าย เพื่อให้อัลกอริธึมการเรียนรู้ของเครื่องสามารถตีความได้เช่นกัน
ข้อมูลข้อความมีเนื้อหามากมาย แต่ไม่มีโครงสร้างสูง ดังนั้นจึงต้องมีการประมวลผลล่วงหน้าเพิ่มเติมเพื่อเปิดใช้งานอัลกอริธึม ML เพื่อแยกข้อมูลที่เกี่ยวข้อง ความท้าทายหลักประกอบด้วยการแปลงข้อความเป็นรูปแบบตัวเลขโดยไม่สูญเสียความหมาย บทนี้แสดงวิธีการแสดงเอกสารเป็นเวกเตอร์ของการนับโทเค็นโดยการสร้างเมทริกซ์เงื่อนไขเอกสาร ซึ่งในทางกลับกัน จะทำหน้าที่เป็นอินพุตสำหรับการจำแนกข้อความและการวิเคราะห์ความรู้สึก นอกจากนี้ยังแนะนำอัลกอริทึม Naive Bayes และเปรียบเทียบประสิทธิภาพกับโมเดลเชิงเส้นและแบบต้นไม้
โดยเฉพาะอย่างยิ่งในบทนี้ครอบคลุมถึง:
บทนี้ใช้การเรียนรู้แบบไม่มีผู้ดูแลเพื่อสร้างโมเดลหัวข้อที่แฝงอยู่และแยกธีมที่ซ่อนอยู่ออกจากเอกสาร ธีมเหล่านี้สามารถสร้างข้อมูลเชิงลึกโดยละเอียดในคลังรายงานทางการเงินขนาดใหญ่ โมเดลหัวข้อจะสร้างคุณลักษณะข้อความที่ซับซ้อนและตีความได้โดยอัตโนมัติ ซึ่งจะช่วยแยกสัญญาณการซื้อขายจากคอลเลกชันข้อความที่กว้างขวาง ช่วยให้การตรวจสอบเอกสารเร็วขึ้น เปิดใช้งานการรวมกลุ่มของเอกสารที่คล้ายกัน และสร้างคำอธิบายประกอบที่เป็นประโยชน์สำหรับการสร้างแบบจำลองเชิงคาดการณ์ แอปพลิเคชันประกอบด้วยการระบุประเด็นสำคัญในการเปิดเผยของบริษัท สำเนาบันทึกการโทรเพื่อรับรายได้หรือสัญญา และคำอธิบายประกอบตามการวิเคราะห์ความรู้สึกหรือการใช้ผลตอบแทนของสินทรัพย์ที่เกี่ยวข้อง
โดยเฉพาะอย่างยิ่งครอบคลุมถึง:
บทนี้ใช้โครงข่ายประสาทเทียมเพื่อเรียนรู้การแสดงเวกเตอร์ของหน่วยความหมายแต่ละหน่วย เช่น คำหรือย่อหน้า เวกเตอร์เหล่านี้มีความหนาแน่นโดยมีรายการมูลค่าจริงเพียงไม่กี่ร้อยรายการ เมื่อเปรียบเทียบกับเวกเตอร์กระจัดกระจายที่มีมิติสูงกว่าของแบบจำลองถุงคำ เป็นผลให้เวกเตอร์เหล่านี้ฝังหรือค้นหาแต่ละหน่วยความหมายในปริภูมิเวกเตอร์ต่อเนื่อง
การฝังเป็นผลมาจากการฝึกโมเดลเพื่อเชื่อมโยงโทเค็นกับบริบท โดยมีประโยชน์ที่การใช้งานที่คล้ายกันบ่งบอกถึงเวกเตอร์ที่คล้ายกัน ด้วยเหตุนี้ พวกเขาจึงเข้ารหัสแง่มุมทางความหมาย เช่น ความสัมพันธ์ระหว่างคำต่างๆ ผ่านตำแหน่งที่สัมพันธ์กัน เป็นคุณสมบัติอันทรงพลังที่เราจะใช้กับโมเดลการเรียนรู้เชิงลึกในบทต่อไปนี้
โดยเฉพาะอย่างยิ่ง ในบทนี้ เราจะกล่าวถึง:
ส่วนที่สี่อธิบายและสาธิตวิธีใช้ประโยชน์จากการเรียนรู้เชิงลึกสำหรับการซื้อขายแบบอัลกอริทึม ความสามารถอันทรงพลังของอัลกอริธึมการเรียนรู้เชิงลึกในการระบุรูปแบบในข้อมูลที่ไม่มีโครงสร้าง ทำให้เหมาะอย่างยิ่งสำหรับข้อมูลทางเลือก เช่น รูปภาพและข้อความ
ตัวอย่างแอปพลิเคชันจะแสดงวิธีรวมข้อความและข้อมูลราคาเพื่อคาดการณ์รายได้ที่น่าประหลาดใจจากการยื่นฟ้องของ SEC สร้างอนุกรมเวลาสังเคราะห์เพื่อขยายจำนวนข้อมูลการฝึกอบรม และฝึกอบรมตัวแทนการค้าโดยใช้การเรียนรู้แบบเสริมกำลังเชิงลึก แอปพลิเคชันเหล่านี้หลายรายการทำซ้ำงานวิจัยที่ตีพิมพ์เมื่อเร็วๆ นี้ในวารสารชั้นนำ
บทนี้นำเสนอโครงข่ายประสาทเทียมแบบฟีดฟอร์เวิร์ด (NN) และสาธิตวิธีฝึกโมเดลขนาดใหญ่อย่างมีประสิทธิภาพโดยใช้การแพร่กระจายกลับ ขณะเดียวกันก็จัดการความเสี่ยงของการติดตั้งมากเกินไป นอกจากนี้ยังแสดงวิธีใช้ TensorFlow 2.0 และ PyTorch และวิธีการเพิ่มประสิทธิภาพสถาปัตยกรรม NN เพื่อสร้างสัญญาณการซื้อขาย ในบทต่อไปนี้ เราจะสร้างรากฐานนี้เพื่อประยุกต์สถาปัตยกรรมที่หลากหลายกับแอปพลิเคชันการลงทุนที่แตกต่างกัน โดยมุ่งเน้นไปที่ข้อมูลทางเลือก ซึ่งรวมถึง NN ที่เกิดซ้ำซึ่งปรับแต่งให้เหมาะกับข้อมูลตามลำดับ เช่น อนุกรมเวลาหรือภาษาธรรมชาติ และ NN แบบสลับ ซึ่งเหมาะอย่างยิ่งกับข้อมูลภาพ นอกจากนี้เรายังจะครอบคลุมการเรียนรู้เชิงลึกแบบไม่มีผู้ดูแล เช่น วิธีสร้างข้อมูลสังเคราะห์โดยใช้ Generative Adversarial Networks (GAN) นอกจากนี้ เราจะหารือเกี่ยวกับการเรียนรู้แบบเสริมกำลังเพื่อฝึกอบรมตัวแทนที่เรียนรู้แบบโต้ตอบจากสภาพแวดล้อมของพวกเขา
โดยเฉพาะบทนี้จะกล่าวถึง
สถาปัตยกรรมของ CNN มีการพัฒนาอย่างต่อเนื่อง บทนี้อธิบาย Building Block ทั่วไปสำหรับแอปพลิเคชันที่ประสบความสำเร็จ สาธิตวิธีที่การถ่ายโอนการเรียนรู้สามารถเร่งการเรียนรู้ และวิธีการใช้ CNN สำหรับการตรวจจับวัตถุ CNN สามารถสร้างสัญญาณการซื้อขายจากรูปภาพหรือข้อมูลอนุกรมเวลา ข้อมูลดาวเทียมสามารถคาดการณ์แนวโน้มสินค้าโภคภัณฑ์ผ่านภาพถ่ายทางอากาศของพื้นที่เกษตรกรรม เหมือง หรือเครือข่ายการขนส่ง ภาพจากกล้องสามารถช่วยคาดการณ์กิจกรรมของผู้บริโภคได้ เราแสดงวิธีสร้าง CNN ที่จำแนกกิจกรรมทางเศรษฐกิจด้วยภาพถ่ายดาวเทียม CNN ยังสามารถส่งมอบผลลัพธ์การจำแนกอนุกรมเวลาคุณภาพสูงโดยใช้ประโยชน์จากความคล้ายคลึงทางโครงสร้างกับรูปภาพ และเราจะออกแบบกลยุทธ์ตามข้อมูลอนุกรมเวลาที่มีรูปแบบเหมือนรูปภาพ
โดยเฉพาะอย่างยิ่ง บทนี้ครอบคลุมถึง:
เครือข่าย Neural Recurrent (RNNS) คำนวณแต่ละเอาต์พุตเป็นฟังก์ชั่นของเอาต์พุตก่อนหน้าและข้อมูลใหม่การสร้างโมเดลที่มีหน่วยความจำที่แชร์พารามิเตอร์ข้ามกราฟการคำนวณที่ลึกกว่า สถาปัตยกรรมที่โดดเด่นรวมถึงหน่วยความจำระยะสั้นระยะยาว (LSTM) และหน่วยกำเริบที่มีรั้วรอบขอบชิด (GRU) ที่จัดการกับความท้าทายของการเรียนรู้การพึ่งพาระยะยาว RNNs ได้รับการออกแบบมาเพื่อแมปลำดับอินพุตหนึ่งรายการขึ้นไปกับลำดับเอาต์พุตอย่างน้อยหนึ่งลำดับและเหมาะอย่างยิ่งกับภาษาธรรมชาติ พวกเขายังสามารถนำไปใช้กับอนุกรมเวลา univariate และหลายตัวแปรเพื่อทำนายตลาดหรือข้อมูลพื้นฐาน บทนี้ครอบคลุมวิธีที่ RNN สามารถสร้างแบบจำลองข้อมูลข้อความทางเลือกโดยใช้คำที่ฝังอยู่ในบทที่ 16 เพื่อจำแนกความเชื่อมั่นที่แสดงในเอกสาร
โดยเฉพาะอย่างยิ่งที่อยู่บทนี้:
บทนี้แสดงวิธีการใช้ประโยชน์จากการเรียนรู้อย่างลึกซึ้งที่ไม่ได้รับการดูแลสำหรับการซื้อขาย นอกจากนี้เรายังหารือเกี่ยวกับระบบอัตโนมัติคือเครือข่ายประสาทที่ได้รับการฝึกฝนให้ทำซ้ำอินพุตในขณะที่เรียนรู้การเป็นตัวแทนใหม่ที่เข้ารหัสโดยพารามิเตอร์ของเลเยอร์ที่ซ่อนอยู่ AutoEncoders ถูกนำมาใช้เป็นเวลานานสำหรับการลดมิติเชิงเส้นโดยใช้ประโยชน์จากสถาปัตยกรรม NN ที่เรากล่าวถึงในสามบทสุดท้าย เราทำซ้ำกระดาษ AQR ล่าสุดที่แสดงให้เห็นว่า autoencoders สามารถสนับสนุนกลยุทธ์การซื้อขายได้อย่างไร เราจะใช้เครือข่ายประสาทลึกที่ต้องอาศัยระบบอัตโนมัติเพื่อแยกปัจจัยเสี่ยงและทำนายผลตอบแทนของผู้ถือหุ้นโดยมีเงื่อนไขในช่วงของแอตทริบิวต์ของผู้ถือหุ้น
โดยเฉพาะอย่างยิ่งในบทนี้คุณจะได้เรียนรู้เกี่ยวกับ:
บทนี้แนะนำเครือข่ายที่เป็นปฏิปักษ์ต่อการกำเนิด (GAN) GANS ฝึกอบรมเครื่องกำเนิดไฟฟ้าและเครือข่าย discriminator ในการตั้งค่าการแข่งขันเพื่อให้เครื่องกำเนิดไฟฟ้าเรียนรู้ที่จะสร้างตัวอย่างที่ผู้จำแนกไม่สามารถแยกแยะความแตกต่างจากข้อมูลการฝึกอบรมที่กำหนด เป้าหมายคือการให้แบบจำลองการกำเนิดที่สามารถผลิตตัวอย่างสังเคราะห์ได้เป็นตัวแทนของคลาสนี้ ในขณะที่ได้รับความนิยมมากที่สุดจากข้อมูลภาพ GANS ยังถูกใช้เพื่อสร้างข้อมูลอนุกรมเวลาสังเคราะห์ในโดเมนการแพทย์ การทดลองครั้งต่อไปกับข้อมูลทางการเงินที่สำรวจว่า GANS สามารถสร้างวิถีราคาทางเลือกที่มีประโยชน์สำหรับการฝึกอบรม ML หรือกลยุทธ์ย้อนหลังหรือไม่ เราทำซ้ำกระดาษ Neurips Time Series GaN เพื่อแสดงวิธีการและแสดงให้เห็นถึงผลลัพธ์
โดยเฉพาะอย่างยิ่งในบทนี้คุณจะได้เรียนรู้เกี่ยวกับ:
แบบจำลองการเรียนรู้เสริมแรง (RL) การเรียนรู้แบบกำกับเป้าหมายโดยตัวแทนที่โต้ตอบกับสภาพแวดล้อมสุ่ม RL เพิ่มประสิทธิภาพการตัดสินใจของตัวแทนที่เกี่ยวข้องกับวัตถุประสงค์ระยะยาวโดยการเรียนรู้คุณค่าของรัฐและการกระทำจากสัญญาณรางวัล เป้าหมายสูงสุดคือการได้รับนโยบายที่เข้ารหัสกฎพฤติกรรมและแผนที่สถานะการกระทำ บทนี้แสดงวิธีการกำหนดและแก้ปัญหา RL มันครอบคลุมวิธีการตามแบบจำลองและแบบจำลองฟรีแนะนำสภาพแวดล้อม OpenAI Gym และรวมการเรียนรู้อย่างลึกซึ้งกับ RL เพื่อฝึกอบรมตัวแทนที่นำทางสภาพแวดล้อมที่ซับซ้อน ในที่สุดเราจะแสดงวิธีการปรับ RL ให้เป็นอัลกอริทึมการซื้อขายโดยการสร้างแบบจำลองตัวแทนที่โต้ตอบกับตลาดการเงินในขณะที่พยายามเพิ่มประสิทธิภาพฟังก์ชั่นวัตถุประสงค์
โดยเฉพาะอย่างยิ่งบทนี้จะครอบคลุม:
ในบทสรุปนี้เราจะสรุปเครื่องมือที่จำเป็นแอปพลิเคชันและบทเรียนที่เรียนรู้ตลอดเวลาเพื่อหลีกเลี่ยงการสูญเสียภาพรวมหลังจากรายละเอียดมากมาย จากนั้นเราจะระบุพื้นที่ที่เราไม่ได้ครอบคลุม แต่จะคุ้มค่าที่จะมุ่งเน้นไปที่เมื่อคุณขยายเทคนิคการเรียนรู้ของเครื่องจักรมากมายที่เราแนะนำและมีประสิทธิผลในการใช้งานประจำวัน
โดยรวมในบทนี้เราจะ
ตลอดหนังสือเล่มนี้เราเน้นว่าการออกแบบคุณสมบัติที่ชาญฉลาดรวมถึงการประมวลผลล่วงหน้าและ denoising ที่เหมาะสมโดยทั่วไปจะนำไปสู่กลยุทธ์ที่มีประสิทธิภาพ ภาคผนวกนี้สังเคราะห์บทเรียนบางอย่างที่ได้เรียนรู้เกี่ยวกับวิศวกรรมคุณลักษณะและให้ข้อมูลเพิ่มเติมเกี่ยวกับหัวข้อสำคัญนี้
ด้วยเหตุนี้เราจึงมุ่งเน้นไปที่ตัวชี้วัดที่หลากหลายที่ดำเนินการโดย TA-LIB (ดูบทที่ 4) และกระดาษอัลฟาสสูตร 101 ของ WorldQuant (Kakushadze 2016) ซึ่งนำเสนอปัจจัยการซื้อขายเชิงปริมาณในชีวิตจริงที่ใช้ในการผลิตโดยเฉลี่ย 0.6-6.4 วัน
บทนี้ครอบคลุม: