คลังข้อมูลระดับองค์กรเป็นตัวแทนของการลงทุนด้านเทคโนโลยีที่ใหญ่ที่สุดสำหรับบริษัทต่างๆ ในทุกอุตสาหกรรมในช่วง 20 ปีที่ผ่านมา ในขณะที่ generative AI แสดงให้เห็นถึงศักยภาพมากมายในการสร้างเนื้อหาใหม่ๆ และเข้าใจกลุ่มข้อมูลขนาดใหญ่ในรูปแบบที่ไม่มีโครงสร้าง แต่จะปรับปรุงการใช้ข้อมูลที่องค์กรลงทุนมากมายเพื่อสร้างประโยชน์ได้อย่างไร แหล่งข้อมูลเหล่านี้เป็นหนึ่งในแหล่งข้อมูลที่ได้รับความไว้วางใจมากที่สุดในองค์กร และขับเคลื่อนการตัดสินใจในระดับผู้นำสูงสุดในหลายกรณี
นับตั้งแต่ก่อตั้งในยุค 70 โครงสร้างภาษาคิวรี (SQL) เป็นภาษาที่แพร่หลายมากที่สุดในการโต้ตอบกับฐานข้อมูล แต่ก็ยังต้องการความเข้าใจอย่างลึกซึ้งเกี่ยวกับทฤษฎีเซต ชนิดข้อมูล และความสัมพันธ์ของคีย์นอกเพื่อให้เข้าใจถึงข้อมูล . Generative AI เสนอวิธีในการเชื่อมช่องว่างความรู้และทักษะนี้โดยการแปลคำถามภาษาธรรมชาติเป็นแบบสอบถาม SQL ที่ถูกต้อง
ระบบและบุคคลที่ได้รับประโยชน์จากรูปแบบการเข้าถึงฐานข้อมูลนี้รวมถึงบุคคลที่ไม่ใช่ผู้เชี่ยวชาญด้านเทคนิคที่ต้องการรวมแหล่งข้อมูลเชิงสัมพันธ์เข้ากับกระบวนการของพวกเขา เช่น ตัวแทนฝ่ายบริการลูกค้าและพนักงานศูนย์บริการทางโทรศัพท์ นอกจากนี้ กรณีการใช้งานทางเทคนิคยังรวมถึงไปป์ไลน์ Extract-Transform-Load, สถาปัตยกรรมเรียกข้อมูล Augmented Generation (RAG) ที่มีอยู่ซึ่งรวมฐานข้อมูลเชิงสัมพันธ์ และองค์กรที่กำลังจัดการกับแพลตฟอร์มข้อมูลที่มีขนาดใหญ่เกินกว่าจะแยกออกจากกันได้อย่างสมเหตุสมผล
องค์ประกอบที่ยากที่สุดของการสร้างการสืบค้น SQL ที่แม่นยำจากภาษาธรรมชาตินั้นเป็นองค์ประกอบเดียวกับที่เราอาจประสบปัญหาในฐานะผู้ใช้ภาษาใหม่ แนวคิดต่างๆ เช่น การระบุความสัมพันธ์ของคีย์นอก การแบ่งคำถามออกเป็นคิวรีย่อยที่ซ้อนกัน และการรวมตารางอย่างเหมาะสม ถือเป็นองค์ประกอบที่ยากที่สุดของการสร้างคิวรี SQL ตามที่นักวิจัยระบุว่า การทดสอบการสร้าง SQL มากกว่า 50% ล้มเหลวในการเชื่อมโยงสคีมาและเข้าร่วมเพียงอย่างเดียว
นอกเหนือจากองค์ประกอบหลักเหล่านี้ของการสืบค้นแล้ว โปรแกรมฐานข้อมูลแต่ละตัวยังมีไวยากรณ์ของตัวเองที่อาจรับประกันความเชี่ยวชาญในการเขียนแบบสอบถามที่ถูกต้อง นอกจากนี้ ในหลายองค์กร มีคุณลักษณะของข้อมูลที่ทับซ้อนกันจำนวนมาก - ค่าจะถูกรวมไว้ในตารางหนึ่งและไม่รวมอยู่ในตารางอื่น เช่น - เช่นเดียวกับชื่อคอลัมน์แบบย่อที่ต้องใช้ความรู้ของชนเผ่าเพื่อใช้อย่างถูกต้อง
แล้วเราใกล้จะแก้ปัญหานี้ได้แค่ไหน? ชุมชนได้รวมตัวกันรอบกระดานผู้นำหลักสองกระดานที่จัดอันดับแนวทางที่ประสบความสำเร็จสูงสุดด้วยชุดข้อมูลที่มีป้ายกำกับ: Spider และ BIRD กระดานผู้นำทั้งสองจัดลำดับความสำคัญของตัวชี้วัดที่สำคัญที่สุดในการวัดความแม่นยำของแนวทางที่กำหนดในการแก้ปัญหานี้ เรียกว่าความแม่นยำในการดำเนินการ (EX) หน่วยวัดนี้จะเปรียบเทียบแบบสอบถาม SQL ที่สร้างขึ้นกับแบบสอบถาม SQL ที่มีป้ายกำกับเพื่อพิจารณาว่าตรงกันหรือไม่ นอกจากนี้ SPIDER จะวัดความแม่นยำของการจับคู่ชุดที่แน่นอน (EM) โดยชุดผลลัพธ์ที่ส่งคืนจะตอบคำถามได้จริงหรือไม่ โดยไม่คำนึงถึงวิธีการเขียนแบบสอบถาม และ BIRD เสนอคะแนนประสิทธิภาพที่ถูกต้อง (VES) ซึ่งเป็นการวัดประสิทธิภาพของการสืบค้น SQL ที่สร้างขึ้น คุณสามารถอ่านเพิ่มเติมเกี่ยวกับชุดข้อมูลการเปรียบเทียบแต่ละชุดได้ในหน้าเว็บที่เกี่ยวข้อง
ชุดข้อมูล Spider และ BIRD ได้รับการพิสูจน์แล้วว่าเป็นชุดข้อมูลที่เชื่อถือได้และแข็งแกร่งเพื่อใช้เปรียบเทียบเทคนิค Text-to-SQL และแม้แต่ปรับแต่งโมเดลด้วย ตลอดโมดูลนี้ เราจะอ้างอิงถึงชุดข้อมูลเหล่านี้และลีดเดอร์บอร์ดที่เกี่ยวข้องเพื่อสาธิตวิธีการแปลงข้อความเป็น SQL ที่มีประสิทธิภาพมากที่สุด
ตามกระดานผู้นำ BIRD ความทันสมัยสำหรับปัญหา Text-to-SQL อยู่ที่ความแม่นยำในการดำเนินการ 60% แม้ว่าประสิทธิภาพการทำงานของมนุษย์จะยังไม่เพียงพอ แต่โปรดทราบว่าในหนึ่งปีเราได้ย้ายจากโมเดล T5 พื้นฐานซึ่งมี EM 7% ไปเป็นหนึ่งปีให้หลังพบว่า EM เกิน 60% เรารู้สึกตื่นเต้นที่ได้เห็นว่าสิ่งนี้จะดีขึ้นอย่างไรในปีต่อๆ ไป เนื่องจากโมเดลและเทคนิคเหล่านี้ยังคงได้รับการวิจัยต่อไป
สิ่งสำคัญที่ควรทราบคือเทคนิคเหล่านี้ได้รับการปรับให้เหมาะสมสำหรับสิ่งเดียว ซึ่งก็คือการสร้างแบบสอบถาม SQL ที่ถูกต้อง กระดานผู้นำเหล่านี้ไม่ได้ประเมินแง่มุมที่สำคัญบางประการของเทคนิคเหล่านี้ ที่สำคัญที่สุดคือความเร็ว เทคนิคเหล่านี้จำนวนมากแสดงให้เห็นถึงความเร็วลูกโซ่พร้อมท์แบบ end-to-end ที่ใช้เวลาเพียงไม่กี่วินาที ซึ่งกรณีการใช้งานระบบธุรกิจอัจฉริยะแบบ Zero-Shot จำนวนมากไม่สามารถยอมรับได้ นอกจากนี้ หลายคนยังทำการอนุมานหลายครั้งกับ LLM เพื่อให้เหตุผลที่จำเป็นสมบูรณ์ ซึ่งสามารถผลักดันต้นทุนต่อการสืบค้นได้อย่างมาก
เวิร์กชอปนี้ได้รับการออกแบบให้เป็นความก้าวหน้าของเทคนิคการแปลงข้อความเป็น SQL โดยเริ่มจากวิศวกรรมพร้อมท์ที่มีประสิทธิภาพ โค้ดทั้งหมดอยู่ในรูปแบบของ Jupyter Notebooks ซึ่งโฮสต์ใน SageMaker Studio เมื่อคุณพร้อมที่จะเริ่มต้นแล้ว ให้ไปที่การตั้งค่าเพื่อเริ่มปรับใช้ทรัพยากรที่จำเป็นสำหรับเวิร์กชอปนี้
ด้านล่างนี้คือโครงร่างของเนื้อหาเวิร์กชอป: