ทีมวิจัยของสถาบันนวัตกรรมคอมพิวเตอร์แห่งมหาวิทยาลัยเจ้อเจียงได้ค้นพบความก้าวหน้าในการแก้ปัญหาความสามารถไม่เพียงพอของโมเดลภาษาขนาดใหญ่ในการประมวลผลข้อมูลแบบตาราง และเปิดตัวโมเดลใหม่ TableGPT2 ด้วยตัวเข้ารหัสตารางที่เป็นเอกลักษณ์ TableGPT2 สามารถประมวลผลข้อมูลตารางต่างๆ ได้อย่างมีประสิทธิภาพ นำมาซึ่งการเปลี่ยนแปลงที่ปฏิวัติวงการในแอปพลิเคชันที่ขับเคลื่อนด้วยข้อมูล เช่น ระบบธุรกิจอัจฉริยะ (BI) บรรณาธิการของ Downcodes จะอธิบายรายละเอียดเกี่ยวกับนวัตกรรมและทิศทางการพัฒนาในอนาคตของ TableGPT2
การเพิ่มขึ้นของโมเดลภาษาขนาดใหญ่ (LLM) ได้นำมาซึ่งการเปลี่ยนแปลงครั้งยิ่งใหญ่ในการประยุกต์ใช้ปัญญาประดิษฐ์ อย่างไรก็ตาม แบบจำลองเหล่านี้มีข้อบกพร่องที่ชัดเจนในการประมวลผลข้อมูลแบบตาราง เพื่อแก้ไขปัญหานี้ ทีมวิจัยจากสถาบันนวัตกรรมคอมพิวเตอร์แห่งมหาวิทยาลัยเจ้อเจียงได้เปิดตัวโมเดลใหม่ที่เรียกว่า TableGPT2 ซึ่งสามารถผสานรวมและประมวลผลข้อมูลแบบตารางได้โดยตรงและมีประสิทธิภาพ เปิดช่องทางใหม่สำหรับระบบธุรกิจอัจฉริยะ (BI) และข้อมูลอื่น ๆ ที่ขับเคลื่อนด้วย ความเป็นไปได้ใหม่ๆ
นวัตกรรมหลักของ TableGPT2 อยู่ที่ตัวเข้ารหัสตารางอันเป็นเอกลักษณ์ ซึ่งได้รับการออกแบบมาเป็นพิเศษเพื่อเก็บข้อมูลโครงสร้างและข้อมูลเนื้อหาเซลล์ของตาราง จึงช่วยเพิ่มความสามารถของโมเดลในการจัดการคำสั่งที่ไม่ชัดเจน ชื่อคอลัมน์ที่หายไป และตารางที่ผิดปกติซึ่งพบเห็นได้ทั่วไปในชีวิตจริง - การใช้งานทั่วโลก TableGPT2 ใช้สถาปัตยกรรม Qwen2.5 และผ่านการฝึกอบรมล่วงหน้าและการปรับแต่งขนาดใหญ่ ซึ่งเกี่ยวข้องกับตารางมากกว่า 593,800 ตารางและทูเปิลเอาต์พุตตารางสืบค้นคุณภาพสูง 2.36 ล้านรายการ ซึ่งเป็นระดับที่ไม่เคยมีมาก่อนที่เกี่ยวข้องกับตาราง ข้อมูลในการวิจัยครั้งก่อน
เพื่อปรับปรุงความสามารถในการเขียนโค้ดและการให้เหตุผลของ TableGPT2 นักวิจัยได้ทำการฝึกอบรมล่วงหน้าอย่างต่อเนื่อง (CPT) โดยที่ข้อมูล 80% ได้รับการใส่โค้ดที่มีคำอธิบายประกอบอย่างระมัดระวัง เพื่อให้แน่ใจว่ามีความสามารถในการเขียนโค้ดที่แข็งแกร่ง นอกจากนี้ พวกเขายังรวบรวมข้อมูลการอนุมานและหนังสือเรียนที่มีความรู้เฉพาะโดเมนจำนวนมาก เพื่อปรับปรุงความสามารถในการอนุมานของโมเดล ข้อมูล CPT สุดท้ายประกอบด้วยโทเค็นที่กรองอย่างเข้มงวดจำนวน 86 พันล้านโทเค็น ซึ่งมอบความสามารถในการเข้ารหัสและการให้เหตุผลที่จำเป็นสำหรับ TableGPT2 เพื่อจัดการงาน BI ที่ซับซ้อนและงานอื่นๆ ที่เกี่ยวข้อง
เพื่อแก้ไขข้อจำกัดของ TableGPT2 ในการปรับให้เข้ากับงานและสถานการณ์ BI เฉพาะเจาะจง นักวิจัยได้ดำเนินการปรับแต่งแบบละเอียดภายใต้การดูแล (SFT) พวกเขาสร้างชุดข้อมูลที่ครอบคลุมสถานการณ์ที่สำคัญและในโลกแห่งความเป็นจริงที่หลากหลาย รวมถึงการสนทนาหลายรอบ การใช้เหตุผลที่ซับซ้อน การใช้เครื่องมือ และการสอบถามเชิงธุรกิจในระดับสูง ชุดข้อมูลจะรวมคำอธิบายประกอบแบบแมนนวลเข้ากับกระบวนการคำอธิบายประกอบอัตโนมัติที่ขับเคลื่อนโดยผู้เชี่ยวชาญ เพื่อให้มั่นใจในคุณภาพและความเกี่ยวข้องของข้อมูล กระบวนการ SFT โดยใช้ตัวอย่างทั้งหมด 2.36 ล้านตัวอย่าง ได้ปรับปรุงแบบจำลองเพิ่มเติมเพื่อตอบสนองความต้องการเฉพาะของ BI และสภาพแวดล้อมอื่นๆ ที่เกี่ยวข้องกับตาราง
นอกจากนี้ TableGPT2 ยังแนะนำตัวเข้ารหัสตารางความหมายอย่างสร้างสรรค์ที่รับทั้งตารางเป็นอินพุต และสร้างชุดเวกเตอร์แบบฝังขนาดกะทัดรัดสำหรับแต่ละคอลัมน์ สถาปัตยกรรมนี้ได้รับการปรับแต่งสำหรับคุณสมบัติเฉพาะของข้อมูลแบบตาราง โดยสามารถจับความสัมพันธ์ระหว่างแถวและคอลัมน์ได้อย่างมีประสิทธิภาพผ่านกลไกความสนใจแบบสองทิศทางและกระบวนการแยกคุณลักษณะแบบลำดับชั้น นอกจากนี้ ยังมีการนำวิธีการเรียนรู้แบบเปรียบเทียบแบบคอลัมน์มาใช้เพื่อส่งเสริมให้โมเดลเรียนรู้การแสดงความหมายแบบตารางที่มีความหมายและคำนึงถึงโครงสร้าง
เพื่อที่จะผสานรวม TableGPT2 เข้ากับเครื่องมือวิเคราะห์ข้อมูลระดับองค์กรได้อย่างราบรื่น นักวิจัยยังได้ออกแบบเฟรมเวิร์กรันไทม์เวิร์กโฟลว์ของตัวแทนด้วย เฟรมเวิร์กประกอบด้วยองค์ประกอบหลักสามส่วน ได้แก่ วิศวกรรมคำแนะนำรันไทม์ แซนด์บ็อกซ์โค้ดที่ปลอดภัย และโมดูลการประเมินตัวแทน ซึ่งร่วมกันเพิ่มความสามารถและความน่าเชื่อถือของตัวแทน เวิร์กโฟลว์รองรับงานการวิเคราะห์ข้อมูลที่ซับซ้อนผ่านขั้นตอนแบบโมดูลาร์ (การทำให้อินพุตเป็นมาตรฐาน การดำเนินการของตัวแทน และการเรียกใช้เครื่องมือ) ที่ทำงานร่วมกันเพื่อจัดการและตรวจสอบประสิทธิภาพของตัวแทน ด้วยการผสานรวมการดึงข้อมูล Augmented Generation (RAG) เพื่อการดึงข้อมูลตามบริบทที่มีประสิทธิภาพและแซนด์บ็อกซ์โค้ดเพื่อการดำเนินการที่ปลอดภัย เฟรมเวิร์กนี้ช่วยให้มั่นใจได้ว่า TableGPT2 จะให้ข้อมูลเชิงลึกที่แม่นยำและไวต่อบริบทในปัญหาในโลกแห่งความเป็นจริง
นักวิจัยได้ทำการประเมิน TableGPT2 อย่างครอบคลุมโดยใช้เกณฑ์มาตรฐานแบบตารางและแบบทั่วไปที่ใช้กันอย่างแพร่หลาย ผลการวิจัยพบว่า TableGPT2 มีความเป็นเลิศในด้านความเข้าใจในตาราง การประมวลผล และการใช้เหตุผล โดยมีการปรับปรุงประสิทธิภาพโดยเฉลี่ย 35.20% สำหรับโมเดลพารามิเตอร์ 7 พันล้านตัว หรือ 720 ประสิทธิภาพโดยเฉลี่ยของโมเดลพารามิเตอร์ 100 ล้านตัวเพิ่มขึ้น 49.32% ในขณะที่ยังคงประสิทธิภาพโดยรวมที่แข็งแกร่งไว้ เพื่อการประเมินที่ยุติธรรม พวกเขาเปรียบเทียบ TableGPT2 กับโมเดลโอเพ่นซอร์สที่เป็นกลาง เช่น Qwen และ DeepSeek เพื่อให้มั่นใจถึงประสิทธิภาพที่สมดุลและอเนกประสงค์ของโมเดลในงานต่างๆ โดยไม่ต้องทดสอบการวัดประสิทธิภาพใดๆ มากเกินไป พวกเขายังแนะนำและเปิดตัวเกณฑ์มาตรฐานใหม่บางส่วนนั่นคือ RealTabBench ซึ่งเน้นตารางที่แปลกใหม่ ฟิลด์ที่ไม่ระบุตัวตน และการสืบค้นที่ซับซ้อนเพื่อให้สอดคล้องกับสถานการณ์ในชีวิตจริงมากขึ้น
แม้ว่า TableGPT2 จะได้รับประสิทธิภาพที่ล้ำสมัยในการทดลอง แต่ความท้าทายยังคงมีอยู่ในการปรับใช้ LLM ในสภาพแวดล้อม BI ในโลกแห่งความเป็นจริง นักวิจัยตั้งข้อสังเกตว่าแนวทางการวิจัยในอนาคต ได้แก่ :
การเข้ารหัสเฉพาะโดเมน: ช่วยให้ LLM สามารถปรับภาษาเฉพาะโดเมนเฉพาะองค์กร (DSL) หรือรหัสเทียมได้อย่างรวดเร็ว เพื่อตอบสนองความต้องการเฉพาะของโครงสร้างพื้นฐานข้อมูลขององค์กรได้ดียิ่งขึ้น
การออกแบบหลายตัวแทน: สำรวจวิธีการรวม LLM หลายรายการเข้ากับระบบที่เป็นหนึ่งเดียวอย่างมีประสิทธิภาพ เพื่อจัดการกับความซับซ้อนของแอปพลิเคชันในโลกแห่งความเป็นจริง
การประมวลผลตารางที่หลากหลาย: ปรับปรุงความสามารถของโมเดลในการจัดการตารางที่ผิดปกติ เช่น เซลล์ที่ผสานและโครงสร้างที่ไม่สอดคล้องกันซึ่งพบได้ทั่วไปใน Excel และ Pages เพื่อให้จัดการข้อมูลตารางในรูปแบบต่างๆ ในโลกแห่งความเป็นจริงได้ดีขึ้น
การเปิดตัว TableGPT2 ถือเป็นความก้าวหน้าที่สำคัญของ LLM ในการประมวลผลข้อมูลแบบตาราง โดยนำเสนอความเป็นไปได้ใหม่ๆ สำหรับระบบธุรกิจอัจฉริยะและแอปพลิเคชันที่ขับเคลื่อนด้วยข้อมูลอื่นๆ ฉันเชื่อว่าในขณะที่การวิจัยยังคงเข้มข้นขึ้น TableGPT2 จะมีบทบาทสำคัญมากขึ้นในด้านการวิเคราะห์ข้อมูลในอนาคต
ที่อยู่กระดาษ: https://arxiv.org/pdf/2411.02059v1
การเกิดขึ้นของ TableGPT2 ได้นำรุ่งอรุณใหม่มาสู่ระบบธุรกิจอัจฉริยะ ความสามารถในการประมวลผลข้อมูลตารางที่มีประสิทธิภาพและความสามารถในการปรับขนาดที่แข็งแกร่งบ่งชี้ว่าการวิเคราะห์ข้อมูลจะชาญฉลาดและสะดวกยิ่งขึ้นในอนาคต เราหวังว่าจะมีการใช้ TableGPT2 อย่างแพร่หลายมากขึ้นในอนาคต และนำคุณค่ามาสู่ทุกสาขาอาชีพมากขึ้น