รูปแบบภาษาขนาดใหญ่ (LLM) มีข้อบกพร่องในการประมวลผลข้อมูลตารางและทีมวิจัยของสถาบันนวัตกรรมคอมพิวเตอร์ของมหาวิทยาลัยเจ้อเจียงได้พัฒนารูปแบบ TableGPT2 เพื่อจุดประสงค์นี้ โมเดลนี้ช่วยให้การรวมและการประมวลผลข้อมูลแบบตารางอย่างมีประสิทธิภาพนำความเป็นไปได้ใหม่ ๆ มาสู่ระบบธุรกิจอัจฉริยะ (BI) และแอพพลิเคชั่นที่ขับเคลื่อนด้วยข้อมูลอื่น ๆ นวัตกรรมหลักของ TableGPT2 อยู่ในตัวเข้ารหัสตารางที่ไม่ซ้ำกันซึ่งสามารถจับข้อมูลโครงสร้างและข้อมูลเนื้อหาของเซลล์ได้อย่างมีประสิทธิภาพและเพิ่มความสามารถของโมเดลในการจัดการกับการสืบค้นฟัซซี่ชื่อคอลัมน์ที่หายไปและตารางที่ผิดปกติ ผ่านการฝึกอบรมล่วงหน้าและการปรับแต่งขนาดใหญ่รวมถึงการฝึกอบรมล่วงหน้าอย่างต่อเนื่อง (CPT) และการปรับแต่งการปรับแต่ง (SFT) อย่างต่อเนื่อง TableGPT2 แสดงให้เห็นถึงการเข้ารหัสที่แข็งแกร่งและความสามารถในการใช้เหตุผลที่สามารถจัดการงาน BI ที่ซับซ้อนได้
การเพิ่มขึ้นของแบบจำลองภาษาขนาดใหญ่ (LLM) ได้ปฏิวัติการใช้ปัญญาประดิษฐ์ แต่พวกเขามีข้อบกพร่องที่ชัดเจนในการประมวลผลข้อมูลตาราง ทีมวิจัยจากสถาบันการคำนวณนวัตกรรมการคำนวณของมหาวิทยาลัยเจ้อเจียงได้เปิดตัวโมเดลใหม่ที่เรียกว่า TableGPT2 ซึ่งสามารถรวมและประมวลผลข้อมูลตารางโดยตรงและมีประสิทธิภาพเปิดขึ้นสำหรับระบบธุรกิจอัจฉริยะ (BI) และแอพพลิเคชั่นอื่น ๆ
นวัตกรรมหลักของ TableGPT2 เป็นตัวเข้ารหัสตารางที่ไม่เหมือนใครที่ออกแบบมาโดยเฉพาะเพื่อจับภาพโครงสร้างและเนื้อหาของเซลล์ของตารางซึ่งจะช่วยเพิ่มความสามารถของโมเดลในการจัดการกับการสืบค้นฟัซซี่ชื่อคอลัมน์ที่หายไปและตารางที่ผิดปกติที่พบได้ทั่วไปในแอปพลิเคชันจริง TableGPT2 ขึ้นอยู่กับสถาปัตยกรรม QWEN2.5 และได้รับการฝึกอบรมก่อนการฝึกอบรมขนาดใหญ่และการปรับแต่งอย่างละเอียดซึ่งเกี่ยวข้องกับตารางมากกว่า 593,800 ตารางและ 2.36 ล้าน TUPLES-TABLE-TABLE-TABLE-TABLE-TABLE ซึ่งเป็นขนาดที่ไม่เคยมีมาก่อน ข้อมูลในการศึกษาก่อนหน้านี้
เพื่อปรับปรุงความสามารถในการเข้ารหัสและการอนุมานของ TableGPT2 นักวิจัยได้ทำการฝึกอบรมก่อนการฝึกอบรมอย่างต่อเนื่อง (CPT) โดยมี 80% ของข้อมูลที่เป็นรหัสที่มีคำอธิบายประกอบอย่างระมัดระวังเพื่อให้แน่ใจว่ามีความสามารถในการเข้ารหัสที่แข็งแกร่ง นอกจากนี้พวกเขายังได้รวบรวมข้อมูลการให้เหตุผลจำนวนมากและตำราเรียนที่มีความรู้เฉพาะโดเมนเพื่อเพิ่มความสามารถในการใช้เหตุผลของโมเดล ข้อมูล CPT สุดท้ายมีสัญลักษณ์คำที่กรองอย่างเคร่งครัด 86 พันล้านซึ่งให้ความสามารถในการเข้ารหัสและการใช้เหตุผลที่จำเป็นสำหรับ TableGPT2 เพื่อจัดการงาน BI ที่ซับซ้อนและงานอื่น ๆ ที่เกี่ยวข้อง
เพื่อจัดการกับข้อ จำกัด ของ TableGPT2 ในการปรับให้เข้ากับงานและสถานการณ์ที่เฉพาะเจาะจงนักวิจัยได้ทำการปรับแต่งอย่างละเอียดภายใต้การดูแล (SFT) พวกเขาสร้างชุดข้อมูลที่ครอบคลุมสถานการณ์ที่สำคัญและเป็นจริงที่หลากหลายรวมถึงการสนทนาหลายรอบการใช้เหตุผลที่ซับซ้อนการใช้เครื่องมือและการสืบค้นเชิงธุรกิจสูง ชุดข้อมูลนี้รวมคำอธิบายประกอบด้วยตนเองและกระบวนการคำอธิบายประกอบอัตโนมัติที่ขับเคลื่อนด้วยผู้เชี่ยวชาญเพื่อให้แน่ใจว่าคุณภาพข้อมูลและความเกี่ยวข้อง กระบวนการ SFT ใช้ตัวอย่างทั้งหมด 2.36 ล้านตัวอย่างการปรับปรุงแบบจำลองเพิ่มเติมเพื่อตอบสนองความต้องการเฉพาะของ BI และสภาพแวดล้อมอื่น ๆ ที่เกี่ยวข้องกับตาราง
TableGPT2 ยังแนะนำตัวเข้ารหัสตารางความหมายที่ใช้ตารางทั้งหมดเป็นอินพุตเพื่อสร้างชุดเวกเตอร์ฝังตัวขนาดกะทัดรัดสำหรับแต่ละคอลัมน์ สถาปัตยกรรมนี้ได้รับการปรับแต่งสำหรับคุณสมบัติที่ไม่ซ้ำกันของข้อมูลตารางและจับความสัมพันธ์ระหว่างแถวและคอลัมน์ได้อย่างมีประสิทธิภาพผ่านกลไกความสนใจแบบสองทางและกระบวนการสกัดคุณสมบัติแบบลำดับชั้น นอกจากนี้ยังใช้วิธีการเรียนรู้แบบคอลัมน์ความคมชัดเพื่อส่งเสริมรูปแบบเพื่อเรียนรู้การเป็นตัวแทนความหมายแบบตารางที่มีความหมายและตระหนักถึงโครงสร้าง
ในการรวม TableGPT2 เข้ากับเครื่องมือวิเคราะห์ข้อมูลระดับองค์กรได้อย่างราบรื่นนักวิจัยยังได้ออกแบบกรอบการทำงานของตัวแทนเวิร์กโฟลว์ เฟรมเวิร์กประกอบด้วยสามองค์ประกอบหลัก: วิศวกรรมพรอมต์รันไทม์, รหัสความปลอดภัย Sandbox และโมดูลการประเมินพร็อกซีซึ่งเพิ่มความสามารถและความน่าเชื่อถือของพร็อกซีร่วมกัน เวิร์กโฟลว์สนับสนุนงานการวิเคราะห์ข้อมูลที่ซับซ้อนผ่านขั้นตอนแบบแยกส่วน (อินพุตปกติการดำเนินการพร็อกซีและการเรียกใช้เครื่องมือ) ที่ทำงานร่วมกันเพื่อจัดการและตรวจสอบประสิทธิภาพของพร็อกซี ด้วยการรวมการสร้างการค้นหา (RAG) สำหรับการดึงบริบทที่มีประสิทธิภาพและรหัส Sandbox เพื่อการดำเนินการที่ปลอดภัยเฟรมเวิร์กทำให้มั่นใจได้ว่า TableGPT2 ให้ข้อมูลเชิงลึกที่แม่นยำ
นักวิจัยทำการประเมินอย่างกว้างขวางของ TableGPT2 ในตารางที่ใช้กันอย่างแพร่หลายและเกณฑ์มาตรฐานทั่วไปและผลลัพธ์แสดงให้เห็นว่า TableGPT2 ทำงานได้ดีในการทำความเข้าใจตารางการประมวลผลและการให้เหตุผลโดยมีการปรับปรุงประสิทธิภาพเฉลี่ย 7 พันล้านโมเดลพารามิเตอร์ 35.20%และ 720% ประสิทธิภาพเฉลี่ยของโมเดลพารามิเตอร์ 100 ล้านเพิ่มขึ้น 49.32% ในขณะที่รักษาประสิทธิภาพทั่วไปที่แข็งแกร่ง สำหรับการประเมินที่เป็นธรรมพวกเขาเปรียบเทียบ TableGPT2 กับโมเดลที่เป็นกลางแบบโอเพนซอร์สเช่น Qwen และ Deepseek เพื่อให้มั่นใจถึงประสิทธิภาพที่สมดุลและหลากหลายของโมเดลในงานที่หลากหลาย พวกเขายังแนะนำและเปิดตัวเกณฑ์มาตรฐานใหม่ Realtabbench ซึ่งเน้นตารางที่ไม่เป็นทางการทุ่งนาที่ไม่ระบุชื่อและการสืบค้นที่ซับซ้อนซึ่งสอดคล้องกับสถานการณ์ในชีวิตจริงมากขึ้น
แม้ว่า TableGPT2 จะได้รับประสิทธิภาพที่ทันสมัยในการทดลอง แต่ก็มีความท้าทายในการปรับใช้ LLM กับสภาพแวดล้อม BI ในโลกแห่งความเป็นจริง นักวิจัยชี้ให้เห็นว่าทิศทางการวิจัยในอนาคตรวมถึง:
การเข้ารหัสเฉพาะโดเมน: ช่วยให้ LLM สามารถปรับให้เข้ากับภาษาเฉพาะโดเมนเฉพาะขององค์กร (DSL) หรือรหัสหลอกเพื่อตอบสนองความต้องการเฉพาะของโครงสร้างพื้นฐานข้อมูลองค์กรได้ดีขึ้น
การออกแบบหลายตัวแทน: สำรวจวิธีการรวม LLM หลายตัวเข้ากับระบบ Unified อย่างมีประสิทธิภาพเพื่อจัดการกับความซับซ้อนของแอปพลิเคชันในโลกแห่งความเป็นจริง
การประมวลผลตารางแบบอเนกประสงค์: ปรับปรุงความสามารถของแบบจำลองในการจัดการตารางที่ผิดปกติเช่นเซลล์ที่ผสานและโครงสร้างที่ไม่สอดคล้องกันที่พบได้ทั่วไปใน Excel และหน้าเพื่อจัดการข้อมูลตารางในรูปแบบต่าง ๆ ในโลกแห่งความเป็นจริง
การเปิดตัว TableGPT2 เป็นความคืบหน้าอย่างมีนัยสำคัญใน LLM ในการประมวลผลข้อมูลตารางนำความเป็นไปได้ใหม่ ๆ มาสู่ระบบธุรกิจอัจฉริยะและแอปพลิเคชันที่ขับเคลื่อนด้วยข้อมูลอื่น ๆ ฉันเชื่อว่าในขณะที่การวิจัยยังคงลึกซึ้งยิ่งขึ้น TableGPT2 จะมีบทบาทสำคัญมากขึ้นในด้านการวิเคราะห์ข้อมูลในอนาคต
ที่อยู่กระดาษ: https://arxiv.org/pdf/2411.02059V1
โดยรวมแล้ว TableGPT2 ได้รับผลลัพธ์ที่น่าทึ่งในการประมวลผลข้อมูลตารางด้วยสถาปัตยกรรมที่เป็นนวัตกรรมและวิธีการฝึกอบรมทำให้มันโดดเด่นในการเปรียบเทียบหลายแบบ ทิศทางการวิจัยในอนาคตจะยังคงมุ่งเน้นไปที่ความสามารถในการปรับตัวและการปฏิบัติจริงของแบบจำลองเพื่อตอบสนองความต้องการของแอพพลิเคชั่นระบบธุรกิจอัจฉริยะในโลกแห่งความเป็นจริง