大型語言模型(LLM)在處理表格數據方面存在不足,浙江大學計算創新研究院的研究團隊為此開發了TableGPT2模型。該模型能夠高效整合和處理表格數據,為商業智能(BI)和其他數據驅動型應用帶來新的可能性。 TableGPT2的核心創新在於其獨特的表格編碼器,該編碼器能夠有效捕獲表格的結構信息和單元格內容信息,並增強模型處理模糊查詢、缺失列名和不規則表格的能力。通過大規模預訓練和微調,以及持續預訓練(CPT)和監督微調(SFT),TableGPT2展現出強大的編碼和推理能力,能夠處理複雜的BI任務。
大型語言模型(LLM)的崛起為人工智能應用帶來了革命性的變化,然而,它們在處理表格數據方面卻存在著明顯的不足。 浙江大學計算創新研究院的研究團隊針對這一問題,推出了一款名為TableGPT2的全新模型,它能夠直接且高效地整合和處理表格數據,為商業智能(BI)和其他數據驅動型應用開闢了新的可能性。
TableGPT2的核心創新在於其獨特的表格編碼器,該編碼器專門設計用於捕獲表格的結構信息和單元格內容信息,從而增強模型處理現實應用中常見的模糊查詢、缺失列名和不規則表格的能力。 TableGPT2基於Qwen2.5架構,並經過了大規模的預訓練和微調,涉及超過59.38萬個表格和236萬個高質量的查詢-表格-輸出元組,這是先前研究中前所未有的表格相關數據規模。
為了提升TableGPT2的編碼和推理能力,研究人員對其進行了持續預訓練(CPT),其中80% 的數據是精心註釋的代碼,以確保其具備強大的編碼能力。 此外,他們還收集了大量的推理數據和包含特定領域知識的教科書,以增強模型的推理能力。 最終的CPT 數據包含860億個經過嚴格篩選的詞符,這為TableGPT2處理複雜的BI 任務和其他相關任務提供了必要的編碼和推理能力。
為了解決TableGPT2在適應特定BI 任務和場景方面的局限性,研究人員對其進行了監督微調(SFT)。 他們構建了一個涵蓋各種關鍵和現實場景的數據集,包括多輪對話、複雜推理、工具使用和高度業務化的查詢。 該數據集結合了人工標註和專家驅動的自動標註流程,確保了數據的質量和相關性。 SFT 過程共使用了236萬個樣本,進一步完善了模型,使其能夠滿足BI 和其他涉及表格的環境的特定需求。
TableGPT2還創新性地引入了語義表格編碼器,該編碼器將整個表格作為輸入,為每一列生成一組緊湊的嵌入向量。 這種架構針對錶格數據的獨特屬性進行了定制,通過雙向注意力機制和分層特徵提取過程,有效地捕捉了行和列之間的關係。 此外,還採用了列式對比學習方法,鼓勵模型學習有意義的、結構感知的表格語義表示。
為了將TableGPT2與企業級數據分析工具無縫集成,研究人員還設計了代理工作流運行時框架。 該框架包含三個核心組件:運行時提示工程、安全代碼沙箱和代理評估模塊,共同增強了代理的能力和可靠性。 工作流通過模塊化步驟(輸入規範化、代理執行和工具調用)支持複雜的數據分析任務,這些步驟協同工作以管理和監控代理的性能。 通過整合用於高效上下文檢索的檢索增強生成(RAG)和用於安全執行的代碼沙箱,該框架確保TableGPT2在實際問題中提供準確、上下文相關的見解。
研究人員在各種廣泛使用的表格和通用基準測試中對TableGPT2進行了廣泛的評估,結果表明,TableGPT2在表格理解、處理和推理方面表現出色,70億參數模型的平均性能提升了35.20%,720億參數模型的平均性能提升了49.32%,同時保持了強大的通用性能。 為了進行公平的評估,他們僅將TableGPT2與開源的基準中性模型(如Qwen 和DeepSeek)進行比較,確保了模型在各種任務上的均衡、多功能性能,而不會過度擬合任何單個基準測試。 他們還引入並部分發布了一個新的基準測試——RealTabBench,該基準測試強調非常規表格、匿名字段和復雜查詢,更符合現實場景。
儘管TableGPT2在實驗中取得了最先進的性能,但在將LLM 部署到現實世界的BI 環境中仍然存在挑戰。 研究人員指出,未來的研究方向包括:
特定領域編碼:使LLM 能夠快速適應企業特定的領域特定語言(DSL)或偽代碼,以更好地滿足企業數據基礎設施的特定需求。
多代理設計:探索如何有效地將多個LLM 集成到一個統一的系統中,以處理現實應用的複雜性。
多功能表格處理:改進模型處理不規則表格的能力,例如Excel 和Pages 中常見的合併單元格和不一致的結構,以更好地處理現實世界中各種形式的表格數據。
TableGPT2的推出標誌著LLM 在處理表格數據方面取得了重大進展,為商業智能和其他數據驅動型應用帶來了新的可能性。 相信隨著研究的不斷深入,TableGPT2將在未來的數據分析領域發揮越來越重要的作用。
論文地址:https://arxiv.org/pdf/2411.02059v1
總而言之,TableGPT2在處理表格數據方面取得了顯著成果,其創新性的架構和訓練方法使其在多個基準測試中表現出色。 未來研究方向將繼續關注模型的適應性和實用性,以更好地滿足現實世界商業智能應用的需求。