今天小編分享的科學經驗:浙大開源“最懂Excel的GPT”!首次将結構化數據作為獨立模态訓練,刷榜提升40百分點,歡迎閱讀。
大模型理解復雜表格,能力再次飛升了!
不僅能在不規則表格中精準找到相關信息,還能直接進行計算。
比如提問:
如果 2022 年出口總額的人民币計價比實際數值少了 10%,請計算新的出口總額并與實際數據比較。
普通的大模型要麼找不到正确的單元格信息,要麼會計算錯誤。
而最新模型給出了正确回答:
實際出口總額為 121324327.3663 萬元,減少 10% 後的出口總額為 109191894.62967001 萬元。
這就是由 LeCun 高徒、浙江大學博導趙俊博領銜打造的TableGPT2。
它首次将結構化數據作為獨立模态進行訓練,這意味着大模型将不再依賴長上下文視窗,而是直接理解數據庫、Excel、數倉中的數據,進而搞定 SQL、分析、增删改查等相關任務。
要知道,結構化數據已是無處不在,從 BI(商業智能)到當下爆火的具身智能,大模型想要被更充分精準應用于這些領網域,就不能再單純以 " 文科生 " 的形式去學習。
由此趙俊博等人耗時 1 年帶來了更強大的 TableGPT2。
在 23 個基準測試中,TableGPT2 都表現優異,平均性能提高35.20%(7B 模型)和49.32%(72B 模型)。
目前團隊已将兩個版本的模型、一個 Agent 工作流以及 RealTabBench 中的一個子集開源。
關鍵在表格編碼器
在 TableGPT2 之前,業界幾乎沒有人嘗試将結構化數據作為獨立模态。這主要有兩方面原因——
第一,數據庫中表格的空間關系存在特殊性。比如在影像視頻上任意交換像素或者詞的 token,都會改變數據的本質,這說明兩種模态之間具備空間依賴關系。但是在數據庫的表格中,随機交換 2 行或 2 列數據,表格本身并不會變化。目前我們缺乏工具和手段去應對結構化數據這種特點。
第二,結構化數據存在異質性。比如在 CV 領網域,RGB 是很客觀的表達,紅色就是紅色,藍色就是藍色,自然語言也是一樣。但是在結構化數據中,同樣一個表格資料欄下面的标記,在不同數據庫裡的意義可能截然不同。比如都是 "1,2,3",不同圖表中表示的内容可能完全不同。所以這種 " 異質性 " 要求大模型對整體的庫、表和資料欄都有理解,才能給出實際意義。這部分的對齊和傳統 LLM 對齊不太一樣。
不過這些問題也不是完全不能解決。
趙俊博介紹,針對表格數據,如果掩碼掉一個 " 子表 " 的一些單元格,加上資料欄、數據庫的信息輔助,是可以才出來掩碼信息的内容。這意味着盡管結構化數據的空間關系比較弱,但是本身還是有分布可以去學習的。
由此,研究團隊提出了 TableGPT2 工作。
它基于 Qwen2.5 系列模型,使用超過 860 億 token 進行預訓練,給大模型喂入了超過 59.38 萬張表和 236 萬高質量的查詢 - 表 - 輸出樣本,并創新性加入了一個表格編碼器,專門用于讀取和解釋表格數據。
模型主要框架包括以下幾個部分:
表格編碼器
LLM 解碼器
持續預訓練
監督微調
Agent 工作流
表格編碼器支持輸入整個表格,生成每列的緊湊嵌入。
采用雙維注意力機制,無需位置嵌入,同時進行分層特征提取,确保行和列的關系被有效捕捉。
再使用列對比方法,鼓勵模型學習有意義的、結構感知的語義表示。
具體實現上,通過 Q-former 樣式适配器對齊嵌入和文本輸入,引入可學習的查詢。
使用特殊标記(如 "" 和 "")區分表格特征與文本,這樣模型可以同時處理兩種模态。
應用聯合指令微調來增強文本信息、列嵌入和模式單元數據之間的對齊,提高模型對表格數據的理解和解釋能力。
值得一提的是,這個表格編碼器可以單獨使用。作者團隊透露,後續還将發表相關論文。
LLM 解碼器則基于 Qwen-2.5 模型,用于自然語言生成。
具體訓練部分,預訓練階段首先針對模型的編碼和推理能力進行加強。80% 的預訓練數據是有優質注釋的代碼,這和 DeepSeek-v2 的方法一致,以确保強大的編碼能力。
同時還融入了大量推理數據和特定領網域知識(比如金融、制造、生物等),以增強推理能力。
在數據處理層面,采用兩級過濾策略。
文檔層面将數據标記為 54 個不同類别,token 層面利用 RHO-1 來微調高質量 token。
預訓練部分的數據由 86B 個 token 組成。
進行監督式微調主要是為了提高模型在 BI 特定任務中的表現。
作者構建了一個包含 236 萬條樣本的數據集,主要覆蓋多輪對話、復雜推理、工具使用和高度特定的業務查詢場景,包含代碼生成、數據可視化、統計測試和預測建模等表格任務。
通過模糊化資料欄引用、匿名化資料欄名等方法增強模型在處理復雜任務時的魯棒性。
最後來看 Agent 框架。
該框架由運行時 prompt、代碼沙箱和 agent 評估模塊共同增強 agent 的能力和可靠性。
具體工作流如下。首先通過 prompt 模塊處理輸入查詢,經過檢索增強處理後将查詢輸入到主模型中。然後 TableGPT2 與 VLM 協作,生成工具調用、代碼或其他相關操作。利用智能體的反思能力,觀察中間結果,判斷是否需要迭代。最終得到輸出。
部分基準下超越 GPT-4o
實驗階段,作者将 TableGPT2 與其他大模型進行性能對比。
對比對象主要分為兩類。
第一類為主流開源大模型,包括 DeepSeek-Coder-V2-Lite-16B、YiCoder-9B-Chat、Qwen2.5-Coder-7B-Instruct 和 Qwen2.5-7B-Instruct。
第二類為針對表格相關任務進行微調或專門開發的模型。包括 TableLLMs 和 CodeLlama-13B。
實驗主要評估模型的 6 方面任務:表格理解、問答、事實論證、表格到文本、自然語言到 SQL、整體評估。
在不同 benchmark 上,各個模型表現如下。TableGPT2 顯著優于絕大部分其他模型,并在一些基準上超越 GPT-4o。
結果顯示,TableGPT2 的 7B 模型和 72B 模型的平均準确率分别提高了 35.20% 和 49.32%。
此外,考慮到當下 benchmark 中針對表格異形問題、匿名問題或者治理較差的情況兼顧不佳,而實際落地中 90% 以上 case 都會出現類似情況。
作者還構建了一個新的 benchmark —— RealTabBench。它更加關注實際應用中真實出現的問題。
結果顯示在 RealTabBench 上,TableGPT2 表現也是最好。
另外,TableGPT2 不會導致基座模型通用能力下降。
LeCun 高徒 " 砸鍋賣鐵 " 開發
該研究來自浙江大學計算機與科學技術學院計算創新研究所。
由助理教授、博士生導師趙俊博領銜。
趙俊博于 2019 年獲得紐約大學計算機專業博士學位,師從圖靈獎得主、Meta 首席 AI 科學家、紐約大學教授 Yann LeCun。
他曾在 Meta(原 Facebook)人工智能實驗室(Facebook AI Research)任研究員,期間深度參與了深度學習主流框架 PyTorch 和向量數據庫 Faiss 的開發,并曾參與了内部通用對話機器人項目的前沿研究,該工作被視為大模型方向的早期產品化工作之一。
曾于 2015 年供職于英偉達半年時間,聯合主持開發了全球首個端到端的自動駕駛解決方案,該工作由英偉達創始人 Jensen Huang 在次年的 GTC 大會上做隆重介紹。
截至目前論文總被引數已超過 20000 次。
去年,趙俊博主持研發了 TableGPT。
這是全球首款對接關系數據庫和數據倉的大模型產品。
2024 年,團隊又繼續 "砸鍋賣鐵",給 TableGPT 更新了 V2 版本。
作為高校團隊,開發一個大模型意味着算力上要砸錢、數據收集工程優化上要出人,這中間有非常多的坑,需要消耗巨大人力财力。
而且 TableGPT2 的開發還有着諸多難點。
首先在技術上,構建一個在 table 上單獨模态的編碼器很難弄。它獨有的復雜結構和空間特點,以及資料欄語義信息對齊等,都有考驗。
其次在數據方面。結構化數據怎麼收集、清洗?标籤體系怎麼定制?如何把合成數據和人工數據合并?怎麼做到成本可控,都是問題。
以及監督微調部分,不光需要輸入輸出樣本對,而且需要收集表,專業領網域的數據表還需要專業人士進行标注……
不過為啥還是要做呢?
因為他們看到了大模型理解結構化數據背後更廣闊的應用前景。
趙俊博向量子位介紹,作為高校團隊,他們現在的工作更多是為了 " 趟路 "。
做結構化這件事,我們不會停留在 Excel 或者數據庫上面,下一步技術發展肯定是往硬體和具身智能領網域上走。
靈巧手的觸覺信息,還有具身智能領網域的視覺、聽覺等,廣義來說都屬于結構化數據,我們還想往這個方向再往前一步。
與此同時,TableGPT2 也會在產業落地上試水,希望能給從業者提供更好用的底座模型。
目前,團隊已經開源了這項工作的多個成果,後續也會發布表格編碼器的相關研究,感興趣的童鞋可以進一步了解 ~
[ 1 ] 論文地址:https://arxiv.org/html/2411.02059v1
[ 2 ] 一個可用 agent 的 git 倉庫: https://github.com/tablegpt/tablegpt-agent
[ 3 ] 模型開源:https://huggingface.co/tablegpt/TableGPT2-7B