通用圖大模型HiGPT：一己之力建模任何圖結構關系！來自港大數據智能實驗室&百度

今天小編分享的科學經驗：通用圖大模型HiGPT：一己之力建模任何圖結構關系！來自港大數據智能實驗室&百度，歡迎閲讀。

一個模型建模所有圖結構關系——

香港大學數據智能實驗室最新圖結構大模型來了。

它叫HiGPT，由 GraphGPT 原班人馬打造。

後者是将圖數據與大模型結合的代表方法之一：

通過用圖指令微調将圖數據與大模型對齊，在下遊任務上一度彰顯了驚人的泛化性（Zero-Shot）。

不過，GraphGPT 僅針對同質圖進行了驗證，對于生活中更常出現的異質圖 " 無能為力 "。

簡而言之，也就是只擅長簡單的任務，復雜的還不行。

（異質圖：即結點和邊的類型更多樣。例如社交網絡中用户、帖子和評論之間的關系）

基于此，HiGPT 誕生，專攻復雜的異質圖學習任務，并真正做到了 " 一個模型，建模任意關系類型 "。

由此，一個通用圖大模型就誕生了。

以後我們無論是用大模型做社交網絡分析、生物信息還是城市計算這些常見圖任務，都能 hold 更多有難度的 case 了。

Hi，異質圖 GPT

想要一個模型實現所有異質結構關系的泛化，面臨的挑戰有三：

C1. 關系類型異質性偏移：

當前幾乎所有的異質圖神經網絡在建模異質關系是常常會為單個異質圖的每個節點和關系類型定制參數，這使得當不同異質圖之間結點和關系類型發生改變時，即關系類型異質性偏移，zero-shot 的泛化将非常困難。

C2. 復雜異質圖結構：

由于異質圖存在多種多樣的異質結點和關系類型，如何讓大語言模型具有分辨不同異質類型的能力，從而提取有用的異質結構信息，進一步完成各種下遊任務的泛化也是需要考慮的問題。

C3. 模型微調的數據稀缺：

在圖學習研究社區，數據不足或者數據确實問題是公認的挑戰。如何在有限的監督信号下學習得到更強泛化的模型也是不可避免的問題。

那麼，具體來看看，HiGPT 是如何實現的。

該方法的框架圖如下所示：

針對 C1，C2，C3，作者分别提出 S1，S2，S3 對應解決：

S1. 上下文異質圖 Tokenizer。

為了在具有不同節點和邊類型的各種異質圖場景中實現泛化性，我們引入了上下文異質圖 Tokenizer。

這個 Tokenizer 捕捉到了不同異質圖中存在的各種語義關系，提供了一個統一的建模方法。

它包括兩個重要組件：1）上下文參數化異質性投影器：利用自然語言對不同的節點和邊類型進行編碼；2）參數分配器：動态地為 Tokenizer 分配定制的參數。

為了優化性能并将 Tokenizer 無縫集成到 HiGPT 框架中，作者采用了輕量級的文本 - 圖對比對齊範式來預訓練 Tokenizer。

預訓練之後，直接将 Tokenizer 集成到 HiGPT 中，經過預訓練的 Tokenizer 提高了其語義建模能力，并确保了其在整個模型架構中運行平穩。

S2. 異質圖指令微調。 作者引入了一種新穎的異質圖指令微調框架，該框架引入了跨類型和同類型 token 匹配任務來微調大語言模型。

框架專門針對提高大語言模型對異質關系感知和同質關系感知的理解。通過這些任務，作者的目标是增強大語言模型在以下方面的能力：

（i）區分不同類型的圖 tokens（異質關系感知），（ii）區分相同類型的圖 tokens 直接的對應關系（同質關系感知），以及（iii）在下遊任務中有效利用異質關系感知和同質關系感知能力。

設計的指令微調任務的指令模版如下表所示：

S3. Mixture-of-Thought 指令增強。 為了解決異質圖學習下遊任務監督信号不足的問題，作者引入了一種用于增強圖指令的新機制 Mixture-of-Thought（MoT），即混合各種提示技術結合使用。

這種集成使我們能夠生成一組多樣化和全面的信息豐富的下遊任務指令。

通過無縫地将這些增強的圖指令集成到框架中，将有效地解決數據稀疏性的挑戰。

具體地，作者結合了四種常見的提示技術，即 Chain-of-Thought，Tree-of-Thought，PanelGPT 和 Generated Knowledge Prompting，通過 ChatGPT 模拟正确的推理結果，最後将多樣的推理結果作為下遊任務指令微調的訓練數據，做到不增加監督信号的情況下增加（增強）了訓練數據規模。

工作流程如下圖所示：