圖學習領域的數(shù)據(jù)饑荒問題,又有能緩解的新花活了!
OpenGraph,一個基于圖的基礎模型,專門用于在多種圖數(shù)據(jù)集上進行零樣本預測。
背后是港大數(shù)據(jù)智能實驗室的主任Chao Huang團隊,他們還針對圖模型提出了提示調整技術,以提高模型對新任務的適應性。
目前,這項工作已經掛上了GitHub。
據(jù)介紹,這項工作主要深入探討增強圖模型泛化能力的策略(特別是在訓練和測試數(shù)據(jù)存在顯著差異時)。
而OpenGraph旨在通過學習通用的圖結構模式,并僅通過前向傳播進行預測,實現(xiàn)對全新數(shù)據(jù)的零樣本預測。
為了實現(xiàn)目標,團隊解決了以下3點挑戰(zhàn):
數(shù)據(jù)集間的token差異:不同圖數(shù)據(jù)集常有不同的圖token集,我們需要模型能夠跨數(shù)據(jù)集進行預測。
節(jié)點關系建模:在構建通用圖模型時,有效地建模節(jié)點關系至關重要,這關系到模型的擴展性和效率。
數(shù)據(jù)稀缺:面對數(shù)據(jù)獲取的難題,我們通過大型語言模型進行數(shù)據(jù)增強,以模擬復雜的圖結構關系,提升模型訓練質量。
通過一系列創(chuàng)新方法,如拓撲感知的圖Tokenizer和基于錨點的圖Transformer,OpenGraph有效應對上述挑戰(zhàn),在多個數(shù)據(jù)集上的測試結果證明了模型的出色泛化能力。
OpenGraph模型
OpenGraph模型架構主要由3個核心部分組成:
1)統(tǒng)一圖Tokenizer;
2)可擴展的圖Transformer;
3)基于大語言模型的知識蒸餾技術。
首先來說說統(tǒng)一圖Tokenizer。
為了適應不同數(shù)據(jù)集的節(jié)點和邊的差異,團隊開發(fā)了統(tǒng)一圖Tokenizer,它將圖數(shù)據(jù)標準化為token序列。
這一過程包括高階鄰接矩陣平滑化和拓撲感知映射。
高階鄰接矩陣平滑化即利用鄰接矩陣的高階冪來解決連接稀疏的問題,而拓撲感知映射則是將鄰接矩陣轉換為節(jié)點序列,并使用快速奇異值分解(SVD)最小化信息損失,保留更多的圖結構信息。
其次是可擴展的圖Transformer。
在token化后,OpenGraph使用Transformer架構模擬節(jié)點間的依賴,主要采用以下技術優(yōu)化模型性能和效率:
一來是token序列采樣,通過采樣技術減少模型需要處理的關系數(shù)量,從而降低訓練的時間和空間復雜度。
二來是錨點采樣的自注意力機制。此方法進一步降低計算復雜度,通過分階段學習節(jié)點間的信息傳遞,有效提高模型的訓練效率和穩(wěn)定性。
最后是大語言模型知識蒸餾。
為了應對培訓通用圖模型時面臨的數(shù)據(jù)隱私和種類多樣性問題,團隊從大語言模型(LLM)的知識和理解能力中獲得靈感,使用LLM生成各種圖結構數(shù)據(jù)。
這一數(shù)據(jù)增強機制通過模擬真實世界圖的特征,有效提升了數(shù)據(jù)的質量和實用性。
團隊還首先生成適應特定應用的節(jié)點集,每個節(jié)點擁有文本描述以便生成邊。
在面對如電子商務平臺這種大規(guī)模節(jié)點集時,研究人員通過將節(jié)點細分為更具體的子類別來處理。
例如,從“電子產品”細化到具體的“移動電話”“筆記本電腦”等,此過程反復進行,直到節(jié)點精細到接近真實實例。
提示樹算法則按樹狀結構將節(jié)點細分,并生成更細致的實體。
從一般的類別如“產品”開始,逐步細化到具體的子類別,最終形成節(jié)點樹。
至于邊的生成,利用吉布斯采樣,研究人員基于已生成的節(jié)點集來形成邊。
為了減少計算負擔,我們不直接通過LLM遍歷所有可能的邊,而是先利用LLM計算節(jié)點間的文本相似度,再通過簡單的算法判斷節(jié)點關系。
在此基礎上,團隊引入了幾種技術調整:
動態(tài)概率標準化:通過動態(tài)調整,將相似度映射到更適合采樣的概率范圍內。
節(jié)點局部性:引入局部性概念,只在節(jié)點的局部子集間建立連接,模擬現(xiàn)實世界中的網絡局部性。
圖拓撲模式注入:使用圖卷積網絡修正節(jié)點表示,以更好地適應圖結構特征,減少分布偏差。
以上步驟確保了生成的圖數(shù)據(jù)不僅豐富多樣,而且貼近現(xiàn)實世界的連接模式和結構特性。
實驗驗證與性能分析
需要注意,該實驗專注于使用僅由LLM生成的數(shù)據(jù)集訓練OpenGraph模型,并在多樣化的真實場景數(shù)據(jù)集上進行測試,涵蓋節(jié)點分類和鏈接預測任務。
實驗設計如下:
零樣本設置。
為了評估OpenGraph在未見過的數(shù)據(jù)上的表現(xiàn),我們在生成的訓練集上訓練模型,然后在完全不同的真實測試集上進行評估。確保了訓練和測試數(shù)據(jù)在節(jié)點、邊和特征上均無重合。
少樣本設置。
考慮到許多方法難以有效執(zhí)行零樣本預測,我們引入少樣本設置,基線模型在預訓練數(shù)據(jù)上預訓練后,采用k-shot樣本進行微調。
在2個任務和8個測試集上的結果顯示,OpenGraph在零樣本預測中顯著優(yōu)于現(xiàn)有方法。
此外,現(xiàn)有預訓練模型在跨數(shù)據(jù)集任務中的表現(xiàn)有時不如從頭訓練的模型。
圖Tokenizer設計影響研究
同時,團隊探索了圖Tokenizer設計如何影響模型性能。
首先,通過實驗發(fā)現(xiàn),不進行鄰接矩陣平滑(平滑階數(shù)為0)會顯著降低性能,說明平滑處理的必要性。
然后,研究人員嘗試了幾種簡單的拓撲感知替代方案:跨數(shù)據(jù)集的獨熱編碼ID、隨機映射和基于節(jié)點度數(shù)的表示。
實驗結果顯示,這些替代方案性能均不理想。
具體來說,跨數(shù)據(jù)集的ID表示效果最差,基于度數(shù)的表示也表現(xiàn)不佳,而隨機映射雖稍好,但與優(yōu)化的拓撲感知映射相比,性能差距明顯。
數(shù)據(jù)生成技術的影響
團隊調查了不同預訓練數(shù)據(jù)集對OpenGraph性能的影響,包括使用基于LLM的知識蒸餾方法生成的數(shù)據(jù)集,以及幾個真實數(shù)據(jù)集。
實驗中比較的預訓練數(shù)據(jù)集包括從團隊生成方法中移除某項技術后的數(shù)據(jù)集、2個與測試數(shù)據(jù)集無關的真實數(shù)據(jù)集(Yelp2018和Gowalla)、1個與測試數(shù)據(jù)集類似的真實數(shù)據(jù)集(ML-10M)。
實驗結果顯示,生成數(shù)據(jù)集在所有測試集上均展示了良好性能;三種生成技術的移除都顯著影響了性能,驗證了這些技術的有效性。
使用與測試集無關的真實數(shù)據(jù)集(如Yelp和Gowalla)訓練時,性能有時候會下降,這可能是由于不同數(shù)據(jù)集之間的分布差異。
ML-10M數(shù)據(jù)集在與之類似的測試數(shù)據(jù)集(如ML-1M和ML-10M)上取得了最佳性能,突顯了訓練和測試數(shù)據(jù)集相似性的重要性。
Transformer采樣技術的研究
在這部分實驗中,研究團隊探討了圖Transformer模塊中使用的兩種采樣技術:
token序列采樣(Seq)和錨點采樣(Anc)。
他們對這兩種采樣方法進行了詳細的消融實驗,以評估它們對模型性能的具體影響。
實驗結果表明,無論是token序列采樣還是錨點采樣,兩者都能在訓練和測試階段有效地減少模型的空間和時間復雜度。這對于處理大規(guī)模圖數(shù)據(jù)尤為重要,可以顯著提高效率。
從性能的角度分析,token序列采樣對模型的整體性能產生了正面影響。這種采樣策略通過選取關鍵的token來優(yōu)化圖的表示,從而提高了模型處理復雜圖結構的能力。
相比之下,在ddi數(shù)據(jù)集上的實驗顯示,錨點采樣可能對模型性能產生負面影響。錨點采樣通過選擇特定的節(jié)點作為錨點來簡化圖結構,但這種方法可能會忽略一些關鍵的圖結構信息,從而影響模型的準確性。
綜上所述,雖然這兩種采樣技術都有其優(yōu)勢,但在實際應用中需要根據(jù)具體的數(shù)據(jù)集和任務需求仔細選擇合適的采樣策略。
研究結論
本研究旨在開發(fā)一個高適應性框架,該框架能夠精確地識別和解析各種圖結構的復雜拓撲模式。
研究人員的目標是通過充分發(fā)揮所提出模型的能力,顯著增強模型在零樣本圖學習任務中的泛化能力,包括多種下游應用。
模型是在可擴展的圖Transformer架構和LLM增強的數(shù)據(jù)增強機制的支持下構建的,以提升OpenGraph的效率和健壯性。
通過在多個標準數(shù)據(jù)集上進行的廣泛測試,團隊證明了模型的出色泛化性能。
據(jù)了解,作為對圖基礎模型構建的初步嘗試,未來,團隊工作將著重于增加框架的自動化能力,包括自動識別噪聲連接和進行反事實學習。
同時,團隊計劃學習和提取各種圖結構的通用且可遷移的模式,進一步推動模型的應用范圍和效果。