欧阳娜娜被啪啪的流水了,1区2区3区4区产品乱码芒果,国产不卡视频在线观看高清

香港大學(xué)開源圖基礎(chǔ)大模型OpenGraph

強泛化能力，前向傳播預(yù)測新數(shù)據(jù)

日期： 2024-05-09

來源：量子位

關(guān)鍵詞： OpenGraph 圖基礎(chǔ)大模型

圖學(xué)習(xí)領(lǐng)域的數(shù)據(jù)饑荒問題，又有能緩解的新花活了！

OpenGraph，一個基于圖的基礎(chǔ)模型，專門用于在多種圖數(shù)據(jù)集上進行零樣本預(yù)測。

背后是港大數(shù)據(jù)智能實驗室的主任Chao Huang團隊，他們還針對圖模型提出了提示調(diào)整技術(shù)，以提高模型對新任務(wù)的適應(yīng)性。

目前，這項工作已經(jīng)掛上了GitHub。

據(jù)介紹，這項工作主要深入探討增強圖模型泛化能力的策略（特別是在訓(xùn)練和測試數(shù)據(jù)存在顯著差異時）。

而OpenGraph旨在通過學(xué)習(xí)通用的圖結(jié)構(gòu)模式，并僅通過前向傳播進行預(yù)測，實現(xiàn)對全新數(shù)據(jù)的零樣本預(yù)測。

為了實現(xiàn)目標，團隊解決了以下3點挑戰(zhàn)：

數(shù)據(jù)集間的token差異：不同圖數(shù)據(jù)集常有不同的圖token集，我們需要模型能夠跨數(shù)據(jù)集進行預(yù)測。

節(jié)點關(guān)系建模：在構(gòu)建通用圖模型時，有效地建模節(jié)點關(guān)系至關(guān)重要，這關(guān)系到模型的擴展性和效率。

數(shù)據(jù)稀缺：面對數(shù)據(jù)獲取的難題，我們通過大型語言模型進行數(shù)據(jù)增強，以模擬復(fù)雜的圖結(jié)構(gòu)關(guān)系，提升模型訓(xùn)練質(zhì)量。

通過一系列創(chuàng)新方法，如拓撲感知的圖Tokenizer和基于錨點的圖Transformer，OpenGraph有效應(yīng)對上述挑戰(zhàn)，在多個數(shù)據(jù)集上的測試結(jié)果證明了模型的出色泛化能力。

OpenGraph模型

OpenGraph模型架構(gòu)主要由3個核心部分組成：

1）統(tǒng)一圖Tokenizer；
2）可擴展的圖Transformer；
3）基于大語言模型的知識蒸餾技術(shù)。

首先來說說統(tǒng)一圖Tokenizer。

為了適應(yīng)不同數(shù)據(jù)集的節(jié)點和邊的差異，團隊開發(fā)了統(tǒng)一圖Tokenizer，它將圖數(shù)據(jù)標準化為token序列。

這一過程包括高階鄰接矩陣平滑化和拓撲感知映射。

高階鄰接矩陣平滑化即利用鄰接矩陣的高階冪來解決連接稀疏的問題，而拓撲感知映射則是將鄰接矩陣轉(zhuǎn)換為節(jié)點序列，并使用快速奇異值分解（SVD）最小化信息損失，保留更多的圖結(jié)構(gòu)信息。

其次是可擴展的圖Transformer。

在token化后，OpenGraph使用Transformer架構(gòu)模擬節(jié)點間的依賴，主要采用以下技術(shù)優(yōu)化模型性能和效率：

一來是token序列采樣，通過采樣技術(shù)減少模型需要處理的關(guān)系數(shù)量，從而降低訓(xùn)練的時間和空間復(fù)雜度。

二來是錨點采樣的自注意力機制。此方法進一步降低計算復(fù)雜度，通過分階段學(xué)習(xí)節(jié)點間的信息傳遞，有效提高模型的訓(xùn)練效率和穩(wěn)定性。

最后是大語言模型知識蒸餾。

為了應(yīng)對培訓(xùn)通用圖模型時面臨的數(shù)據(jù)隱私和種類多樣性問題，團隊從大語言模型（LLM）的知識和理解能力中獲得靈感，使用LLM生成各種圖結(jié)構(gòu)數(shù)據(jù)。

這一數(shù)據(jù)增強機制通過模擬真實世界圖的特征，有效提升了數(shù)據(jù)的質(zhì)量和實用性。

團隊還首先生成適應(yīng)特定應(yīng)用的節(jié)點集，每個節(jié)點擁有文本描述以便生成邊。

在面對如電子商務(wù)平臺這種大規(guī)模節(jié)點集時，研究人員通過將節(jié)點細分為更具體的子類別來處理。

例如，從“電子產(chǎn)品”細化到具體的“移動電話”“筆記本電腦”等，此過程反復(fù)進行，直到節(jié)點精細到接近真實實例。

提示樹算法則按樹狀結(jié)構(gòu)將節(jié)點細分，并生成更細致的實體。

從一般的類別如“產(chǎn)品”開始，逐步細化到具體的子類別，最終形成節(jié)點樹。

至于邊的生成，利用吉布斯采樣，研究人員基于已生成的節(jié)點集來形成邊。

為了減少計算負擔(dān)，我們不直接通過LLM遍歷所有可能的邊，而是先利用LLM計算節(jié)點間的文本相似度，再通過簡單的算法判斷節(jié)點關(guān)系。

在此基礎(chǔ)上，團隊引入了幾種技術(shù)調(diào)整：

動態(tài)概率標準化：通過動態(tài)調(diào)整，將相似度映射到更適合采樣的概率范圍內(nèi)。

節(jié)點局部性：引入局部性概念，只在節(jié)點的局部子集間建立連接，模擬現(xiàn)實世界中的網(wǎng)絡(luò)局部性。

圖拓撲模式注入：使用圖卷積網(wǎng)絡(luò)修正節(jié)點表示，以更好地適應(yīng)圖結(jié)構(gòu)特征，減少分布偏差。

以上步驟確保了生成的圖數(shù)據(jù)不僅豐富多樣，而且貼近現(xiàn)實世界的連接模式和結(jié)構(gòu)特性。

實驗驗證與性能分析

需要注意，該實驗專注于使用僅由LLM生成的數(shù)據(jù)集訓(xùn)練OpenGraph模型，并在多樣化的真實場景數(shù)據(jù)集上進行測試，涵蓋節(jié)點分類和鏈接預(yù)測任務(wù)。

實驗設(shè)計如下：

零樣本設(shè)置。

為了評估OpenGraph在未見過的數(shù)據(jù)上的表現(xiàn)，我們在生成的訓(xùn)練集上訓(xùn)練模型，然后在完全不同的真實測試集上進行評估。確保了訓(xùn)練和測試數(shù)據(jù)在節(jié)點、邊和特征上均無重合。

少樣本設(shè)置。

考慮到許多方法難以有效執(zhí)行零樣本預(yù)測，我們引入少樣本設(shè)置，基線模型在預(yù)訓(xùn)練數(shù)據(jù)上預(yù)訓(xùn)練后，采用k-shot樣本進行微調(diào)。

在2個任務(wù)和8個測試集上的結(jié)果顯示，OpenGraph在零樣本預(yù)測中顯著優(yōu)于現(xiàn)有方法。

此外，現(xiàn)有預(yù)訓(xùn)練模型在跨數(shù)據(jù)集任務(wù)中的表現(xiàn)有時不如從頭訓(xùn)練的模型。

圖Tokenizer設(shè)計影響研究

同時，團隊探索了圖Tokenizer設(shè)計如何影響模型性能。

首先，通過實驗發(fā)現(xiàn)，不進行鄰接矩陣平滑（平滑階數(shù)為0）會顯著降低性能，說明平滑處理的必要性。

然后，研究人員嘗試了幾種簡單的拓撲感知替代方案：跨數(shù)據(jù)集的獨熱編碼ID、隨機映射和基于節(jié)點度數(shù)的表示。

實驗結(jié)果顯示，這些替代方案性能均不理想。

具體來說，跨數(shù)據(jù)集的ID表示效果最差，基于度數(shù)的表示也表現(xiàn)不佳，而隨機映射雖稍好，但與優(yōu)化的拓撲感知映射相比，性能差距明顯。

數(shù)據(jù)生成技術(shù)的影響

團隊調(diào)查了不同預(yù)訓(xùn)練數(shù)據(jù)集對OpenGraph性能的影響，包括使用基于LLM的知識蒸餾方法生成的數(shù)據(jù)集，以及幾個真實數(shù)據(jù)集。

實驗中比較的預(yù)訓(xùn)練數(shù)據(jù)集包括從團隊生成方法中移除某項技術(shù)后的數(shù)據(jù)集、2個與測試數(shù)據(jù)集無關(guān)的真實數(shù)據(jù)集（Yelp2018和Gowalla）、1個與測試數(shù)據(jù)集類似的真實數(shù)據(jù)集（ML-10M）。

實驗結(jié)果顯示，生成數(shù)據(jù)集在所有測試集上均展示了良好性能；三種生成技術(shù)的移除都顯著影響了性能，驗證了這些技術(shù)的有效性。

使用與測試集無關(guān)的真實數(shù)據(jù)集（如Yelp和Gowalla）訓(xùn)練時，性能有時候會下降，這可能是由于不同數(shù)據(jù)集之間的分布差異。

ML-10M數(shù)據(jù)集在與之類似的測試數(shù)據(jù)集（如ML-1M和ML-10M）上取得了最佳性能，突顯了訓(xùn)練和測試數(shù)據(jù)集相似性的重要性。

Transformer采樣技術(shù)的研究

在這部分實驗中，研究團隊探討了圖Transformer模塊中使用的兩種采樣技術(shù)：

token序列采樣（Seq）和錨點采樣（Anc）。

他們對這兩種采樣方法進行了詳細的消融實驗，以評估它們對模型性能的具體影響。

實驗結(jié)果表明，無論是token序列采樣還是錨點采樣，兩者都能在訓(xùn)練和測試階段有效地減少模型的空間和時間復(fù)雜度。這對于處理大規(guī)模圖數(shù)據(jù)尤為重要，可以顯著提高效率。

從性能的角度分析，token序列采樣對模型的整體性能產(chǎn)生了正面影響。這種采樣策略通過選取關(guān)鍵的token來優(yōu)化圖的表示，從而提高了模型處理復(fù)雜圖結(jié)構(gòu)的能力。

相比之下，在ddi數(shù)據(jù)集上的實驗顯示，錨點采樣可能對模型性能產(chǎn)生負面影響。錨點采樣通過選擇特定的節(jié)點作為錨點來簡化圖結(jié)構(gòu)，但這種方法可能會忽略一些關(guān)鍵的圖結(jié)構(gòu)信息，從而影響模型的準確性。

綜上所述，雖然這兩種采樣技術(shù)都有其優(yōu)勢，但在實際應(yīng)用中需要根據(jù)具體的數(shù)據(jù)集和任務(wù)需求仔細選擇合適的采樣策略。

研究結(jié)論

本研究旨在開發(fā)一個高適應(yīng)性框架，該框架能夠精確地識別和解析各種圖結(jié)構(gòu)的復(fù)雜拓撲模式。

研究人員的目標是通過充分發(fā)揮所提出模型的能力，顯著增強模型在零樣本圖學(xué)習(xí)任務(wù)中的泛化能力，包括多種下游應(yīng)用。

模型是在可擴展的圖Transformer架構(gòu)和LLM增強的數(shù)據(jù)增強機制的支持下構(gòu)建的，以提升OpenGraph的效率和健壯性。

通過在多個標準數(shù)據(jù)集上進行的廣泛測試，團隊證明了模型的出色泛化性能。

據(jù)了解，作為對圖基礎(chǔ)模型構(gòu)建的初步嘗試，未來，團隊工作將著重于增加框架的自動化能力，包括自動識別噪聲連接和進行反事實學(xué)習(xí)。

同時，團隊計劃學(xué)習(xí)和提取各種圖結(jié)構(gòu)的通用且可遷移的模式，進一步推動模型的應(yīng)用范圍和效果。

Magazine.Subscription.jpg

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當措施，避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

香港大學(xué)開源圖基礎(chǔ)大模型OpenGraph

日期： 2024-05-09

來源：量子位

相關(guān)內(nèi)容