摘 要: 介紹了數(shù)據(jù)挖掘的定義和常用方法,研究了基于遺傳BP神經(jīng)網(wǎng)絡的數(shù)據(jù)挖掘算法,并對其交叉算子進行了改進,提高算法訓練速度。實驗結果表明,將該方法應用于油氣識別中,效果良好,具有一定的實際應用價值。
關鍵詞: 數(shù)據(jù)挖掘;遺傳BP神經(jīng)網(wǎng)絡;油氣識別
隨著互聯(lián)網(wǎng)技術和數(shù)據(jù)庫技術的飛速發(fā)展,人們獲取信息的渠道越來越多樣化,所擁有的數(shù)據(jù)也越來越龐大,這對數(shù)據(jù)信息的存儲、管理和分析提出了更高的要求,傳統(tǒng)的統(tǒng)計方法面臨著巨大的挑戰(zhàn)。尤其在油氣田生產(chǎn)實踐中,開采所獲得的數(shù)據(jù)更是驚人,如何從海量的開采數(shù)據(jù)中提取地層特征模式,以便對油氣做出更精確的描述,是實現(xiàn)油氣識別的關鍵。而數(shù)據(jù)挖掘技術正是解決這一問題的關鍵技術。
數(shù)據(jù)挖掘是從大量的、有噪聲的、不完全的、隨機的、模糊的數(shù)據(jù)中提取隱含其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。數(shù)據(jù)挖掘技術是解決數(shù)據(jù)量大而知識匱乏的有效途徑。它包括分類、聚類、可視化、關聯(lián)、模糊評判、決策樹、遺傳算法、神經(jīng)網(wǎng)絡和不確定性處理等技術方法。近年,數(shù)據(jù)挖掘技術在油氣田開發(fā)中得到了廣泛應用。
本文在對數(shù)據(jù)挖掘定義和常用方法研究的基礎上,研究了基于改進的遺傳BP神經(jīng)網(wǎng)絡的數(shù)據(jù)挖掘算法,并應用于油氣識別中,取得了一定實效。
1 改進的遺傳BP神經(jīng)網(wǎng)絡數(shù)據(jù)挖掘算法
1.1 算法概述
遺傳神經(jīng)網(wǎng)絡GNN(Genetic Neural Network)的主要思想是利用遺傳算法GA(Genetic Algorithm)的全局性優(yōu)點來克服誤差反向傳播BP(Back Propagation)算法的易局部收斂和收斂慢的缺陷。同時,GA與BP算法的結合也解決了單獨利用GA只能在短時間內(nèi)尋找到最優(yōu)解的近似解這一問題,引入BP的梯度下降算法將會避免這種現(xiàn)象。本文以遺傳算法優(yōu)化BP神經(jīng)網(wǎng)絡的方式將兩者組合在一起:先用GA優(yōu)化神經(jīng)網(wǎng)絡的權值組合,直到適應函數(shù)的平均誤差達到一定的精度值。在此基礎上再用BP算法進行局部優(yōu)化?;舅枷胧窍扔肎A粗選神經(jīng)網(wǎng)絡權值,再用 BP算法精細與優(yōu)化。
1.2 算法步驟
遺傳BP神經(jīng)網(wǎng)絡的算法步驟:
(1)隨機產(chǎn)生一組分布,然后采用實數(shù)編碼方案對該組中的每個權值進行編碼,進而構造出一個個染色體(每個染色體代表神經(jīng)網(wǎng)絡的一種權值分布),在網(wǎng)絡結構和學習規(guī)則已定的前提下,該染色體就對應一個權值取特定值的神經(jīng)網(wǎng)絡;
(2)對染色體解碼,構建出相應的神經(jīng)網(wǎng)絡,計算它的誤差函數(shù),從而確定該染色體的適應度值。誤差越小,適應度越大;
(3)選擇若干適應度值最大的個體,直接復制到下一代;
(4)利用選擇、交叉、變異等遺傳操作算子處理當前代的群體,產(chǎn)生下一代群體;
(5)重復步驟(2)、(3)、(4),直到達到設定的精度要求;
(6)用BP神經(jīng)網(wǎng)絡的梯度下降算法繼續(xù)局部尋優(yōu),直到找到最優(yōu)解。
算法流程圖如圖1所示。

1.3 改進算法和模擬仿真
為了提高遺傳神經(jīng)網(wǎng)絡的訓練速度,以便快速收斂,本文對遺傳算法中的編碼和交叉算子作了適當?shù)母倪M。
(1)編碼
遺傳算法常用的編碼方法有實數(shù)編碼和二進制編碼。本文在優(yōu)化BP神經(jīng)網(wǎng)絡的過程中,采用實數(shù)編碼方式。具體實數(shù)編碼的例子如圖2所示,從左到右讀每一層神經(jīng)元的權重,讀完第一個隱含層,再讀它的下一層,把所讀到的數(shù)據(jù)依次保存到一個向量中,這樣就實現(xiàn)了神經(jīng)網(wǎng)絡的實數(shù)編碼。如圖2所示的神經(jīng)網(wǎng)絡,它的權重編碼向量(即染色體)為:
{0.3,-0.8,-0.2,0.6,0.1,-0.l,0.4,0.5}
(2)改進的交叉算子
經(jīng)典的交叉算子是沿著基因組(染色體)長度任意地方切開的,這就極有可能在某個神經(jīng)元(比如第二個)的權重中間斷開,也就是在權重0.6和-0.1之間某處切開。而優(yōu)化神經(jīng)網(wǎng)絡權值是以神經(jīng)元為單元組織在一起的,神經(jīng)元是神經(jīng)網(wǎng)絡中處理信息的基本單元,如果交叉算子將某個神經(jīng)元的權值斷開,勢必會破壞該神經(jīng)元在此以前所獲得的任何改良。事實上,這樣的交叉操作就像斷裂性突變操作所起的作用。
由于經(jīng)典交叉算子的隨機性和破壞性,本文根據(jù)具體問題具體分析的原則,結合神經(jīng)網(wǎng)絡權值分布的特點,提出了一種新的單點交叉算子,它只在神經(jīng)元的邊界上進行切開。在圖2的例子中,就是在第3、4或第6、7的兩個基因之間切開,如小箭頭所示。

這樣,在進行雜交時,把神經(jīng)元當作一個不可分割的單位,比在染色體上任意一點分裂基因組,更能得到好的效果,訓練時間顯著縮減,效率有很大提高。
為了進一步驗證改進后算法的性能,本文構造了一個檢測樣本空間,分別訓練改進前和改進后的遺傳神經(jīng)網(wǎng)絡,訓練收斂曲線對比圖如圖3所示。

由圖3可以看出,在相同的全局均方誤差下,原來的遺傳BP神經(jīng)網(wǎng)絡收斂速度緩慢,而改進后的遺傳BP神經(jīng)網(wǎng)絡收斂速度快得多,當收斂至10-4時,前者需要150 s,后者只需50 s,顯然,改進后的遺傳BP神經(jīng)網(wǎng)絡的效率是原來的3倍。
2 應用
2.1 訓練數(shù)據(jù)
本文將改進后的遺傳BP神經(jīng)網(wǎng)絡算法應用于油氣識別。訓練樣本空間是以實際勘探測井資料為基礎,以試油解釋資料為依據(jù)而建立的。本文以塔北雅克拉某勘探區(qū)1號井測井資料為基礎,選取SP(自然電位)、GR(自然伽瑪)、AC(聲波時差)和RILD(深感應電阻率)4種測井曲線作為特征參數(shù),取各類樣本各25個作為網(wǎng)絡輸入,理想輸出(即識別目標)依據(jù)所選取的樣本分為4類:水層(1 0 0 0)、油層(0 1 0 0)、油水同層(0 0 1 0)、干層(0 0 0 1),其樣本空間如表1所示。

2.2 算法參數(shù)設計
本文采用三層的BP神經(jīng)網(wǎng)絡:輸入層神經(jīng)元數(shù)為4,隱含層神經(jīng)元數(shù)為11,輸出層神經(jīng)元數(shù)為4。神經(jīng)網(wǎng)絡參數(shù)為:學習樣本數(shù)為100,訓練步長為0.01,收斂誤差為0.000 1,最大網(wǎng)絡訓練3 000次,傳遞函數(shù)采用正切函數(shù)特性的Sigmoid函數(shù)。遺傳算法參數(shù)為:種群規(guī)模30,交叉概率0.7,變異概率0.1,誤差精度0.01,最大進化代數(shù)1 000。
2.3 結果分析
本文利用訓練好的遺傳神經(jīng)網(wǎng)絡對同一地區(qū)相同地質結構的另三口井中15個試油層進行了實際識別。識別結果如表2所示。

由表2數(shù)據(jù)可以看出,識別結果和試油結果基本相同,總體識別率達到了86.67%。其中有兩個油層樣本被錯誤地識別成油水同層樣本。導致誤判的原因很多:其一,可能是該樣本的真實地層情況因注水已發(fā)生了改變,與原先取心資料對應有誤;其二,分布不合理的油水同層樣本也是造成識別評價誤差的原因,由于油水同層與油層樣本的特征較相似,甚至在某些特征上可能出現(xiàn)交叉,因此兩者有一定的不確定性和模糊性,以至識別不準確。
數(shù)據(jù)挖掘技術是信息科學領域的前沿課題之一,對它的研究正不斷深入。本文在傳統(tǒng)遺傳神經(jīng)網(wǎng)絡算法的基礎上,對交叉算子進行改進,提高其訓練速度,并將其應用于油氣識別,實驗證明識別精度較高,具有一定的理論意義和實際應用價值。
參考文獻
[1] 王東龍,李茂青.基于遺傳算法的數(shù)據(jù)挖掘技術應用[J].南昌大學學報,2005,27(1):81-84.
[2] 鄭志軍,林霞光,鄭守淇.一種基于神經(jīng)網(wǎng)絡的數(shù)據(jù)挖掘方法[J].西安建筑科技大學學報,2000,32(1):28-30.
[3] 焦李成.神經(jīng)網(wǎng)絡計算[M].西安:西安電子科技大學出版社,1996.
[4] 王小平,曹立明.遺傳算法——理論、應用與軟件實現(xiàn)[M].西安:西安交通大學出版社,2002.
[5] 李海燕,彭仕宓.應用遺傳神經(jīng)網(wǎng)絡研究低滲透儲層成巖儲集相[J].石油與天然氣地質,2006,27(1):111-117.
[6] 王安輝,宇淑穎,張英魁,等.神經(jīng)網(wǎng)絡在低滲透油田試井解釋中的應用[J].石油與天然氣地質,2004,25(3):338-343.
