123,123

基于MNIST的忆阻神经网络稳定性研究

2019年电子技术应用第4期

田野，朱若华，汤知日，常胜

武汉大学物理科学与技术学院，湖北武汉 430072

摘要： 为了探究忆阻器的稳定性问题对忆阻神经网络性能的影响，基于等效电阻拓扑结构的忆阻器模型，搭建了一个将忆阻器作为突触的BP神经网络，并利用MNIST数据集对该网络进行训练和测试。忆阻器的稳定性问题通过设置忆阻器参数波动来模拟，最终发现忆阻器一定程度内的性能波动会促进神经网络的收敛，但波动过大则会降低网络的收敛速度。为了表征波动的临界程度，测得了基于忆阻器模型的各参数的最大波动范围，并进一步计算出忆阻器件工艺层次参量的取值范围，为忆阻神经网络硬件化中忆阻器件的工艺制造和选用提供了参考。

關(guān)鍵詞： 忆阻器波动 BP神经网络 MNIST 稳定性

中圖分類(lèi)號(hào)： TP391
文獻(xiàn)標(biāo)識(shí)碼： A
DOI：10.16157/j.issn.0258-7998.190071
中文引用格式： 田野，朱若華，湯知日，等. 基于MNIST的憶阻神經(jīng)網(wǎng)絡(luò)穩(wěn)定性研究[J].電子技術(shù)應(yīng)用，2019，45(4)：3-6，10.
英文引用格式： Tian Ye，Zhu Ruohua，Tang Zhiri，et al. Research on the stability of memristive neural network based on MNIST[J]. Application of Electronic Technique，2019，45(4)：3-6，10.

Research on the stability of memristive neural network based on MNIST

Tian Ye，Zhu Ruohua，Tang Zhiri，Chang Sheng

School of Physics and Technology，Wuhan University，Wuhan 430072，China

Abstract： The stability problem of memristor may affect the performance of memristive neural network. In order to explore it, a memristive back propagation(BP) neural network, in which the memristors are the synapses, is constructed based on the equivalent resistance topology memristor model. And it’s trained and tested on the MNIST dataset. The stability problem of memristor is simulated by setting fluctuations of the parameters in the model. Finally, it is found that the performance fluctuation of the memristor to a certain extent will promote the convergence of the neural network, but the excessive fluctuation will reduce the convergence speed of the network. To characterize this criticality, the maximum fluctuation range of each parameter in the model is obtained. Meanwhile, the fluctuations’ ranges of device parameters are obtained by tracing back to the memristor model. The result provides a reference for the fabrication and selection of memristor devices during hardware application.

Key words : memristor；fluctuation；BP neural network；MNIST；stability

0 引言

憶阻器是由物理學(xué)家蔡少棠教授在1971年提出的第四種電路基本元器件，其憶阻值聯(lián)系磁通量和電荷量?jī)蓚€(gè)電路參量^[1]。由于其非易失性（憶阻值可以存儲(chǔ)起來(lái)）、憶阻值可通過(guò)對(duì)器件端壓的調(diào)制實(shí)現(xiàn)連續(xù)變化等優(yōu)點(diǎn)，可作為神經(jīng)元突觸來(lái)構(gòu)建神經(jīng)網(wǎng)絡(luò)^[2]。

研究發(fā)現(xiàn)同一個(gè)憶阻器在相同的驅(qū)動(dòng)下測(cè)得的多條傳輸特性曲線(xiàn)之間存在差異；相同制造工藝下，不同憶阻器的性能也不一樣，即憶阻器件的性能并不穩(wěn)定^[3]。這些穩(wěn)定性問(wèn)題會(huì)對(duì)憶阻神經(jīng)網(wǎng)絡(luò)的收斂速度和功能實(shí)現(xiàn)產(chǎn)生影響。

本文的研究目的是基于一種具有等效電阻拓?fù)浣Y(jié)構(gòu)的憶阻器模型，探究憶阻器穩(wěn)定性問(wèn)題對(duì)憶阻神經(jīng)網(wǎng)絡(luò)性能的影響，從而得出在保證憶阻神經(jīng)網(wǎng)絡(luò)性能的前提下模型參數(shù)的允許波動(dòng)范圍。根據(jù)憶阻器模型參數(shù)的意義，映射到器件工藝層次的參量波動(dòng)，為憶阻器件的工藝制造和選型提供參考。

1 憶阻器模型及穩(wěn)定性仿真

本文采用了一種具有等效電阻拓?fù)浣Y(jié)構(gòu)的憶阻器模型，該模型不僅能描述憶阻器的傳輸特性，而且能準(zhǔn)確描述憶阻器的不穩(wěn)定現(xiàn)象。通過(guò)設(shè)置波動(dòng)的憶阻器參數(shù)，模擬憶阻器的不穩(wěn)定性，為憶阻神經(jīng)網(wǎng)絡(luò)的搭建做準(zhǔn)備。

1.1 憶阻器模型

隨著憶阻器研究的發(fā)展，很多證據(jù)表明憶阻器的電阻轉(zhuǎn)換現(xiàn)象是由于器件中作為導(dǎo)電通道的導(dǎo)電絲的形成和消失造成的^[4]，外加電壓控制著導(dǎo)電絲的形成和消失，這樣就可以把憶阻器劃分為通道區(qū)域和無(wú)通道區(qū)域，導(dǎo)電通道則包括高阻和低阻區(qū)域，然后再通過(guò)一個(gè)合適的拓?fù)浣Y(jié)構(gòu)將這若干個(gè)通道結(jié)合起來(lái)，這就是本文使用的憶阻器模型^[5]。其示意圖及數(shù)學(xué)模型簡(jiǎn)化過(guò)程如圖1所示。圖(a)為憶阻器件結(jié)構(gòu)圖，可等效為圖(b)，其中由斜劃線(xiàn)填充的柱體表示無(wú)通道區(qū)域，阻值遠(yuǎn)大于有通道區(qū)域(其他柱體)，故由于并聯(lián)可進(jìn)一步簡(jiǎn)化為圖(c)。

基于上述模型的數(shù)學(xué)表達(dá)式如下，假設(shè)在憶阻器中存在N個(gè)導(dǎo)電通道，即圖1(c)中的通道數(shù)，R_l表示低阻區(qū)域完全占據(jù)通道時(shí)一個(gè)導(dǎo)電通道的阻值；R_h表示高阻區(qū)域完全占據(jù)通道時(shí)一個(gè)導(dǎo)電通道的阻值。D為導(dǎo)電通道的總長(zhǎng)度，X_i為低阻區(qū)域占據(jù)通道的長(zhǎng)度(X_i≤D)。

所以，第i個(gè)導(dǎo)電通道的憶阻值為：

其中，C_i指定一個(gè)統(tǒng)計(jì)分布來(lái)描述在憶阻器中導(dǎo)電通道長(zhǎng)度的不均勻性，θ和α決定通道的初始狀態(tài)，θ用來(lái)調(diào)制C_i以給出合適的初值，α則對(duì)其進(jìn)行進(jìn)一步的調(diào)控；γ₀用來(lái)對(duì)通道初始長(zhǎng)度進(jìn)行微調(diào)；β和λ則描述隨著磁通量(偏壓v(t)對(duì)時(shí)間t的積分)的積累，導(dǎo)電通道的動(dòng)態(tài)變化過(guò)程。

將式(5)、式(6)、式(7)帶入式(4)得憶阻值M：

1.2 憶阻器穩(wěn)定性仿真

將上述模型應(yīng)用于一個(gè)Pt/TiO₂/TiO_2+x/Pt結(jié)構(gòu)的實(shí)際憶阻器件中，對(duì)各項(xiàng)參數(shù)設(shè)值為：D=20 nm，R_off=1.39 kΩ，R_on=25 Ω，N=20。θ=0.05和α=1決定初始導(dǎo)電通道長(zhǎng)度及其分布，γ₀=-5.9對(duì)初始長(zhǎng)度進(jìn)行微調(diào)。λ=5.76和β=1將狀態(tài)轉(zhuǎn)換速度限制在一個(gè)比較低的水平，這種情況下憶阻值只能在25 Ω~220.71 Ω的范圍內(nèi)變化，通過(guò)MATLAB仿真得到該模型在周期性電壓下I-V特性曲線(xiàn)，即如圖2中所示β=1對(duì)應(yīng)的曲線(xiàn)。

該伏安特性曲線(xiàn)的形狀表現(xiàn)為滯回曲線(xiàn)，而且憶阻值隨時(shí)間變化的趨勢(shì)與憶阻器相同，在后文中，以該憶阻器模型各參數(shù)的取值變化來(lái)模擬憶阻器的不穩(wěn)定性。圖2為參數(shù)β不同取值時(shí)憶阻器的傳輸特性曲線(xiàn)，其他參數(shù)α、γ₀、λ不同取值時(shí)與之類(lèi)似。這種對(duì)憶阻器不穩(wěn)定性的模擬結(jié)果與YANG J J等人搭建的憶阻器測(cè)試得到的不穩(wěn)定性表現(xiàn)類(lèi)似^[6]，說(shuō)明該模型可以作為憶阻器件的仿真模型。

2 憶阻BP神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)與實(shí)現(xiàn)

為了探究憶阻器的穩(wěn)定性對(duì)憶阻神經(jīng)網(wǎng)絡(luò)的收斂速度和準(zhǔn)確性的影響，搭建了一個(gè)三層的憶阻BP神經(jīng)網(wǎng)絡(luò)，并用手寫(xiě)數(shù)據(jù)集MNIST進(jìn)行訓(xùn)練和測(cè)試。

2.1 憶阻BP神經(jīng)網(wǎng)絡(luò)MATLAB實(shí)現(xiàn)

本文中使用MNIST數(shù)據(jù)集^[7]搭建3層全連接憶阻BP神經(jīng)網(wǎng)絡(luò)，網(wǎng)絡(luò)結(jié)構(gòu)為：輸入層785個(gè)節(jié)點(diǎn)(圖片28×28個(gè)輸入節(jié)點(diǎn)和一個(gè)偏置點(diǎn))，隱藏層130個(gè)節(jié)點(diǎn)，輸出層10個(gè)節(jié)點(diǎn)，網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示，隱藏層節(jié)點(diǎn)及輸出層節(jié)點(diǎn)激活函數(shù)均為logistic函數(shù)^[8]。

即用權(quán)值變化量等效磁通量積累（磁通量積累由電壓v(t)隨時(shí)間t的積分得到），對(duì)憶阻值即權(quán)值進(jìn)行更新。

2.2 憶阻BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練與測(cè)試

不考慮憶阻器模型中的參數(shù)波動(dòng)，設(shè)參數(shù)α=1，β=1，γ₀=-5.9，λ=5.76，對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練及測(cè)試，圖4為基于MNIST數(shù)據(jù)集訓(xùn)練的收斂過(guò)程，識(shí)別率在訓(xùn)練次數(shù)超過(guò)600次之后變化不顯著；訓(xùn)練1 500次之后測(cè)試識(shí)別率為94.32%。由訓(xùn)練記錄數(shù)據(jù)知，訓(xùn)練次數(shù)超過(guò)573次之后，模型能夠?qū)τ?xùn)練集中超過(guò)56 000組數(shù)據(jù)進(jìn)行正確的分類(lèi)，此時(shí)測(cè)試識(shí)別率為93.35%左右，這個(gè)結(jié)果將作為后續(xù)考慮憶阻器性能波動(dòng)時(shí)的對(duì)照組。

3 憶阻神經(jīng)網(wǎng)絡(luò)穩(wěn)定性分析

本節(jié)主要分析憶阻器模型中的各個(gè)參數(shù)波動(dòng)模擬的憶阻器穩(wěn)定性問(wèn)題對(duì)憶阻神經(jīng)網(wǎng)絡(luò)訓(xùn)練及測(cè)試結(jié)果的影響，并從憶阻器模型的參數(shù)波動(dòng)回溯到器件結(jié)構(gòu)或性能層次的變化，得到模型參數(shù)及器件參量的允許波動(dòng)范圍。

3.1 模型參數(shù)與憶阻器件的聯(lián)系

本文中憶阻器的憶阻值主要由N=20個(gè)相互獨(dú)立的導(dǎo)電絲中低阻區(qū)域和高阻區(qū)域的相對(duì)長(zhǎng)度決定，而低阻區(qū)域的初始長(zhǎng)度X_i由式(5)、式(6)、式(7)決定：

參數(shù)α、β、γ₀決定X_i的初始長(zhǎng)度，但由于γ₀為負(fù)指數(shù)，β對(duì)其調(diào)控作用很小，故只考慮參數(shù)α和γ₀對(duì)X_i的調(diào)控。由式(10)可以算出X_i的分布范圍為[0.429 4D~0.947 5D]。分析式(8)可知，參數(shù)β、λ決定了憶阻器通電之后憶阻值隨磁通量的變化速度，參數(shù)β、λ越大，憶阻值變化的越快。

3.2 憶阻器參數(shù)波動(dòng)對(duì)神經(jīng)網(wǎng)絡(luò)的影響

為了定量地討論憶阻器穩(wěn)定性問(wèn)題對(duì)憶阻神經(jīng)網(wǎng)絡(luò)的影響，對(duì)各個(gè)參數(shù)設(shè)置了不同的波動(dòng)范圍，參數(shù)在給定范圍內(nèi)隨機(jī)取值，記錄各種情況下訓(xùn)練中能夠?qū)τ?xùn)練集中56 000組數(shù)據(jù)正確分類(lèi)時(shí)需要的訓(xùn)練次數(shù)，并在訓(xùn)練后用測(cè)試集數(shù)據(jù)進(jìn)行測(cè)試。認(rèn)為訓(xùn)練次數(shù)較無(wú)參數(shù)波動(dòng)時(shí)的573次增加10%，即630次以上時(shí)，憶阻器性能波動(dòng)對(duì)網(wǎng)絡(luò)收斂速度產(chǎn)生顯著影響；測(cè)試識(shí)別率降到90%以下時(shí)對(duì)網(wǎng)絡(luò)功能產(chǎn)生顯著影響，那么憶阻器的波動(dòng)就應(yīng)該限制在該波動(dòng)程度范圍內(nèi)。

3.2.1 參數(shù)α的波動(dòng)對(duì)網(wǎng)絡(luò)的影響

參數(shù)α是模型中調(diào)制導(dǎo)電通道初始長(zhǎng)度的參量，初始值為1，對(duì)其設(shè)置了從±0.001α至±0.3α等多種程度的波動(dòng)，分別訓(xùn)練多次之后得到各種波動(dòng)程度下的平均訓(xùn)練次數(shù)如圖5所示，圖中也用散點(diǎn)表示了各種波動(dòng)時(shí)的部分訓(xùn)練次數(shù)分布情況。訓(xùn)練完之后對(duì)所有情況進(jìn)行了測(cè)試，準(zhǔn)確率均在93%左右。

由圖5可以發(fā)現(xiàn)參數(shù)α的波動(dòng)程度較小時(shí)，訓(xùn)練次數(shù)均小于573次，甚至小于450次，也就是說(shuō)α的小范圍波動(dòng)加快了憶阻神經(jīng)網(wǎng)絡(luò)的訓(xùn)練收斂，而且不損失測(cè)試準(zhǔn)確率。而隨著波動(dòng)程度的增大，訓(xùn)練需要的次數(shù)也慢慢增大，最終超過(guò)630次，雖然測(cè)試準(zhǔn)確率仍然是93%左右，但嚴(yán)重影響了網(wǎng)絡(luò)的收斂速度。

所以可以得到在不影響憶阻神經(jīng)網(wǎng)絡(luò)穩(wěn)定性的情況下，允許參數(shù)α的最大波動(dòng)范圍為±0.22α，即參數(shù)α取值應(yīng)該在0.78~1.22之間。而參數(shù)α控制導(dǎo)電絲中低阻部分初始長(zhǎng)度X_i，由式(10)可以得到一個(gè)憶阻器中X_i值的范圍在0.335 2D~1D之間，基于實(shí)際憶阻器件即6.704 nm~20 nm之間。

3.2.2 參數(shù)β的波動(dòng)對(duì)網(wǎng)絡(luò)的影響

參數(shù)β是模型中控制憶阻值隨磁通量變化速度的參量，也就是影響憶阻神經(jīng)網(wǎng)絡(luò)突觸權(quán)值更新幅度的參量，初始值為1，對(duì)其設(shè)置了從±0.005β至±8β等多種程度的波動(dòng)，分別訓(xùn)練多次之后得到各種波動(dòng)程度下的平均訓(xùn)練次數(shù)如圖6所示，對(duì)各種情況進(jìn)行了測(cè)試，準(zhǔn)確率也均在93%左右。

由圖6可以看出，參數(shù)β較小程度波動(dòng)時(shí)憶阻神經(jīng)網(wǎng)絡(luò)的收斂速度較無(wú)波動(dòng)時(shí)快，而波動(dòng)程度大于±5β之后，訓(xùn)練次數(shù)則普遍高于630次，對(duì)網(wǎng)絡(luò)收斂速度產(chǎn)生顯著影響，所以β取值范圍應(yīng)該在0~6之間。β主要調(diào)控憶阻值隨磁通量的變化速度，只能從傳輸曲線(xiàn)表征，圖2為β從小到大變化時(shí)憶阻器的傳輸曲線(xiàn)，憶阻器的傳輸曲線(xiàn)應(yīng)該落在β=0和β=6對(duì)應(yīng)曲線(xiàn)之間(其中β=0意味著憶阻器變成定值電阻)。

3.2.3 參數(shù)γ₀的波動(dòng)對(duì)網(wǎng)絡(luò)的影響

參數(shù)γ₀是模型中對(duì)導(dǎo)電通道初始長(zhǎng)度進(jìn)行微調(diào)的參量，初始值設(shè)為-5.9，對(duì)其設(shè)置了從±γ₀/20、±γ₀/10至±γ₀/2等多個(gè)波動(dòng)范圍，各種情況下憶阻神經(jīng)網(wǎng)絡(luò)訓(xùn)練次數(shù)如圖7所示；訓(xùn)練完之后對(duì)所有情況進(jìn)行了測(cè)試，準(zhǔn)確率均在93%左右，幾乎無(wú)損失。

由圖7仍然可以發(fā)現(xiàn)參數(shù)γ₀的波動(dòng)程度較小時(shí)，憶阻神經(jīng)網(wǎng)絡(luò)訓(xùn)練收斂速度較無(wú)波動(dòng)時(shí)更快，而且不損失測(cè)試準(zhǔn)確率；波動(dòng)程度達(dá)到±0.34γ₀以上時(shí)，網(wǎng)絡(luò)訓(xùn)練速度過(guò)慢，所以其波動(dòng)應(yīng)該控制±0.34γ₀以?xún)?nèi)，即γ₀取值應(yīng)該在-7.906~-3.894之間。其調(diào)控的X_i的初始值范圍應(yīng)該在0.4283D~0.9641D之間，基于實(shí)際憶阻器件X_i的值為：8.566 nm~19.282 nm。

3.2.4 參數(shù)λ的波動(dòng)對(duì)網(wǎng)絡(luò)的影響

參數(shù)λ是模型中最直接控制憶阻值隨磁通量變化速度的參量，與參數(shù)β的意義相似。初始值為5.76，對(duì)其設(shè)置了從±λ/10至±9λ等多種波動(dòng)范圍，憶阻神經(jīng)網(wǎng)絡(luò)訓(xùn)練次數(shù)如圖8所示，在波動(dòng)超過(guò)±8.4λ之后訓(xùn)練次數(shù)均超過(guò)1 000，在圖8中用1 000表示。測(cè)試準(zhǔn)確率保持在92%~93%，幾乎無(wú)損失。

不難看出，參數(shù)λ一定程度內(nèi)的波動(dòng)仍然會(huì)加快訓(xùn)練收斂速度，但是當(dāng)波動(dòng)程度過(guò)大之后，訓(xùn)練次數(shù)會(huì)急劇增加，很快超過(guò)1 000次。由訓(xùn)練數(shù)據(jù)得到：參數(shù)λ波動(dòng)范圍在±8.35λ時(shí)，平均訓(xùn)練次數(shù)為618次，所以參數(shù)λ的波動(dòng)應(yīng)該控制在±8.35λ以?xún)?nèi)，這樣才能保證憶阻神經(jīng)網(wǎng)絡(luò)的穩(wěn)定性，即參數(shù)λ取值在0~53.856之間。λ對(duì)憶阻器特性的調(diào)控與β相似，從傳輸曲線(xiàn)上表征。其不同取值時(shí)憶阻器傳輸特性曲線(xiàn)如圖9所示，即用作突觸的憶阻器的傳輸曲線(xiàn)應(yīng)該落在λ=0和λ=53.856對(duì)應(yīng)的曲線(xiàn)之間(其中λ=0意味著憶阻器變成定值電阻)。

4 結(jié)論

本文基于一種等效電阻拓?fù)浣Y(jié)構(gòu)的憶阻器模型，探究了憶阻器作為神經(jīng)網(wǎng)絡(luò)突觸時(shí)，其不穩(wěn)定現(xiàn)象對(duì)憶阻神經(jīng)網(wǎng)絡(luò)的穩(wěn)定性及功能實(shí)現(xiàn)的影響，并得出了基于MNIST手寫(xiě)數(shù)據(jù)集的憶阻神經(jīng)網(wǎng)絡(luò)中憶阻器性能參數(shù)在初始設(shè)置基礎(chǔ)上的最大波動(dòng)范圍：參數(shù)α：±0.22α；參數(shù)β：±5β；參數(shù)γ₀：±0.34γ₀；參數(shù)λ:±8.35λ。反映到憶阻器模型中對(duì)應(yīng)的器件參數(shù)上，即導(dǎo)電絲(總長(zhǎng)度D=20 nm)中低阻部分初始長(zhǎng)度Xi應(yīng)該控制在0.428 3 D~0.964 1 D之間，即8.566 nm~19.282 nm；憶阻值隨磁通量的變化速度則從傳輸曲線(xiàn)上表征。本文的實(shí)驗(yàn)結(jié)果不僅證實(shí)了憶阻器作為神經(jīng)網(wǎng)絡(luò)突觸結(jié)構(gòu)的可行性，還發(fā)現(xiàn)作為突觸的憶阻器一定程度內(nèi)的性能波動(dòng)會(huì)促進(jìn)神經(jīng)網(wǎng)絡(luò)的收斂；此外，器件參量結(jié)果也為憶阻神經(jīng)網(wǎng)絡(luò)硬件化中憶阻器件的工藝制造和選用提供了一種參考。

參考文獻(xiàn)

[1] CHUA L.Memristor-the missing circuit element[J].IEEE Transactions on Circuit Theory，1971，18(5)：507-519.

[2] 王麗丹，段美濤，段書(shū)凱.基于STDP規(guī)則的憶阻神經(jīng)網(wǎng)絡(luò)在圖像存儲(chǔ)中的應(yīng)用[J].電子科技大學(xué)學(xué)報(bào)，2013(5)：642-647.

[3] QUERLIOZ D，BICHLER O，GAMRAT C.Simulation of a memristor-based spiking neural network immune to device variations[C].The 2011 International Joint Conference on Neural Networks(IJCNN).IEEE，2011：1775-1781.

[4] KWON D H，KIM K M，JANG J H，et al.Atomic structure of conducting nanofilaments in TiO2 resistive switching memory[J].Nature nanotechnology，2010，5(2)：148.

[5] ZHU R，CHANG S，WANG H，et al.A versatile and accurate compact model of memristor with equivalent resistor topology[J].IEEE Electron Device Letters，2017，38(10)：1367-1370.

[6] YANG J J，PICKETT M D，LI X，et al.Memristive switching mechanism for metal/oxide/metal nanodevices[J].Nature Nanotechnology，2008，3(7)：429.

[7] 黃睿，陸許明，鄔依林.基于TensorFlow深度學(xué)習(xí)手寫(xiě)體數(shù)字識(shí)別及應(yīng)用[J].電子技術(shù)應(yīng)用，2018，44(10)：6-10.

[8] 王蒙，常勝，王豪.一種自適應(yīng)訓(xùn)練的BP神經(jīng)網(wǎng)絡(luò)FPGA設(shè)計(jì)[J].現(xiàn)代電子技術(shù)，2016，39(15)：115-118.

作者信息:

田野，朱若華，湯知日，常勝

（武漢大學(xué) 物理科學(xué)與技術(shù)學(xué)院，湖北武漢 430072）

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容