摘 要:采用關(guān)聯(lián)規(guī)則分類的方法,根據(jù)個人所在的行業(yè)和崗位的不同,對管理勝任力相關(guān)數(shù)據(jù)進行分類。結(jié)合不確定性問題,用概率來表示勝任力的隸屬度,使對管理勝任力素質(zhì)的分類更加符合人們的思維習慣。并且利用新的規(guī)則啟發(fā)知識,對建立的模型進行了精確度優(yōu)化,使之對勝任力素質(zhì)類型的預測更加有效。
關(guān)鍵詞:數(shù)據(jù)挖掘;不確定性分析;關(guān)聯(lián)分類;管理勝任力
現(xiàn)代企業(yè)的發(fā)展對人才管理的要求越來越高,企業(yè)如何制定一套適合自身行業(yè)特色的人力資源戰(zhàn)略,決定了企業(yè)能否吸引、留住人才,能否在競爭激烈的市場中保持企業(yè)的競爭優(yōu)勢。隨著人力資源管理在企業(yè)中的地位日益重要,其能否在企業(yè)中發(fā)揮重要作用,很大程度上取決于人力資源管理人員的管理勝任力素質(zhì),即他們能否讓企業(yè)員工工作在合適的崗位上。
1 勝任力的定義與評估
1.1 勝任力的定義
自McClelland(1973)提出“勝任力”概念,中西方學者紛紛提出自己對勝任力(勝任特征)的理解。通過研究眾多學者給勝任力所下的定義,可以發(fā)現(xiàn),勝任力有3個特點:(1)與特定工作相關(guān);(2)可以在特定工作中創(chuàng)造高績效;(3)包含一些個人的特征,如特質(zhì)(Traits)、動機(Motives)、自我概念(Self-image)、社會角色(Social-role)、態(tài)度(attitude)、價值觀(Value)、知識(Knowledge)、技能(Skill)等。
本文采用Spencer等人(1994)對勝任力的定義,即勝任力是指特質(zhì)、動機、自我概念、社會角色、態(tài)度、價值觀、知識、技能等能夠可靠測量并可以把高績效員工與一般績效員工區(qū)分開來的任何個體特征。其中,較容易通過培訓、教育來發(fā)展的知識和技能是對任職者的基本要求,被稱為基準性勝任力(Threshold Competency);而在短期內(nèi)較難改變和發(fā)展的特質(zhì)、動機、自我概念、社會角色、態(tài)度、價值觀等高績效者在職位上獲得成功所必須具備的條件,被統(tǒng)稱為鑒別性勝任力(Differentiating Competency)[1]。
1.2 勝任力的評估
傳統(tǒng)的勝任力評估主要以專家打分法確定勝任力素質(zhì)指標,有別于此,本文的研究始于開放式問卷收集與勝任力素質(zhì)相關(guān)的條目,編制預試問卷,然后篩選掉重要度或區(qū)分度不高的條目,形成最終問卷。得到相關(guān)數(shù)據(jù)后,運用關(guān)聯(lián)規(guī)則分類方法對勝任力的評價與評價可能性進行建模,獲取精確度較高的勝任力評估預測模型。
2 關(guān)聯(lián)分類及其算法
2.1 基于關(guān)聯(lián)的分類方法
關(guān)聯(lián)分類規(guī)則挖掘的第一步就是發(fā)現(xiàn)所有的頻繁和準確的可能規(guī)則,它們是類別關(guān)聯(lián)規(guī)則[3]。若一個規(guī)則項目包含k個項目,就稱這一規(guī)則項目集為k-ruleitems。算法利用與Apriori算法類似的循環(huán)過程,只是用規(guī)則項目集替代了其中的項。
CBA(Classification-Based Association)算法就是一種在關(guān)聯(lián)分類規(guī)則挖掘中發(fā)掘類關(guān)聯(lián)規(guī)則的算法[2]。它是在Apriori算法的基礎(chǔ)上去發(fā)掘頻繁集和分類規(guī)則的。
關(guān)聯(lián)規(guī)則挖掘的第二步就是對所獲得的CAR進行處理以便構(gòu)造一個分類器。由于為了獲得最準確的規(guī)則集而要對所有的規(guī)則子集進行檢查,這樣所要處理的規(guī)則數(shù)目極為龐大,因此必須采用啟發(fā)知識[3]。根據(jù)啟發(fā)規(guī)則,分類器對所選的規(guī)則按優(yōu)先值從高到低排列。當進行分類時,使用優(yōu)先值大且滿足條件的規(guī)則進行分類。此外,分類器還應包含一個缺省規(guī)則(具有最低優(yōu)先值),當其他規(guī)則都不滿足時,利用這一缺省規(guī)則對數(shù)據(jù)對象進行分類。
通常,關(guān)聯(lián)分類方法要比C4.5等普通分類算法更加準確,且以上兩個步驟都具有線性可擴展性。
2.2 利用關(guān)聯(lián)分類解決分類的不確定性問題
計算機要模擬人的思維和判斷過程,就必須將人的語言中所具有的多義和不確定信息定量地表示出來,即不確定性問題。這種方式更加自然,更加接近人的表達方式。目前利用貝葉斯網(wǎng)絡(luò)、模糊神經(jīng)網(wǎng)絡(luò)都能夠解決不確定性分類的問題。
關(guān)聯(lián)規(guī)則挖掘中將規(guī)則信任度表示為:c(A≥B)=P(B/A)=s(A∪B)/s(A),其意義就是在A發(fā)生的前提下出現(xiàn)B的概率。如果把A看成條件,B看成一個類,則可以表達為:在具備條件A的情況下,樣本屬于B類的概率。本文以此利用關(guān)聯(lián)分析來解決不確定性分類的問題。
3 數(shù)據(jù)樣本的預處理
3.1 預測問卷的因子分析
因子分析是從眾多的原始變量中構(gòu)造出少數(shù)幾個具有代表意義的因子變量,這里有一個潛在的要求,即原有變量之間要具有比較強的相關(guān)性,否則無法從中綜合出能反映某些變量共同特性的少數(shù)公共因子變量來[3]。因此,在因子分析時,需要對原有變量作相關(guān)分析。本文用KMO和球形Bartlett檢驗,對變量進行相關(guān)分析。
(1) KMO(Kaiser-Meyer-Olkin)檢驗
KMO統(tǒng)計量用于比較變量間簡單相關(guān)和偏相關(guān)系數(shù),計算公式如下:

(2)巴特利特球形檢驗(Bartlett Test of Sphericity)
巴特利特球形檢驗是基于變量的相關(guān)系數(shù)矩陣的檢驗方法[5]。它的零假設(shè)為相關(guān)矩陣是一個單位陣,即相關(guān)系數(shù)矩陣對角線上的所有元素都為1,所有非對角線上的元素都為零。巴特利特球形檢驗的統(tǒng)計量是根據(jù)相關(guān)系數(shù)矩陣的行列式得到的。如果該值較大,且其對應的相伴概率值小于給定的顯著性水平,就拒絕零假設(shè),認為相關(guān)系數(shù)矩陣不可能是單位陣,即原始變量之間存在相關(guān)性,適合于作因子分析;相反,如果該統(tǒng)計量值比較小,且對應的相伴概率大于顯著性水平,則不能拒絕原假設(shè),此時不宜作因子分析。
3.2 公共因子的提取
本文以旺旺集團、廣州百事可樂集團等八大現(xiàn)代企業(yè)的管理人員為研究對象,從發(fā)放開放式問卷出發(fā),收集可能與勝任力特征相關(guān)的條目形成預試問卷,應用因子分析和方差分析方法對試卷進行檢驗和優(yōu)化,篩選掉荷載低或區(qū)分度低的問題,最終生成包含40個問題的問卷。
用主成分法對最終問卷中40個問題的數(shù)據(jù)進行因子分析。首先應判斷數(shù)據(jù)是否適合進行因子分析,此處仍然采用KMO和球度Bartlett檢驗,檢驗結(jié)果如表1所示。

由表1數(shù)據(jù)可知,KMO檢驗值為0.875,根據(jù)Kaiser給出的標準0.8 主成分分析研究如何通過原來變量的少數(shù)幾個線性組合來解釋隨機向量的方差-協(xié)方差結(jié)構(gòu)[3]。其作用為:(1)簡化數(shù)據(jù);(2)揭示變量間的關(guān)系。所謂主成分是指原來變量的線性組合,它們互不相關(guān),且方差達到最大。采用主成分法,設(shè)定提取特征值大于1的因子,共提取了7個因子,其中特征值最大為15.810,最小為1.198。
根據(jù)因子的特征,本文提出7個公共因子的對應解釋。
7個公共因子的解釋如圖1所示。

Fk取值為1~5,對應了5個重要性級別,1最低,5最高。
得到7個公共因子得分結(jié)果以后,接下來根據(jù)公共因子得分對所有樣本數(shù)據(jù)進行聚類分析,以便確定如何對樣本的評判等級進行分類。
通過基于EM(基于期望最大化)算法的聚類分析,樣本數(shù)據(jù)集聚成了三類。本文把評判數(shù)據(jù)樣本的優(yōu)秀等級分為三級:優(yōu)秀,良好,普通。
管理勝任力素質(zhì)的評價預測模型,是多因素、多指標綜合評價。在某一工作崗位上非常重要的知識和技能,在另外一個工作崗位上可能會成為制約其發(fā)展的阻礙因素。在一個組織中不同職務和不同管理層級所要求員工具備的勝任力內(nèi)容和水平也是不同的。因此,需要建立能適用科學可行的管理勝任力素質(zhì)評價體系,使企業(yè)做到人-崗匹配,發(fā)揮員工的最大能力。
本文把樣本的多級管理勝任力水平與樣本所在的崗位聯(lián)系起來,從而解決了長期以來針對管理勝任力的研究沒有結(jié)合具體崗位的問題。
4 建立基于關(guān)聯(lián)分類的管理勝任力模型
首先,對2/3的樣本數(shù)據(jù)建立管理勝任力預測模型。把F1~F7七個屬性作為規(guī)則的左邊,并利用崗位和勝任力水平兩屬性的值共同決定一個類別,設(shè)置最小支持度閾值和最小信任度閾值分別為0.3、0.6,對樣本數(shù)據(jù)進行關(guān)聯(lián)分類。
得到頻繁集后,進而得到分類規(guī)則。根據(jù)啟發(fā)知識對分類規(guī)則排序并建立勝任力模型,表2是分類規(guī)則的基本形式。

4.1 檢驗模型精確度
本文用于建立模型的訓練樣本是總樣本的2/3,為了檢驗管理勝任力模型的預測精度,需要使用剩下的1/3的樣本作為測試數(shù)據(jù)集,對已經(jīng)建立的勝任力模型的精確度進行評估。預測精度的檢驗公式為:

其中Qi為輸出值(預測值),yi為真實值。
經(jīng)過與測試樣本的對比,本文得到的模型對測試數(shù)據(jù)集檢驗的精確度為89.341%,預測成功率較高。部分檢驗結(jié)果如表3所示。

4.2 模型的優(yōu)化
普通的關(guān)聯(lián)分類算法(CBA)在建模過程中采用的是一種基本的啟發(fā)知識,如表4所示。這種啟發(fā)知識主要考慮支持度和信任度的不同來對規(guī)則進行排序,然而當兩條規(guī)則的支持度和信任度都相同時,啟發(fā)知識規(guī)定產(chǎn)生時間早的規(guī)則擁有優(yōu)先權(quán)。顯然,越早產(chǎn)生的規(guī)則所含的屬性越少,這說明基本的啟發(fā)知識中含有這樣一條隱含規(guī)則:當信任度和支持度相同時,規(guī)則左邊所含屬性少的規(guī)則的優(yōu)先權(quán)高。

然而,當遇到大數(shù)據(jù)集時,這種方法并不是非常有效。例如,在大數(shù)據(jù)集時,關(guān)聯(lián)分類方法可能產(chǎn)生上萬條分類規(guī)則,其中會有幾千條具有相同的支持度和置信度。根據(jù)以上的啟發(fā)知識,只能隨機選擇這些規(guī)則的優(yōu)先權(quán),而對于那些擁有優(yōu)先權(quán),它們有可能并不是最優(yōu)規(guī)則,所以會影響模型的準確率。
在這里,根據(jù)以上的分析,本文提出了一項新的啟發(fā)知識,使得規(guī)則的優(yōu)先權(quán)確定更加完善合理,如表5所示。在兩條規(guī)則的支持度、信任度相同時,賦予所指的類別在數(shù)據(jù)集中出現(xiàn)得更多的規(guī)則較高的優(yōu)先權(quán)。當且僅當它們都相同時,分類器才選擇產(chǎn)生得早的規(guī)則。

經(jīng)過改進后,新的啟發(fā)知識使規(guī)則與規(guī)則的關(guān)系更加明顯,同時也保證了好的規(guī)則擁有更高的優(yōu)先權(quán),這就使得模型的準確率有可能進一步提高。
4.3 模型優(yōu)化后準確率的對比
為了能說明以上提出的模型優(yōu)化方法的有效性,本文同時也對WEKA 3.5.5所自帶的幾個數(shù)據(jù)集進行了關(guān)聯(lián)規(guī)則分類建模與優(yōu)化后精確度的對比,結(jié)果如表6所示。

通過以上對比可以看出,總的來說,數(shù)據(jù)集在經(jīng)過優(yōu)化后的模型精度都是有所上升的。這說明本文對啟發(fā)規(guī)則的優(yōu)化的確改進了建模的精度,從而能夠提高模型的預測精度。
本文針對管理勝任力素質(zhì),以旺旺集團、廣州百事等企業(yè)的管理人員為研究對象獲取數(shù)據(jù),考慮分類的不確定性問題,嘗試采用關(guān)聯(lián)規(guī)則分類來建立管理勝任力預測模型,把對樣本勝任力的預測與崗位相聯(lián)系,在預測中增加了隸屬度的表示來幫助決策者做出決定,并使用了多級的評判標準,最后根據(jù)分析建模過程中規(guī)則的優(yōu)先級排序提出了優(yōu)化的規(guī)則啟發(fā)知識,使規(guī)則的排序更加完善,進而使樣本的分類準確度更高,提高了模型精確率和效率。
參考文獻
[1] SPENCER L M,SPENCER S M.才能評鑒法:建立卓越的績效模式[M].魏梅金,譯.汕頭:汕頭大學出版社 ,2003.
[2] LIU B , MA Y .Integrating classification and association rule mining[C].Proc of the 4th International Conference on Knowledge Discovery and Data Mining, New York ,1998.
[3] HAN Jia Wei. Data mining-concepts and techniques[M]. 北京:機械工業(yè)出版社 ,2006.
[4] TAN Pang Ning, MS V. Introduction to data mining [M].北京:人民郵電出版社, 2006.
[5] 梁之舜,鄧集賢.概率論及數(shù)理統(tǒng)計(第二版)[M].北京:高等教育出版社,1988.
