《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 其他 > 業(yè)界動(dòng)態(tài) > 數(shù)據(jù)挖掘在足球運(yùn)動(dòng)中的應(yīng)用

數(shù)據(jù)挖掘在足球運(yùn)動(dòng)中的應(yīng)用

2010-01-15
作者:成孟金,曹志宇
關(guān)鍵詞: 數(shù)據(jù)挖掘 可視化

摘  要: 數(shù)據(jù)挖掘是指從數(shù)據(jù)庫(kù)的大量數(shù)據(jù)中揭示隱含的、先前未知的、潛在有用信息的非平凡的過程。使用可視化數(shù)據(jù)挖掘的技術(shù)從足球比賽的數(shù)據(jù)集中找到模式。這些模式可以在足球比賽中直接或間接地提供有益的見解,并在比賽中運(yùn)用決策支持系統(tǒng)。
關(guān)鍵詞: 數(shù)據(jù)挖掘;可視化;模式

  數(shù)據(jù)挖掘DM(Data Mining)技術(shù)在足球運(yùn)動(dòng)中的運(yùn)用潛力是非常巨大的。足球運(yùn)動(dòng)起源于英國(guó),它的巨大影響力與日俱增,在世界上已經(jīng)有超過240萬人從事這項(xiàng)體育運(yùn)動(dòng)[1],有著非常豐富的數(shù)據(jù)資源。
     跨行業(yè)數(shù)據(jù)挖掘過程標(biāo)準(zhǔn)CRISP-DM(Cross-Industry Standard Process for Data Mining)是由歐洲幾家在數(shù)據(jù)挖掘應(yīng)用上有經(jīng)驗(yàn)的公司共同籌劃組織的一個(gè)特別小組所提出的,它分為6個(gè)階段,在本文中主要包括3個(gè)部分[2]:第1部分,定義商業(yè)問題(business understanding),本階段的主要工作是針對(duì)該課題的目標(biāo)和需求進(jìn)行了解確認(rèn),針對(duì)不同的需求做深入了解,將其轉(zhuǎn)換成數(shù)據(jù)挖掘的問題,并擬定初步構(gòu)想去實(shí)現(xiàn)該目標(biāo)。第2部分,數(shù)據(jù)理解(data understanding)和數(shù)據(jù)預(yù)處理(data preparation),數(shù)據(jù)理解階段以收集數(shù)據(jù)開始,了解數(shù)據(jù)的含義與特性,并過濾出所有可能有用的數(shù)據(jù),然后進(jìn)行數(shù)據(jù)整理并評(píng)估數(shù)據(jù)的質(zhì)量,把各種不同來源的數(shù)據(jù)加以整理和歸并,以適合數(shù)據(jù)挖掘技術(shù)的使用。第3部分,包括CRISP-DM的建立模型(modeling)階段,使用可視化的技術(shù)來挖掘數(shù)據(jù)。
1 定義商業(yè)問題
  通過網(wǎng)站zerozerofootball獲得了許多歐洲冠軍聯(lián)賽和許多國(guó)家的足球聯(lián)賽數(shù)據(jù),其中主要的2個(gè)數(shù)據(jù)集:(1)在2008、2009年的葡超冠軍聯(lián)賽中,因?yàn)樗蔷哂凶罡叩脑敿?xì)程度和水平最低的遺漏值和錯(cuò)誤數(shù)據(jù)。(2)在過去的50年,6個(gè)歐洲國(guó)家的所有比賽,也包括葡萄牙聯(lián)賽。
  通過所選擇的數(shù)據(jù)集,用數(shù)據(jù)挖掘技術(shù)做探索性工作從而找出它的模式,即可以在足球比賽中直接或間接地提供有益的見解。達(dá)到在比賽中運(yùn)用決策支持系統(tǒng)、對(duì)比賽的結(jié)果進(jìn)行預(yù)測(cè)的目的[3]。
2 數(shù)據(jù)理解和數(shù)據(jù)預(yù)處理
  建立數(shù)據(jù)庫(kù)和分析數(shù)據(jù),包括一些歐洲國(guó)家足球聯(lián)賽的冠軍和比賽的信息,如葡萄牙自從1934年以來的15 382場(chǎng)比賽,英格蘭從1888年起的43 730場(chǎng)比賽,西班牙從1930年起的19 846場(chǎng)比賽,意大利從1946年起的17 680場(chǎng)比賽,法國(guó)從1933年起的22 702場(chǎng)比賽,以及德國(guó)從1933年起的13 406場(chǎng)比賽。在這些數(shù)據(jù)中找出影響最大的數(shù)據(jù),像隊(duì)伍的名字、每場(chǎng)比賽的進(jìn)球數(shù)、失球數(shù)和勝利者、所處于的國(guó)家和年份、每個(gè)聯(lián)賽中每個(gè)隊(duì)伍的總進(jìn)球和失球數(shù)以及每個(gè)隊(duì)伍所獲得的分?jǐn)?shù)與勝、負(fù)、平的場(chǎng)次數(shù)[4]。
  還選擇了具有最高的詳細(xì)程度和水平最低的遺漏值和錯(cuò)誤數(shù)的聯(lián)賽,2004、2005年的葡超冠軍聯(lián)賽,這一年的聯(lián)賽共包括18支隊(duì)伍、總計(jì)306場(chǎng)比賽,一共有711個(gè)入球、裁判出示了1 771張牌,這一年的比賽信息還包括每場(chǎng)比賽中的隊(duì)員、替補(bǔ)、以及比賽的時(shí)間和地點(diǎn),例如知道了聯(lián)賽中每個(gè)球隊(duì),就知道了它的總進(jìn)球和失球數(shù)以及每個(gè)隊(duì)伍所獲得的分?jǐn)?shù),同時(shí)如果知道了1個(gè)足球運(yùn)動(dòng)員的名字,也就知道了該隊(duì)員的進(jìn)球數(shù)、獲得的牌數(shù)、助攻數(shù)等。圖1中所示FC Porto、Benfica、Sporting在近幾十年的聯(lián)賽里最后所處的聯(lián)賽排名。

3 建立模型
  數(shù)據(jù)挖掘的可視化技術(shù)是指運(yùn)用計(jì)算機(jī)圖形學(xué)和圖像處理技術(shù),將數(shù)據(jù)換為圖形或圖像顯示出來,并進(jìn)行交互處理的理論、方法和技術(shù)。主要是在相同或相似的數(shù)據(jù)中給人們一些觀察和見解。根據(jù)圖1所示葡萄牙聯(lián)賽爭(zhēng)奪冠軍的主要3支隊(duì)伍,通過圖2可以得到葡萄牙聯(lián)賽這3支隊(duì)伍獲得冠軍的分?jǐn)?shù),并了解這些隊(duì)伍的變化,也能看出自從20世紀(jì)90年代初改變了規(guī)則,即贏1場(chǎng)球從3分變?yōu)?分后,F(xiàn)C Porto、Benfica獲勝的次數(shù)明顯增多了,并且與Sporting之間的差距越拉越大。

  通過對(duì)每一個(gè)國(guó)家的每場(chǎng)比賽結(jié)果加以分析,比賽結(jié)果用2D的圖來表示,不同的黑色陰影表示過去的每年聯(lián)賽平均每場(chǎng)的得、失球,圖3、圖4所示為西班牙、英格蘭的聯(lián)賽比較。

  從對(duì)比中可以看出,盡管近幾年2個(gè)國(guó)家的比賽結(jié)果很相似,但是從總體上和歷史上看,英格蘭的足球比賽結(jié)果有著比較少的變化,而西班牙過去的比賽結(jié)果和近幾年的結(jié)果有著很大的不同。同樣,還可以通過數(shù)據(jù)去衡量1支隊(duì)伍的主客場(chǎng)成績(jī)變化和2支隊(duì)伍更可能出現(xiàn)的結(jié)果。例如圖5所示Benfica隊(duì)的歷史主客場(chǎng)成績(jī)(圓表示主場(chǎng)成績(jī),方塊表示客場(chǎng)成績(jī)),可以看出,近些年該隊(duì)伍的主場(chǎng)成績(jī)有很大改觀。

  圖6所示FC Porto對(duì)Benfica的主場(chǎng)交戰(zhàn)記錄,每個(gè)坐標(biāo)是比分,從比分的模式可以看出,F(xiàn)C Porto對(duì)Benfica的成績(jī)占據(jù)優(yōu)勢(shì),平局其次,輸球的結(jié)果比較少。

  數(shù)據(jù)挖掘技術(shù)是伴隨著行業(yè)數(shù)據(jù)量的迅速膨脹和對(duì)知識(shí)發(fā)現(xiàn)的迫切需要所出現(xiàn)的產(chǎn)物,可以實(shí)現(xiàn)對(duì)足球比賽數(shù)據(jù)的挖掘,可以更容易得到有根據(jù)的模型。但是此項(xiàng)技術(shù)作為有效的信息處理和強(qiáng)大的數(shù)據(jù)分析工具還需要體育專業(yè)人員和有經(jīng)驗(yàn)的分析人員共同完成[5],該領(lǐng)域有著非常廣闊的發(fā)展前景。
參考文獻(xiàn)
[1] BHANDARI I, Advanced scout: Data mining and knowledge discovery in NBA data[J], 1997.
[2] 郝麗,劉樂平,王星.數(shù)據(jù)挖掘在體育統(tǒng)計(jì)中的應(yīng)用[J].東華理工學(xué)院學(xué)報(bào),2004,23(2):92-95.
[3] 韓鳳芝,杜修平.數(shù)據(jù)挖掘在職教體育教學(xué)中的應(yīng)用[J].中國(guó)職業(yè)技術(shù)教育,2004(31):38-39.
[4] 隆益民.數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘[J].現(xiàn)代電子技術(shù),2000(10):70-73.
[5] 楊雙燕,趙水寧.體育數(shù)據(jù)分析中數(shù)據(jù)挖掘技術(shù)的應(yīng)用[J].浙江體育科學(xué),2003,25(4):49-51.
 

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請(qǐng)及時(shí)通過電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。