葉 斌,余 陽(yáng),王 會(huì),黃文富
?。ǔ啥紪|軟學(xué)院 信息技術(shù)與商務(wù)管理系,四川 成都 611844)
摘 要: 大數(shù)據(jù)作為下一個(gè)生產(chǎn)力的前沿技術(shù)在教育領(lǐng)域廣泛應(yīng)用,將給教育產(chǎn)業(yè)產(chǎn)生積極的推動(dòng)作用。分析當(dāng)前MOOC網(wǎng)絡(luò)教育發(fā)展?fàn)顩r,及大數(shù)據(jù)在MOOC網(wǎng)絡(luò)教育中的存在方式;研究大數(shù)據(jù)對(duì)MOOC教育產(chǎn)生的積極作用,及大數(shù)據(jù)與MOOC網(wǎng)絡(luò)教育融合過(guò)程中的收集、存儲(chǔ)、計(jì)算及應(yīng)用的技術(shù)路線;總結(jié)大數(shù)據(jù)為網(wǎng)絡(luò)教育服務(wù)所要解決的問(wèn)題。
關(guān)鍵詞: 大數(shù)據(jù);MOOC;網(wǎng)絡(luò)
0 引言
2008~2012年國(guó)家財(cái)政性教育經(jīng)費(fèi)支出五年累計(jì)7.79萬(wàn)億元,年均增長(zhǎng)21.58%,占國(guó)內(nèi)生產(chǎn)總值比例達(dá)到4%[1]。顯然,這是歷史性的,但也必須清醒認(rèn)識(shí)到,這是一個(gè)遲到12年才達(dá)到的目標(biāo),而且是較低的水平,與發(fā)達(dá)國(guó)家或是中等發(fā)達(dá)國(guó)家相比,還存在很大的差距。
因此,我國(guó)教育產(chǎn)業(yè)還有很大的發(fā)展空間。但由于傳統(tǒng)教育的一次性投資大,投資周期長(zhǎng),使得除政府投入以外,民間資本對(duì)教育產(chǎn)業(yè)的投入還不夠。
隨著網(wǎng)絡(luò)走進(jìn)千家萬(wàn)戶(hù),網(wǎng)絡(luò)教育相比傳統(tǒng)的全日制教育有投資小、周期短、實(shí)施方便等優(yōu)勢(shì),逐步成為一種新型教育的潮流,成為傳統(tǒng)教育的有力補(bǔ)充。網(wǎng)絡(luò)教育成為教育事業(yè)引入民資的有效突破口。近年來(lái),大型開(kāi)放式網(wǎng)絡(luò)課程(Massive Open Online Courses,MOOC)發(fā)展迅速,給更多學(xué)生提供了系統(tǒng)學(xué)習(xí)的可能,成為網(wǎng)絡(luò)教育發(fā)展的重大機(jī)遇。
目前,世界上最大的課程提供商有Coursera、Udacity、edX。到現(xiàn)在為止,幾乎所有著名的全球頂尖大學(xué)都在Coursera上開(kāi)設(shè)了自己的MOOC課程。在國(guó)內(nèi),清華大學(xué)也在2013年10月發(fā)布了中國(guó)大陸第一個(gè)由高校主導(dǎo)的MOOC平臺(tái)——學(xué)堂在線。這一新型學(xué)習(xí)平臺(tái)將發(fā)布清華大學(xué)原創(chuàng)課程以及其他國(guó)內(nèi)外優(yōu)質(zhì)的MOOC課程。網(wǎng)易、新浪、過(guò)來(lái)人等商業(yè)機(jī)構(gòu)也和中國(guó)大學(xué)合作進(jìn)行MOOC課程的制作。MOOC蓬勃發(fā)展的同時(shí),一些新的技術(shù)手段,特別是大數(shù)據(jù)技術(shù)逐漸興起并日趨成熟,更為網(wǎng)絡(luò)教育提供了一劑“強(qiáng)心針”。
1 MOOC教育產(chǎn)業(yè)中的大數(shù)據(jù)
1.1 大數(shù)據(jù)作為教育領(lǐng)域的新動(dòng)力
2011年6月,美國(guó)咨詢(xún)界的翹楚麥肯錫咨詢(xún)公司發(fā)布了《大數(shù)據(jù):下一個(gè)競(jìng)爭(zhēng)、創(chuàng)新和生產(chǎn)力的前沿領(lǐng)域》的研究報(bào)告[2]。這份長(zhǎng)達(dá)150余頁(yè)報(bào)告的主要觀點(diǎn)囊括了大數(shù)據(jù)對(duì)國(guó)民經(jīng)濟(jì)各部門(mén)生產(chǎn)效率的推動(dòng)、大數(shù)據(jù)的快速增長(zhǎng)及IT技術(shù)對(duì)產(chǎn)能的貢獻(xiàn)率等。自此,大數(shù)據(jù)逐漸被大家所認(rèn)識(shí),并應(yīng)用至各個(gè)行業(yè)中。而其與網(wǎng)絡(luò)密不可分的關(guān)系,使大數(shù)據(jù)在商業(yè)智能、公共服務(wù)和市場(chǎng)營(yíng)銷(xiāo)、教育等領(lǐng)域成為首要應(yīng)用目標(biāo)。
大數(shù)據(jù)的定義在學(xué)術(shù)界還沒(méi)有形成共識(shí),但也有一些大家所共同認(rèn)可的認(rèn)識(shí)。即大數(shù)據(jù)是指用現(xiàn)有技術(shù)難以在可接受的時(shí)間內(nèi)管理、處理和分析的數(shù)據(jù)集。廣義上,大數(shù)據(jù)包含三層內(nèi)涵:一是數(shù)據(jù)量巨大、來(lái)源多樣和類(lèi)型多樣的數(shù)據(jù)集;二是新型的數(shù)據(jù)管理和分析技術(shù);三是運(yùn)用數(shù)據(jù)分析形成新價(jià)值。
1.2 大數(shù)據(jù)在MOOC教育中的存在方式
在整個(gè)MOOC教育過(guò)程中,隨時(shí)都會(huì)產(chǎn)生大量的數(shù)據(jù),這些數(shù)據(jù)來(lái)自于學(xué)習(xí)者、與學(xué)習(xí)者相關(guān)的家庭成員、朋友、同學(xué)、教師以及MOOC教育提供商,甚至學(xué)習(xí)者的社交網(wǎng)絡(luò)等數(shù)據(jù)源。這些數(shù)據(jù)只有少量被MOOC教育系統(tǒng)所記錄,而且沒(méi)有經(jīng)過(guò)分析、整理,導(dǎo)致數(shù)據(jù)的價(jià)值被浪費(fèi)。
這些數(shù)據(jù)可以大致分為三類(lèi):結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)[3]。結(jié)構(gòu)化數(shù)據(jù)主要來(lái)自于學(xué)習(xí)者的注冊(cè)信息、MOOC系統(tǒng)自動(dòng)存進(jìn)數(shù)據(jù)庫(kù)的學(xué)習(xí)數(shù)據(jù)表、調(diào)查問(wèn)卷等二維表,這些數(shù)據(jù)的數(shù)據(jù)價(jià)值密度最高,最有可能被分析利用;半結(jié)構(gòu)化數(shù)據(jù)主要來(lái)自于電郵、網(wǎng)頁(yè),網(wǎng)絡(luò)日志等數(shù)據(jù);非結(jié)構(gòu)化數(shù)據(jù)主要是與學(xué)習(xí)者相關(guān)的視頻、音頻、傳感數(shù)據(jù)等。半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)價(jià)值密度較低,需要借助大數(shù)據(jù)技術(shù)提取和處理,例如FaceBook的Scribe、Apache的Sqoop,以及適合Hadoop處理的Chukwa等。
2 大數(shù)據(jù)背景下MOOC教育的機(jī)遇與挑戰(zhàn)
2.1 MOOC教育對(duì)傳統(tǒng)教育的沖擊
MOOC教育的產(chǎn)生對(duì)傳統(tǒng)教育的沖擊很大,學(xué)習(xí)者,特別是高層次學(xué)習(xí)者,不再那么依靠傳統(tǒng)意義上的教師,甚至有些教師擔(dān)心由此失業(yè)。這種沖擊主要表現(xiàn)在:
?。?)學(xué)生-教師比例反轉(zhuǎn)。傳統(tǒng)教育中,往往是很多學(xué)生面對(duì)一個(gè)教師,享受的教育資源相對(duì)較少,而MOOC教育使得這種情況產(chǎn)生了反轉(zhuǎn),即一個(gè)學(xué)生可以面對(duì)很多不同教師,得到更充足的教育資源。
?。?)工具資源多元化。MOOC課程可以融合多種社交網(wǎng)絡(luò)工具和數(shù)字化的學(xué)習(xí)資源,從而使學(xué)習(xí)工具更加多樣化,學(xué)習(xí)資源更加豐富。
?。?)課程更易于使用。由于依托互聯(lián)網(wǎng)學(xué)習(xí)突破時(shí)空限制,學(xué)習(xí)者在家即可學(xué)到國(guó)內(nèi)外著名高校課程。
(4)課程參與自主性。MOOC課程完全由學(xué)習(xí)者自己決定是否進(jìn)行學(xué)習(xí),何時(shí)進(jìn)行學(xué)習(xí),使學(xué)習(xí)者能更加靈活地安排自己的學(xué)習(xí)計(jì)劃,同時(shí)也要求學(xué)習(xí)者有較強(qiáng)自主學(xué)習(xí)能力。
(5)課程受眾面更廣。突破傳統(tǒng)教育中實(shí)體教室的限制,能滿足大規(guī)模課程學(xué)習(xí)者學(xué)習(xí)。
2.2 當(dāng)前MOOC教育所面臨的挑戰(zhàn)
MOOC作為一種新型的教育方式與傳統(tǒng)教育相比,有其得天獨(dú)厚的優(yōu)勢(shì),但也有其劣勢(shì)阻礙了它的蓬勃發(fā)展。其中,最嚴(yán)重的問(wèn)題是學(xué)習(xí)者的個(gè)性化學(xué)習(xí)不足。傳統(tǒng)教育中教師與學(xué)生面對(duì)面,學(xué)生的一舉一動(dòng)、學(xué)習(xí)情況大部分都被教師所掌控,教師能根據(jù)實(shí)際情況對(duì)學(xué)習(xí)者的學(xué)習(xí)進(jìn)行有針對(duì)性的指導(dǎo),學(xué)習(xí)者也能根據(jù)教師的提醒及時(shí)改進(jìn)學(xué)習(xí)策略,從而使學(xué)習(xí)更加有針對(duì)性。而MOOC教育雖然也可以用一些網(wǎng)絡(luò)技術(shù)手段讓學(xué)習(xí)者與教師面對(duì)面,但效果并不理想,教師并不能對(duì)學(xué)習(xí)者的實(shí)際情況及時(shí)地了解并提出解決措施,也不能了解學(xué)習(xí)者所需要的課程內(nèi)容。
MOOC教育很大程度上依賴(lài)于學(xué)習(xí)者的自主性,從而導(dǎo)致有時(shí)候連學(xué)習(xí)者本身都不清楚自己的學(xué)習(xí)情況,忽略了一些重要的學(xué)習(xí)信息,例如學(xué)習(xí)內(nèi)容之間的聯(lián)系、學(xué)習(xí)程度、學(xué)習(xí)進(jìn)度的安排、階段學(xué)習(xí)目標(biāo)、下一步的學(xué)習(xí)內(nèi)容等,這些都會(huì)導(dǎo)致學(xué)習(xí)的盲目性。
2.3 大數(shù)據(jù)給MOOC教育提供機(jī)遇
大數(shù)據(jù)使得學(xué)習(xí)更加個(gè)性化。美國(guó)教育部一份簡(jiǎn)報(bào)中指出,大數(shù)據(jù)在教育領(lǐng)域的應(yīng)用主要為學(xué)習(xí)分析(LA)和教育數(shù)據(jù)挖掘(EDM)[4],而兩者在教育技術(shù)領(lǐng)域內(nèi)的應(yīng)用最終指向個(gè)性化學(xué)習(xí)和自適應(yīng)學(xué)習(xí)環(huán)境的研究和開(kāi)發(fā)。以大數(shù)據(jù)為基礎(chǔ),LA和EDM能夠更好地分析學(xué)習(xí)者的需求和特點(diǎn),從而使得學(xué)習(xí)更傾向于個(gè)性化[5]。
3 大數(shù)據(jù)在MOOC網(wǎng)絡(luò)教育產(chǎn)業(yè)的應(yīng)用路線
MOOC教育產(chǎn)業(yè)要想在激烈的競(jìng)爭(zhēng)中立于不敗之地,需要用數(shù)據(jù)驅(qū)動(dòng)產(chǎn)業(yè)的發(fā)展。大數(shù)據(jù)在一個(gè)新的領(lǐng)域中應(yīng)用,需要經(jīng)歷從無(wú)意識(shí),到初步了解,再到試驗(yàn)性階段,出現(xiàn)產(chǎn)業(yè)機(jī)遇,發(fā)生產(chǎn)業(yè)變革,最后驅(qū)動(dòng)產(chǎn)業(yè)發(fā)展這樣一個(gè)長(zhǎng)期的過(guò)程。如下圖1所示。
大數(shù)據(jù)在應(yīng)用過(guò)程中,需要與傳統(tǒng)的數(shù)據(jù)采集、存儲(chǔ)、計(jì)算方法結(jié)合起來(lái),同時(shí)利用最新的大數(shù)據(jù)技術(shù)使得結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)及非結(jié)構(gòu)化數(shù)據(jù)能被充分利用。
在數(shù)據(jù)采集階段,可根據(jù)不同的情況采用Flume、Sqoop、Scribe、Chukwa等系統(tǒng)。它們各有優(yōu)勢(shì),例如,F(xiàn)lume是cloudera于2009年7月開(kāi)源的日志系統(tǒng),它內(nèi)置的各種組件非常齊全,用戶(hù)幾乎不必進(jìn)行任何額外開(kāi)發(fā)即可使用。Scribe是Facebook開(kāi)源的日志收集系統(tǒng),在Facebook內(nèi)部已經(jīng)得到大量的應(yīng)用。它能夠從各種日志源上收集日志,存儲(chǔ)到一個(gè)中央存儲(chǔ)系統(tǒng)上,以便于進(jìn)行集中統(tǒng)計(jì)分析處理。Sqoop是Apache下用于RDBMS和HDFS互相導(dǎo)數(shù)據(jù)的工具。作為Apache的一個(gè)開(kāi)源項(xiàng)目文件,Sqoop的源碼可以用于從異構(gòu)的數(shù)據(jù)庫(kù)導(dǎo)入統(tǒng)一的云計(jì)算平臺(tái),操作非常簡(jiǎn)單。Chukwa簡(jiǎn)單地說(shuō)是一個(gè)數(shù)據(jù)收集系統(tǒng),它可以將各種類(lèi)型的數(shù)據(jù)收集成適合Hadoop處理的文件并保存在HDFS中供Hadoop進(jìn)行各種MapReduce操作。Chukwa本身也提供了很多內(nèi)置的功能用于數(shù)據(jù)的收集和整理。
在存儲(chǔ)階段,由于大數(shù)據(jù)時(shí)代的數(shù)據(jù)數(shù)量級(jí)發(fā)生了很大改變,由原來(lái)的GB、TB到了PB、ZB,甚至更大。同時(shí),為了提高處理效率,處理方式由集中式處理擴(kuò)展為分布式處理。因此,對(duì)于不同的數(shù)據(jù),既要考慮用傳統(tǒng)的數(shù)據(jù)庫(kù)管理系統(tǒng),如SQL Server、ORACLE等,也不得不應(yīng)用最近的數(shù)據(jù)存儲(chǔ)技術(shù)和相應(yīng)的存儲(chǔ)處理系統(tǒng),如Hadoop。無(wú)論國(guó)內(nèi)還是國(guó)外的大公司對(duì)于數(shù)據(jù)都有著無(wú)窮無(wú)盡的渴望,都會(huì)想盡一切辦法收集一切數(shù)據(jù),因?yàn)橥ㄟ^(guò)信息的不對(duì)稱(chēng)性可以不斷變現(xiàn),而大量的信息是可以通過(guò)數(shù)據(jù)分析得到的。數(shù)據(jù)的來(lái)源途徑非常多,數(shù)據(jù)的格式也越來(lái)越多,越來(lái)越復(fù)雜,隨著時(shí)間的推移數(shù)據(jù)量也越來(lái)越大。因此在數(shù)據(jù)的存儲(chǔ)和基于數(shù)據(jù)之上的計(jì)算上傳統(tǒng)數(shù)據(jù)庫(kù)很快趨于瓶頸。而Hadoop正是為了解決這樣的問(wèn)題而誕生[6]。其底層的分布式文件系統(tǒng)具有高拓展性,通過(guò)數(shù)據(jù)冗余保證數(shù)據(jù)不丟失和提高計(jì)算效率,同時(shí)可以存儲(chǔ)各種格式的數(shù)據(jù)。同時(shí)其還支持多種計(jì)算框架,既可以進(jìn)行離線計(jì)算,也可以進(jìn)行在線實(shí)時(shí)計(jì)算。
在數(shù)據(jù)計(jì)算階段,由于采用的存儲(chǔ)方式不同,計(jì)算方法也不一樣。結(jié)構(gòu)化二維表數(shù)據(jù)較為規(guī)則,處理比較方便,一般對(duì)傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)可進(jìn)行實(shí)時(shí)計(jì)算,而對(duì)于半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)不得不先進(jìn)行匯總分析,再進(jìn)行處理。
最后,在數(shù)據(jù)應(yīng)用階段,根據(jù)不同的應(yīng)用要求,對(duì)計(jì)算和匯總分析的結(jié)果應(yīng)用到不同的子系統(tǒng)中。在MOOC教育產(chǎn)業(yè)中,客戶(hù)個(gè)性化分析實(shí)際上就是在對(duì)學(xué)習(xí)者個(gè)性化分析的基礎(chǔ)上進(jìn)行個(gè)性化的教育,給出個(gè)性化學(xué)習(xí)方案。還可以通過(guò)數(shù)據(jù)計(jì)算結(jié)果進(jìn)行課程營(yíng)銷(xiāo)分析,以及提供客戶(hù)統(tǒng)計(jì)查詢(xún)服務(wù)和學(xué)習(xí)者管理,即客戶(hù)管理。數(shù)據(jù)應(yīng)用的過(guò)程如圖2所示。
4 總結(jié)
大數(shù)據(jù)在MOOC網(wǎng)絡(luò)教育中時(shí)時(shí)刻刻都在產(chǎn)生,這些數(shù)據(jù)的價(jià)值密度要遠(yuǎn)大于社交網(wǎng)的數(shù)據(jù),因?yàn)樗鼈冚^有針對(duì)性,是針對(duì)學(xué)習(xí)者的學(xué)習(xí),所以對(duì)這部分?jǐn)?shù)據(jù)的價(jià)值挖掘非常有必要。同時(shí),與網(wǎng)絡(luò)學(xué)習(xí)相關(guān)的網(wǎng)絡(luò)結(jié)點(diǎn)數(shù)據(jù)和網(wǎng)絡(luò)交互數(shù)據(jù),雖然價(jià)值密度較低,但對(duì)其進(jìn)行持續(xù)的數(shù)據(jù)收集和數(shù)據(jù)計(jì)算,對(duì)學(xué)習(xí)者的個(gè)性化分析也能產(chǎn)生巨大作用。教育領(lǐng)域是大數(shù)據(jù)應(yīng)用的首要目標(biāo),對(duì)于學(xué)習(xí)者的個(gè)性化教育、人才結(jié)構(gòu)優(yōu)化及個(gè)人社會(huì)適應(yīng)度的提高都有很大的幫助。
在大數(shù)據(jù)的應(yīng)用過(guò)程中,對(duì)學(xué)習(xí)者隱私信息的保護(hù)是大家所關(guān)注的重點(diǎn),但同時(shí)也是不可避免的問(wèn)題,需要教育主管部門(mén)結(jié)合法律法規(guī)制定相關(guān)的引導(dǎo)性規(guī)定,讓大數(shù)據(jù)得到合理應(yīng)用的同時(shí)避免產(chǎn)生不必要的法律糾紛;其次,應(yīng)鼓勵(lì)與其他大數(shù)據(jù)企業(yè)合作,得到更多高價(jià)值密度數(shù)據(jù),為數(shù)據(jù)分析提供充分的資源;最后,提升大數(shù)據(jù)收集、分析與處理技術(shù)。這些措施是讓大數(shù)據(jù)在MOOC教育領(lǐng)域持續(xù)發(fā)揮作用的必要保障。
參考文獻(xiàn)
[1] 熊丙奇.中國(guó)教育欠債還沒(méi)完全補(bǔ)上[J].基礎(chǔ)教育論壇,2013(8):4-5.
[2] 陳響園,張權(quán)偉.大數(shù)據(jù)背景下中國(guó)交通廣播的“?!迸c“機(jī)”——以杭州交通經(jīng)濟(jì)廣播91.8為例[J].現(xiàn)代傳播,2014(3):130.
[3] 謝華成,陳向東.面向云存儲(chǔ)的非結(jié)構(gòu)化數(shù)據(jù)存取[J].計(jì)算機(jī)應(yīng)用,2012,32(7):1924-1928,1942.
[4] U.S.Department of Education, Office of Educational Technology. Enhancing teaching and learning through educational data mining and learning analytics: an issue brief [EB/OL].(2013-5-20).http://www.ed.gov/edblogs/technology/files/2012/03/edm-la-brief.pdf.
[5] 祝智庭,管玨琪.“網(wǎng)絡(luò)學(xué)習(xí)空間人人通”建設(shè)框架[J].中國(guó)電化教育,2013(10):6-12.
[6] 曹坤.為什么很多公司的大數(shù)據(jù)相關(guān)業(yè)務(wù)都基于Hadoop方案[EB/OL].(2014-06-25)[2015-02-06].http://bbs.pinggu.org/forum.php mod=viewthread&tid=3104026&page=1.