基于MapReduce編程模型的TFIDF算法研究
所屬分類:技術(shù)論文
上傳者:aet
文檔大?。?span>381 K
所需積分:0分積分不夠怎么辦?
文檔介紹:隨著Internet等技術(shù)的飛速發(fā)展,信息處理已經(jīng)成為人們獲取有用信息不可或缺的工具,如何在海量信息中高效地獲得有用信息至關(guān)重要,因此自動(dòng)文本分類技術(shù)尤為重要?,F(xiàn)有的文本分類算法在時(shí)間復(fù)雜性和空間復(fù)雜性上遇到瓶頸,不能滿足人們的需求,為此提出了基于Hadoop分布式平臺(tái)的TFIDF算法,給出了算法實(shí)現(xiàn)的具體流程,通過MapReduce編程實(shí)現(xiàn)了該算法,并在單機(jī)和集群模式下進(jìn)行了對(duì)比實(shí)驗(yàn),同時(shí)與傳統(tǒng)串行算法進(jìn)行了對(duì)比。實(shí)驗(yàn)證明,使用TFIDF文本分類算法可實(shí)現(xiàn)對(duì)海量數(shù)據(jù)的高速有效分類。
現(xiàn)在下載
VIP會(huì)員,AET專家下載不扣分;重復(fù)下載不扣分,本人上傳資源不扣分。