123,123

一种基于VSM的中文网页分类方法

孔令成，郑诚，吴永俊

摘要： 技术论文,站点首页,技术

關(guān)鍵詞： 网页分类

Abstract：

Key words :

　　摘要： 本文應(yīng)用有指導(dǎo)機(jī)器學(xué)習(xí)方法實(shí)現(xiàn)了一個(gè)分類器。運(yùn)用改進(jìn)型的MI進(jìn)行特征提取，并對(duì)傳統(tǒng)的TFIDF加權(quán)公式進(jìn)行了改進(jìn)。實(shí)驗(yàn)結(jié)果表明該分類器有較高的分類質(zhì)量，滿足了中文網(wǎng)頁(yè)自動(dòng)分類的要求。
關(guān)鍵詞： 網(wǎng)頁(yè)分類；文本；算法；特征

　　網(wǎng)絡(luò)的迅速發(fā)展，使人們不僅面臨信息爆炸，同時(shí)也面臨著如何從浩如煙海的信息中獲取自己所需信息的難題。如何有效地組織和處理海量的信息，并過濾和管理網(wǎng)絡(luò)資源，已成為必須面對(duì)的問題。
　　為了網(wǎng)頁(yè)信息的有效組織和檢索，人們開發(fā)了各種網(wǎng)絡(luò)信息搜索器(比如搜索引擎)，在一定程度上確實(shí)提高了網(wǎng)絡(luò)信息的利用率。與文本分類技術(shù)相比較，網(wǎng)頁(yè)分類更加復(fù)雜，這是由網(wǎng)頁(yè)的結(jié)構(gòu)特征決定的，但是網(wǎng)頁(yè)的信息主要是通過文本的方式向人們傳遞的，所以在對(duì)網(wǎng)頁(yè)分類之前，首先要對(duì)其中的文本進(jìn)行提取，對(duì)所提取的文本分類，最終使網(wǎng)頁(yè)分類問題轉(zhuǎn)化為文本分類問題。
　　目前，文本分類技術(shù)的研究比較活躍，已經(jīng)出現(xiàn)了多種文本分類算法，并且被廣泛應(yīng)用于多個(gè)領(lǐng)域：信息檢索、搜索引擎、文本數(shù)據(jù)庫(kù)等。文本分類算法[1-3]基本是基于概率統(tǒng)計(jì)模型，例如貝葉斯分類算法(Naive Bayes)，支持向量機(jī)(SVM)、K近鄰算法(KNN)等等。本文就是基于互信息(MI)提出一種改進(jìn)的特征提取方法，并根據(jù)TFIDF提出一種新的特征權(quán)值計(jì)算方法構(gòu)建中文網(wǎng)頁(yè)分類器。實(shí)驗(yàn)表明，改進(jìn)后的特征提取和特征權(quán)值計(jì)算算法在中文網(wǎng)頁(yè)分類過程中取得了良好的效果。
1 網(wǎng)頁(yè)預(yù)處理
　　網(wǎng)頁(yè)分類之前首先要進(jìn)行預(yù)處理，實(shí)際上就是HTML解析，把解析出來(lái)的內(nèi)容用于文本分類，選取網(wǎng)頁(yè)中的下面這些文本用于分類：
    (1)錨文本。錨文本是網(wǎng)頁(yè)中用于指示所連接網(wǎng)頁(yè)內(nèi)容的提示，由于后面要對(duì)提取的文本進(jìn)行分類，所以只提取文字形式的錨文本。
    (2)title文本。這樣的文本可能是網(wǎng)頁(yè)中最重要的標(biāo)簽，必須取得。
    (3)meta標(biāo)簽。其重要的功能就是設(shè)置關(guān)鍵字，網(wǎng)頁(yè)的制作者往往都設(shè)置了關(guān)鍵字，來(lái)提高網(wǎng)頁(yè)的搜索點(diǎn)擊率?？梢岳胢eta標(biāo)簽中的有關(guān)文本內(nèi)容進(jìn)行網(wǎng)頁(yè)分類。
    (4)主文本。上面這些信息獲取之后，網(wǎng)頁(yè)中剩余的文本信息還在各種HTML標(biāo)簽中，在HTML源文件中，主文本有可能不是連續(xù)出現(xiàn)的。主文本一般是網(wǎng)頁(yè)中文字最集中的較長(zhǎng)的字符串，查看源文件，那些比較長(zhǎng)的字符串是整個(gè)出現(xiàn)在1個(gè)標(biāo)簽中的，因此提取出標(biāo)簽中的文本，并比較長(zhǎng)度，選擇較長(zhǎng)的某幾個(gè)作為主文本，利用它們進(jìn)行分類。
　　網(wǎng)頁(yè)中像jave script和sytle這樣的信息，如果把這些信息帶到后面的信息提取中，會(huì)使所獲取的文本準(zhǔn)確度大大地降低，所以必須在網(wǎng)頁(yè)中獲取相關(guān)文本前就除掉。
　　文本首先要確定的問題就是表示文本的基本單位，用于表示文本的基本單位通常稱為文本的特征或特征項(xiàng)。中文文本不同于英文文本，英文文本以空格為分隔符，非常明確。而中文文本需要對(duì)其進(jìn)行分詞處理才能得出每個(gè)特征。本文采用中科院計(jì)算技術(shù)研究所漢語(yǔ)詞法分析系統(tǒng)ICTCLAS3.0[4]進(jìn)行分詞。對(duì)于文本中的特征項(xiàng)，能標(biāo)識(shí)文本特性的往往是文本中的實(shí)詞，如名詞、動(dòng)詞等。而文本中的一些虛詞(如感嘆詞、介詞等)，對(duì)于標(biāo)識(shí)文本的類別特性并沒有多少貢獻(xiàn)。如果把這些對(duì)文本分類沒有意義的虛詞作為特征，將會(huì)帶來(lái)很大噪音，降低文本分類的效率和準(zhǔn)確率。因此，在提取文本特征時(shí)，應(yīng)首先考慮剔除這些對(duì)文本分類沒有用處的虛詞，而在實(shí)詞中，又以名詞和動(dòng)詞對(duì)于文本的類別特性的表現(xiàn)力最強(qiáng)，所以只保留那些對(duì)于文本分類有用的實(shí)詞即：名詞、動(dòng)詞。即便剔除了文本中的虛詞，要對(duì)文本分類的數(shù)據(jù)量仍然會(huì)很大，為了進(jìn)一步減少影響文本分類的噪音，則需要提取出對(duì)文本分類貢獻(xiàn)大的特征項(xiàng)。
2 特征提取
    特征提取就是提取出最能代表某篇文章或某類的特征項(xiàng)，以達(dá)到降維的效果從而減少文本分類的計(jì)算量。典型特征提取方法：信息增益(Information Gain)，互信息(MI)、文檔頻度(DF)。傳統(tǒng)的MI特征提取方法：

　　計(jì)算出所有特征詞的統(tǒng)計(jì)值后，從大到小進(jìn)行排序，然后根據(jù)需要從上到下選取一定數(shù)量的特征詞構(gòu)建文本分類的特征詞庫(kù)。
3 特征加權(quán)及向量化
　 TFIDF算法及其改進(jìn)型[5]有多種公式，本文使用一種新的改進(jìn)的TF-IDF公式來(lái)計(jì)算特征詞的權(quán)重。TF-IDF公式有很多變種，比較常見的TF-IDF公式：
　　

　　網(wǎng)頁(yè)不同于一般的文本，頁(yè)面中包含了諸如，

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容