文本分類綜述 國(guó)內(nèi)外文本分類研究計(jì)量分析與綜述
發(fā)布時(shí)間:2020-03-10 來(lái)源: 感悟愛(ài)情 點(diǎn)擊:
[摘要]運(yùn)用文獻(xiàn)計(jì)量分析方法、計(jì)算機(jī)統(tǒng)計(jì)分析技術(shù)、社會(huì)網(wǎng)絡(luò)分析軟件對(duì)文本分類領(lǐng)域的歷史文獻(xiàn)進(jìn)行計(jì)量分析及可視化,通過(guò)繪制文獻(xiàn)數(shù)量分布圖、核心關(guān)鍵詞的共現(xiàn)網(wǎng)絡(luò),挖掘文本分類領(lǐng)域的發(fā)展趨勢(shì)、目前研究概況、熱點(diǎn)及未來(lái)研究趨勢(shì)等信息,并對(duì)文本分類領(lǐng)域研究熱點(diǎn)和未來(lái)研究趨勢(shì)進(jìn)行綜述。
[關(guān)鍵詞]文本分類計(jì)量分析社會(huì)網(wǎng)絡(luò)分析可視化圖譜
[分類號(hào)]G250 TP391
1
引言
隨著數(shù)字化文檔信息總量的快速增長(zhǎng),大規(guī)模文本處理已經(jīng)成為一個(gè)挑戰(zhàn)。傳統(tǒng)向量空間模型表征文本的方法逐漸呈現(xiàn)出一些問(wèn)題,比如忽視詞間語(yǔ)義關(guān)系,不能解決同義詞、多義詞、詞間上下位關(guān)系等問(wèn)題,為解決這些問(wèn)題,國(guó)內(nèi)外學(xué)者開(kāi)始從概念或語(yǔ)義層次上對(duì)文本自動(dòng)分類方法展開(kāi)廣泛的研究,出現(xiàn)一些新的文本分類方法,如基于詞典或概念的文本分類、基于本體或語(yǔ)義的文本分類等。隨著文本分類領(lǐng)域的快速發(fā)展,文本分類領(lǐng)域的總體發(fā)展趨勢(shì)、研究概況、熱點(diǎn)及未來(lái)發(fā)展趨勢(shì)如何,將是關(guān)注的焦點(diǎn)。因此關(guān)于文本分類領(lǐng)域文獻(xiàn)信息的計(jì)量分析與綜述具有重要的理論和現(xiàn)實(shí)指導(dǎo)意義。
2 樣本與方法
在樣本數(shù)據(jù)檢索中,共檢索到1 851篇國(guó)內(nèi)外相關(guān)文獻(xiàn)。在方法運(yùn)用上,利用文獻(xiàn)計(jì)量分析方法對(duì)國(guó)內(nèi)外文本分類領(lǐng)域的發(fā)展趨勢(shì)進(jìn)行對(duì)比分析;利用Ex―cel 2007、SQL語(yǔ)句的數(shù)據(jù)處理與統(tǒng)計(jì)分析功能、社會(huì)網(wǎng)絡(luò)分析軟件Ucinet和NetDraw的數(shù)據(jù)分析及可視化功能等,對(duì)文本分類文獻(xiàn)中的關(guān)鍵詞進(jìn)行詞頻統(tǒng)計(jì)與分析、共現(xiàn)頻次統(tǒng)計(jì)與分析,繪制國(guó)內(nèi)外文本分類領(lǐng)域研究概況和熱點(diǎn)的可視化圖譜。據(jù)此可以解讀國(guó)內(nèi)外文本分類領(lǐng)域的發(fā)展趨勢(shì)、研究概況、熱點(diǎn)等信息。樣本數(shù)據(jù)的檢索情況如表1所示:
3 分析與結(jié)果
3.1文獻(xiàn)數(shù)量分析
對(duì)表1中1980-2009年30年間的國(guó)內(nèi)外文本分類文獻(xiàn)數(shù)量進(jìn)行分析(5年一個(gè)區(qū)間,30年共計(jì)6個(gè)區(qū)間),具體如圖1所示:
從圖1可以看出,國(guó)外在文本分類方面的研究存在如下特點(diǎn):①起步較早。德國(guó)學(xué)者Giere w和Dett-mer H在1986年就提出基于詞典的文本分類與檢索。國(guó)內(nèi)在1999年才出現(xiàn)文本分類方面的研究文獻(xiàn),比國(guó)外晚了13年。②實(shí)際應(yīng)用成果多,理論落后于實(shí)踐。國(guó)外自動(dòng)分類技術(shù)早在1975年就進(jìn)入實(shí)用化階段,而理論研究從1986才開(kāi)始,落后于實(shí)踐11年。③發(fā)展速度快。國(guó)外從1995年開(kāi)始進(jìn)人快速增長(zhǎng)期,而國(guó)內(nèi)從2000年才開(kāi)始進(jìn)入快速增長(zhǎng)期,比國(guó)外晚了5年。國(guó)內(nèi)在文本分類方面的研究雖然起步較晚,應(yīng)用成果少,但是發(fā)表的文獻(xiàn)數(shù)量較多。國(guó)外在快速增長(zhǎng)期(1995―2009)內(nèi)共發(fā)表文獻(xiàn)510篇,而國(guó)內(nèi)在快速增長(zhǎng)期(2000―2009)內(nèi)發(fā)表文獻(xiàn)1 338篇,比國(guó)外多出828篇。
3.2詞頻分析
利用作者提出的詞頻統(tǒng)計(jì)分析方法對(duì)檢索到的文獻(xiàn)關(guān)鍵詞進(jìn)行統(tǒng)計(jì)分析,獲得文本分類領(lǐng)域高頻關(guān)鍵詞86個(gè)。對(duì)86個(gè)高頻關(guān)鍵詞進(jìn)行詞頻分析,發(fā)現(xiàn)國(guó)內(nèi)外對(duì)文本分類領(lǐng)域的研究主要集中在以下幾個(gè)部分(詞匯后括號(hào)中的數(shù)字為詞頻):3.2.1
文本分類過(guò)程
主要對(duì)分詞(18)、詞匯處理(27)、文本表示(27)、向量空間模型(200)等進(jìn)行研究。最常用的文本表示方法是向量空間模型,到目前為止,國(guó)內(nèi)外學(xué)者重點(diǎn)研究的向量空間模型主要有詞向量空間模型、語(yǔ)義向量空間模型。詞向量空間模型存在向量空間維度過(guò)高、詞項(xiàng)之間缺乏語(yǔ)義關(guān)系等問(wèn)題,針對(duì)這些問(wèn)題,國(guó)內(nèi)外學(xué)者提出語(yǔ)義向量空間模型,嘗試?yán)脻撛谡Z(yǔ)義索引(32)技術(shù)或本體(28)的概念語(yǔ)義關(guān)系挖掘詞項(xiàng)之間的語(yǔ)義關(guān)系,構(gòu)建低維的語(yǔ)義向量空間模型。3.2.2文本分類算法
目前國(guó)內(nèi)外學(xué)者重點(diǎn)研究的文本分類算法有支持向量機(jī)算法(257)、K-近鄰算法(102)、神經(jīng)網(wǎng)絡(luò)算法(90)、樸素貝葉斯算法(56)、決策樹(shù)算法(28)和遺傳算法(24)。未來(lái)研究趨勢(shì)將是各類算法的融合、改進(jìn)和提高。3.2.3
文本分類降維技術(shù)
文本分類的一個(gè)核心難題就是特征空間的高維性,因此文本分類降維技術(shù)是國(guó)內(nèi)外學(xué)者研究的重中之重。降維技術(shù)主要分為兩大類:特征選擇(475)和特征重構(gòu)(85)。特征選擇是去除文檔中信息量少的項(xiàng)以提高分類的效率,目前流行的特征選擇方法有TF×IDF方法(11)、主分量分析(6)、互信息(27)、信息增益(20)和信息熵(6)。特征重構(gòu)是將原有特征集T加以聯(lián)系和轉(zhuǎn)化以構(gòu)建新特征集T’的過(guò)程,從而使得降維的效果最大化。目前主要有兩種特征重構(gòu)方法:項(xiàng)聚類(25)和潛在語(yǔ)義索引(32)。3.2.4文本分類應(yīng)用領(lǐng)域
主要對(duì)文本分類在信息檢索(216)、學(xué)習(xí)系統(tǒng)(205)、數(shù)據(jù)挖掘(115)、文本挖掘(39)、模式識(shí)別(35)、數(shù)字圖書(shū)館(13)等領(lǐng)域的應(yīng)用方法、原理和模型進(jìn)行研究。
3.3共現(xiàn)頻次分析
利用程序統(tǒng)計(jì)“文本分類”與3.2節(jié)中獲得的86個(gè)高頻關(guān)鍵詞在文本分類文獻(xiàn)標(biāo)題中共現(xiàn)的頻次,根據(jù)詞匯之間的共現(xiàn)頻次,利用Ueine6的矩陣編輯功能構(gòu)建文本分類與其領(lǐng)域關(guān)鍵詞匯的共現(xiàn)矩陣,再利用NetDraw繪制文本分類與其領(lǐng)域關(guān)鍵詞匯的共現(xiàn)網(wǎng)絡(luò)如圖2所示:
從圖2可以看出,文本分類領(lǐng)域的研究熱點(diǎn)主要有文本分類特征選擇方法、文本分類方法如傳統(tǒng)的支持向量機(jī)分類算法、K-近鄰分類算法和目前基于語(yǔ)義的文本分類方法。
4 文本分類研究熱點(diǎn)綜述
4.1
文本分類特征選擇方法
目前常用的特征選擇方法有TFIDF方法、互信息、信息增益等,其主要利用特征權(quán)重統(tǒng)計(jì)方法統(tǒng)計(jì)文檔集中特征項(xiàng)的權(quán)重,然后設(shè)定閾值,選擇特征權(quán)重大于等于閾值的特征項(xiàng)構(gòu)建文檔特征空間,進(jìn)行文本分類模型的訓(xùn)練。不過(guò)在特征選擇過(guò)程中,由于沒(méi)有考慮詞間語(yǔ)義關(guān)系如同義關(guān)系、多義關(guān)系、上下位關(guān)系等造成特征空間維度較高,文本分類性能無(wú)法提高到一個(gè)更高水平。針對(duì)此問(wèn)題,國(guó)內(nèi)外學(xué)者對(duì)傳統(tǒng)特征選擇方法進(jìn)行改進(jìn)和提高,將特征選擇方法與特征重構(gòu)方法如聚類、潛在語(yǔ)義索引等進(jìn)行融合。如國(guó)內(nèi)學(xué)者劉海峰等人將TFIDF和互信息特征選擇方法分別進(jìn)行改進(jìn),并重新組合,形成一種新的特征選擇方法季鐸、鄭偉、蔡?hào)|風(fēng)等人提出融合文檔頻率和潛在語(yǔ)義索引的文檔特征優(yōu)化方法,首先利用文檔頻率對(duì)文檔集合進(jìn)行特征選擇,然后利用潛在語(yǔ)義索引技術(shù)挖掘特征之問(wèn)語(yǔ)義關(guān)聯(lián),形成低維語(yǔ)義向量空間。
4.2文本分類方法4.2.1
支持向量機(jī)分類算法支持向量機(jī)算法是以結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則為基礎(chǔ),通過(guò)構(gòu)造分類超平面進(jìn)行無(wú)序文本的分類,具有很強(qiáng)的學(xué)習(xí)能力和較好的泛化性能,只需較少的樣本就可迅速訓(xùn)練出具有較高性能指標(biāo)的分類器,在解決小樣本、非線形及高維模式識(shí)別問(wèn)題中表現(xiàn)出許多特有優(yōu)勢(shì)。不過(guò),其對(duì)于大規(guī) 模數(shù)據(jù)集,訓(xùn)練速度異常緩慢,并且需要占用很多內(nèi)存。針對(duì)此問(wèn)題,一些學(xué)者提出相應(yīng)的解決方案如利用數(shù)據(jù)集分解算法如Bagging算法、Google的Map/Reduce算法等,將大數(shù)據(jù)集分解成小數(shù)據(jù)集分別進(jìn)行支持向量機(jī)的訓(xùn)練,然后通過(guò)合并算法將各支持向量機(jī)進(jìn)行兩兩合并,形成最終的支持向量機(jī)分類模型。4.2.2 K-近鄰分類算法
K-近鄰分類算法(KNN算法)的基本思想是在訓(xùn)練樣本中找到測(cè)試樣本的K個(gè)最近鄰,然后根據(jù)這K個(gè)最近鄰的類別來(lái)決定測(cè)試樣本的類別,具有很好的魯棒性,簡(jiǎn)單易用,對(duì)于大規(guī)模數(shù)據(jù)非常有效。但是,它存在如下缺點(diǎn):①計(jì)算量巨大,要求計(jì)算未知文本與所有訓(xùn)練樣本間的相似度,進(jìn)而得到K個(gè)最近鄰樣本。針對(duì)此問(wèn)題,吳春穎和王士同提出融合Rocchio和KNN的文本分類方法,其先通過(guò)Rocchio分類算法快速得到k。個(gè)最有可能的候選類別,然后在k個(gè)類別訓(xùn)練文檔中抽取部分代表樣本采用KNN算法”。②在決定測(cè)試樣本的類別時(shí),把測(cè)試樣本的K個(gè)最近鄰等同對(duì)待,沒(méi)有考慮這K個(gè)最近鄰在所屬類別中的重要程度。針對(duì)此問(wèn)題,江濤、陳小莉等學(xué)者提出利用聚類算法,求出訓(xùn)練樣本集合中每個(gè)訓(xùn)練樣本的隸屬度,利用隸屬度來(lái)區(qū)別對(duì)待測(cè)試樣本的K個(gè)最近鄰。4.2.3
基于語(yǔ)義的文本分類方法該方法主要借助本體、項(xiàng)聚類、潛在語(yǔ)義索引等挖掘詞間語(yǔ)義關(guān)系,將原文檔詞項(xiàng)之間相互獨(dú)立的高維特征空間轉(zhuǎn)換為低維的語(yǔ)義特征空間或概念特征空間進(jìn)行文本分類模型的訓(xùn)練。本體具有豐富的概念語(yǔ)義關(guān)系如同義關(guān)系、多義關(guān)系、上下位關(guān)系等和清晰的層次結(jié)構(gòu),利用本體可以將原文檔高維特征向量中詞性不同而語(yǔ)義相同的特征映射成相同的特征即本體同義詞集,將具體的特征映射成通用特征即本體通用概念,從而建立低維的概念或語(yǔ)義向量空間模型。項(xiàng)聚類就是試圖將在語(yǔ)義方面具有高關(guān)聯(lián)性的項(xiàng)分組,以該分組的表示代替這些項(xiàng)成為向量空間中的維度。潛在語(yǔ)義索引是一個(gè)通過(guò)詞共現(xiàn)產(chǎn)生語(yǔ)義向量模型的文本分類和文檔索引技術(shù),主要通過(guò)詞一文本矩陣的奇異值分解技術(shù)解決文檔向量維度過(guò)高的問(wèn)題。
5 文本分類未來(lái)研究趨勢(shì)
5.1
特征選擇方法與特征重構(gòu)方法之間的融合
特征選擇方法在進(jìn)行特征選擇時(shí)認(rèn)為各個(gè)特,征維度之間是相互獨(dú)立的,沒(méi)有考慮特征維度之間的語(yǔ)義關(guān)聯(lián),從而降低了分類的精度。目前加強(qiáng)語(yǔ)義信息的特征選擇方法如主分量分析或特征重構(gòu)建方法如項(xiàng)聚類、潛在語(yǔ)義分析等利用統(tǒng)計(jì)信息方法來(lái)發(fā)現(xiàn)文檔特征間的關(guān)聯(lián),這些方法雖然在挖掘特征之間語(yǔ)義關(guān)系上占有優(yōu)勢(shì),但它們?cè)谔卣鬟x擇上存在很大的局限性。因此,文本分類特征選擇方法的未來(lái)研究趨勢(shì)足傳統(tǒng)特征選擇方法的改進(jìn)和提高、特征選擇方法與特征重構(gòu)方法之間的融合,如融合互信息和聚類的特征選擇,即通過(guò)互信息最大化從原始特征空間中選擇次優(yōu)特征子集,借助特征空間的聚類來(lái)剔除冗余特征,從而實(shí)現(xiàn)特征空間的再次降維。
5.2文本分類算法之間的融合、改進(jìn)和提高
目前已經(jīng)出現(xiàn)很多有效的文本分類算法,這些算法各有優(yōu)缺點(diǎn)。因此未來(lái)研究趨勢(shì)是如何將這些算法進(jìn)行融合、改進(jìn)和提高,利用它們的優(yōu)勢(shì),摒棄它們的劣勢(shì),取長(zhǎng)補(bǔ)短,從而有效提高文本分類算法的性能。比如:李蓉、葉世偉等人針對(duì)支持向量機(jī)(Support Vec-tor Machine,SVM)在對(duì)分類超平面附近樣本進(jìn)行分類時(shí),容易將其誤分,而KNN很容易將其分開(kāi)的現(xiàn)象,提出基于SVM和KNN融合的分類方法。該方法對(duì)樣本在空間中的不同分布使用不同的分類方法,即樣本離分界面較遠(yuǎn)時(shí),用SVM分類,反之用KNN分類;美國(guó)學(xué)者M(jìn)itra,Vikramjit等人針對(duì)支持向量機(jī)在進(jìn)行大規(guī)模樣本數(shù)據(jù)分類時(shí),效率和分類性能非常低,而神經(jīng)網(wǎng)絡(luò)具有大規(guī)模并行、分布式存儲(chǔ)和處理、自組織和自學(xué)習(xí)的能力,提出一種融合遞歸神經(jīng)網(wǎng)絡(luò)和最小二乘支持向量機(jī)的文本分類模型,從而提高SVM訓(xùn)練效率和分類性能,實(shí)驗(yàn)顯示分類準(zhǔn)確率達(dá)到99.66%。
5.3語(yǔ)義或概念向量空間模型文本分類方法
傳統(tǒng)詞向量空間模型文本分類方法沒(méi)有考慮詞間語(yǔ)義關(guān)系,造成文檔向量空間維度高,不能解決同義詞和多義詞對(duì)分類的干擾,因此語(yǔ)義或概念向量空間模型文本分類方法開(kāi)始成為國(guó)內(nèi)外學(xué)者研究的熱點(diǎn)和方向。目前已出現(xiàn)很多語(yǔ)義或概念向量空間模型的構(gòu)建方法,其中比較流行的有潛在語(yǔ)義分析法、本體語(yǔ)義映射法、概念格構(gòu)建法、規(guī)范化概念分析法等。如Deer―wester,Scott在1990年提出的潛在語(yǔ)義索引模型,通過(guò)奇異值分解技術(shù)將原文檔詞向量空間分解成低維的語(yǔ)義向量空間。芬蘭學(xué)者Fili PGinter等人在2004年提出利用本體的概念語(yǔ)義關(guān)系將原文檔高維特征向量轉(zhuǎn)換成低維語(yǔ)義特征向量。意大利學(xué)者Carpine-to,Claudio等人在2009年提出基于概念格的支持向量機(jī)文本分類方法,通過(guò)規(guī)范化概念分析挖掘文檔特征之間關(guān)系,構(gòu)建概念格進(jìn)行文本分類模型的訓(xùn)練。
6 結(jié)語(yǔ)
本文從文獻(xiàn)計(jì)量分析的角度,對(duì)文本分類領(lǐng)域的發(fā)展趨勢(shì)、目前研究概況、熱點(diǎn)及未來(lái)研究趨勢(shì)進(jìn)行綜述,使讀者對(duì)該領(lǐng)域有一個(gè)直觀、清晰的認(rèn)識(shí),為以后的研究工作提供指引。
相關(guān)熱詞搜索:計(jì)量 綜述 文本 國(guó)內(nèi)外文本分類研究計(jì)量分析與綜述 文本分類研究現(xiàn)狀 文本分類技術(shù)研究進(jìn)展
熱點(diǎn)文章閱讀