www.黄片视频在线播放,欧美精品日韩精品一级黄,成年男女免费视频网站,99久久久国产精品免费牛牛四川,99久久精品国产9999高清,乱人妻中文字幕视频4399,亚洲男人在线视频观看

關鍵詞語料庫_基于分類標注語料庫的關鍵詞標引知識自動獲取

發(fā)布時間:2020-03-07 來源: 人生感悟 點擊:

  〔摘要〕基于大規(guī)模層級分類語料庫,抽取網(wǎng)頁上專家已經(jīng)標引的關鍵詞形成關鍵詞表;針對關鍵詞的領域不均勻性和鄰界域兩個特征,提出并模擬計算了關鍵詞表征文本主題特征程度的主題度。以關鍵詞及其主題度為領域知識,結(jié)合統(tǒng)計方法,完成了一個知識與統(tǒng)計相結(jié)合的關鍵詞自動標引系統(tǒng)。
  〔關鍵詞〕關鍵詞標引 分類語料庫 主題度
  〔分類號〕G254.361 TP391.1
  
  Knowledge Repository Acquire for Keywords Auto-Indexing System Based on Labeled and Classed Corpus
  Liu Hua
  College of Chinese Language and Culture of Jinan University, Guangzhou510610
  〔Abstract〕From a classed large-scale corpus, extracts keywords labeled on web pages by indexing specialist and formed a keywords list; Referring to the two characteristics of keywords: fields non-even and exists range edge, brought up and calculated the words" subject degree by statistical model.Subject degree expresses text content" s subject concept. Based on subject degree, constructed a key words auto-indexing system.
  〔Keywords〕keywords indexing classed corpus subject degree
  
  1關鍵詞標引知識
  
  關鍵詞自動標引根據(jù)文檔的主題內(nèi)容,借助計算機處理技術(shù),自動從文檔中直接抽取關鍵詞作為標引詞。關鍵詞自動標引可分為兩種:基于知識的和基于統(tǒng)計的。基于知識的關鍵詞標引通常見于圖書館文獻標引領域,主要基于已有的標引資源,如《漢語主題詞語表》、《中國分類詞語表》及其復分表以及各?菩灾黝}標引手冊等,利用文獻標引規(guī)則,由專家手工標引。基于統(tǒng)計的主題詞標引主要借助于數(shù)據(jù)挖掘和機器學習的統(tǒng)計算法實現(xiàn),如馬爾可夫統(tǒng)計模型和互信息、最大熵模型等。
  關鍵詞自動標引的任務包括:①文檔表示為怎樣的詞語集合作為關鍵詞候選項 ;②依據(jù)什么標準選出候選項作為關鍵詞。
  因此,關鍵詞自動標引需要的領域知識主要包括:關鍵詞候選項、表示詞語主題象征性能力的某種強度或權(quán)重。
  本文基于大規(guī)模層級分類標注語料庫,抽取網(wǎng)頁上專家已經(jīng)標引的關鍵詞形成超大詞語表;針對關鍵詞的領域不均勻性和鄰界域兩個特征,提出并模擬計算了關鍵詞表征文本主題特征程度的主題度。
  
  2基于語料庫的關鍵詞標注知識獲取
  
  2.1專家標引的網(wǎng)頁關鍵詞獲取
  在構(gòu)建文本分類和主題詞標引系統(tǒng)時,我們建立了一個超大規(guī)模的語料庫。語料來自幾個門戶網(wǎng)站,時間跨度為3年(2003-2005),共約60萬個網(wǎng)頁,6億字。對60萬個網(wǎng)頁提取出詳細的語料信息,如標題、欄目、關鍵詞、時間、同主題鏈接標題和正文。
  同時,我們通過對4個門戶網(wǎng)站、3個搜索引擎和13個主流報紙網(wǎng)站的欄目分類體系和傳統(tǒng)分類體系的對比研究,使用同名欄目去重、相似欄目合并、異名同類欄目映射、子類欄目提煉上升等手段,最終在總結(jié)各大網(wǎng)站欄目共性的基礎上,重點考慮“主題劃分”、“生活優(yōu)先”的原則,歸納出一個網(wǎng)頁分類用類目體系。該體系分15個大類,層級類別最深為4級,如“科技_數(shù)碼_視頻_數(shù)字電視”,類目總共244個。
  將語料庫的網(wǎng)頁欄目和已建立的網(wǎng)頁分類體系進行映射,最終,形成以XML格式存儲的詳細標注語料屬性的層級分類語料庫。
  語料庫信息匯總見表1(僅列舉大類):
  
  在網(wǎng)頁信息提取時,我們發(fā)現(xiàn)很多網(wǎng)頁已經(jīng)人工標引了關鍵詞。關鍵詞往往標引在標題下面,是那些具有文本主題表示功能的詞語。關鍵詞是對一個網(wǎng)頁的主題進行描述的關鍵性詞語,一般一個網(wǎng)頁約兩三個關鍵詞。例如一篇題為《中國民航總局解禁“紅眼航班” 消費者喜聞樂見》的網(wǎng)頁,其關鍵詞為“民航、紅眼航班”。這些關鍵詞都是網(wǎng)站主題標引專家長期積累下來的集體智慧,是我們基于知識的標引系統(tǒng)非常珍貴的專家資源,不僅為我們的關鍵詞標引詞表提供了來源,也為我們進行的文本分類和主題詞標引提供了很好的訓練和測試語料。
  我們在上文建立的超大規(guī)模分類語料庫中抽取出其中已標注的關鍵詞,總共獲得229 237個詞條(去重后),按網(wǎng)頁的主題屬性存儲進詞表,形成15個大類的領域關鍵詞詞表和244個小類的領域關鍵詞詞表。
  表2是科技、經(jīng)濟、藝術(shù)、汽車、體育、旅游、教育抽取的7類關鍵詞舉例。
  2.2關鍵詞主題度計算
  在情報學上,關鍵詞是指在論文標題、摘要或正文中,用以標識和表達文檔主題概念的詞語。關鍵詞的主要特征是主題性:關鍵詞揭示的是文檔最核心的內(nèi)容,關鍵詞能高度概括和代表整個文檔的基本內(nèi)容,是文檔的靈魂。
  戴璞認為“關鍵詞表達主題概念時能準確地表達事物的本質(zhì)屬性”;王明燕認為“關鍵詞是用以表示文章主題、內(nèi)容、信息、款目的單詞或術(shù)語,是反映文章內(nèi)容的名詞性術(shù)語,對文章內(nèi)容具有實質(zhì)性意義的詞或詞組,是表達文獻主題概念的自然語言詞匯”;楊一瓊認為關鍵詞的主要特征是“主題性:關鍵詞揭示的是學術(shù)論文最核心的內(nèi)容,是文章最基本的學術(shù)思想、技術(shù)方法的提煉與概括,具有鮮明的主題色彩,讀者只要分析一下關鍵詞,就可大致研判論文的學科類別、主題內(nèi)容及可能提供的信息量”。
  因此,我們引入了主題度概念來表示一個詞語對文檔主題概念的表征程度。主題度,是指在文本表示時,將文本的主題特征(例如主題概念、核心內(nèi)容、中心思想等)鮮明地表示出來的程度。例如,常見的虛詞性成分(如“總而言之”)的文本主題表示功能較弱,主題度弱;而一些領域性強的體詞性成分(如“封閉式基金”)則文本主題表示功能較強,主題度強。
  標引的關鍵詞應該主題度高,這就需要在權(quán)重計算時不僅降低常用詞,而且應該凸顯主題特征明顯的詞語。通常的關鍵詞標引特別是基于詞串統(tǒng)計的關鍵詞標引方法,最大的問題在于流于簡單的詞頻統(tǒng)計,往往過分突出了詞頻的影響。我們在構(gòu)建的大規(guī)模分類語料庫中進行詞語的主題度訓練,獲得了每一詞語的主題度。
  戈夫曼提出,文獻詞匯的分布由高頻轉(zhuǎn)向低頻時,可能存在著一個鄰界域,由于高頻詞多為功能詞,低頻詞在很低程度上是作者用詞特點的反映,只有處于鄰界域內(nèi)的詞才真正表達文獻的主題內(nèi)容,這些詞經(jīng)過停用詞表的刪除最適合做標引詞。對已經(jīng)專家標引的關鍵詞作進一步分析,我們發(fā)現(xiàn)關鍵詞通常偏向于專業(yè)領域里的術(shù)語性較強的詞語,大多就是術(shù)語。術(shù)語是專業(yè)領域中概念的語言指稱,其主要特征也是主題性,關鍵詞的主題度就是術(shù)語主題性特征的反映。
  因此,我們認為關鍵詞主題度的本質(zhì)在于其領域分布的不均勻性,關鍵詞與領域類別密切相關,是某一領域中具有一定頻次的(鄰界域內(nèi))區(qū)別于其他領域內(nèi)容特征的體詞性成分。從表2例舉的關鍵詞中,我們也可以發(fā)現(xiàn)這點。
  基于關鍵詞的領域不均勻性(主題表征性)和鄰界域的考慮,我們?yōu)殛P鍵詞的主題度獲取設計了形式化的計算模型(陳克利,2003):
  
  方差是體現(xiàn)數(shù)據(jù)分布是否均勻的很好的數(shù)學指標,但從方差公式中可以看出,方差大小又受到詞頻大小的影響,為了消除此影響(因為詞頻因素將通過測試時被標注文檔的詞頻來體現(xiàn),方差需要的只是訓練時詞頻之間的差異性表示),我們用方差除以該詞在各類中詞頻之和來表示關鍵詞在不同類之間的分布差異性。
  這是對領域性不均勻性(主題表征性)的數(shù)學模擬,對關鍵詞鄰界域的性質(zhì)則通過〔log(N(wi)/N)〕2來模擬表示,含義為:總訓練語料中出現(xiàn)次數(shù)相對較少的關鍵詞其權(quán)重相對較高。為削弱兩頭高低頻次的過分影響,拉近高頻與低頻詞語的頻率距離,突出頻率鄰界域中的詞語,采用對數(shù)后平方的方法進行詞語頻率的平滑。這就避免了大量高頻的功能性虛詞(如“的、了、在、我”,等等)和低頻的個性化詞語(一些非常見的數(shù)字字母串、書面語、古語、方言詞,如“TODS、殘日、稟陳、圍嘴兒”)的出現(xiàn),同時又照顧到中低頻的術(shù)語詞語。當然,關鍵詞在總語料中的出現(xiàn)次數(shù)并不能完全說明該詞在標引中的重要性,頻率相同的關鍵詞在標引中的重要性是不同的:在各類之間分布越均勻,其重要性越小,主題度越低,反之亦然。這就是我們將兩者結(jié)合起來(相乘)模擬表示主題度的原因。
  詞頻統(tǒng)計后,進行權(quán)重計算,計算公式如下:
  T(wi) = Fw×nZtd(wi)
  其中T(wi)表示詞語wi的權(quán)重,F(xiàn)w表示詞語w的頻率,n>=1,可自由設置,這里n=3。如果某詞語,如新的數(shù)字字母串(切分時遺留的),不在詞語表中,則沒有主題度?紤]到許多數(shù)字字母串也可能是關鍵詞,如“3721、Windows XP”等,因此權(quán)重計算時將其主題度設為350(所有詞語表中詞語主題度的均值高一點)。
  表3是詞語主題度計算后主題度最低的前40個詞語。
  
  3基于領域知識的關鍵詞自動標引實現(xiàn)
  
  基于上文獲得的領域知識,我們完成了一個關鍵詞自動標引系統(tǒng)[8]。系統(tǒng)針對非學術(shù)性的中文文章自動標引關鍵詞。如一篇題為《微軟昨反訴歐盟 歷史上最大反壟斷官司再次升級》的文章,系統(tǒng)處理后,輸出標引結(jié)果為“微軟、歐盟、反壟斷”。
  測試集共105個XML文件,其中經(jīng)濟、科技類文檔約占一半。測試時,針對幾個測試點,兩人分別對105個文件進行人工打分,打分時對每一測試點分別打分。然后,對每一測試點計算其平均分,列表如下:
  
  最后,計算各測試點的綜合平均得分,約為8.08。
  
  參考文獻:
  [1] 劉華.關鍵詞自動標引系統(tǒng)實現(xiàn).現(xiàn)代圖書情報技術(shù),2006(2):88-90.
  [2] 劉華.網(wǎng)頁信息抽取及建庫系統(tǒng)C#實現(xiàn).計算機工程,2006,32(16):49-51.
  [3] 葉志清,劉端紅,袁慶等.文獻信息計算機全文全自動標引方法.情報學報,2003,22(2):169-172.
  [4] 楊文峰,李星.基于PAT-TREE統(tǒng)計語言模型與關鍵詞自動提取.計算機工程與應用,2001,(15):17-20.
  [5] 吳春玉.中文全文檢索系統(tǒng)中實現(xiàn)主題詞標引思路.情報雜志,2005(1):115-117.
  [6] 李素建.關鍵詞自動標引的最大熵模型應用研究.計算機學報,2004,7(9):1192-1197.
  [7] 陳克利.基于大規(guī)模真實文本的平衡語料分析與文本分類方法[C]//孫茂松.Advances in Computation of Oriental Languages.北京:清華大學出版社,2003:540-545.
  [8] 主題詞自動標引在線演示地址.[2007-04-25].http://www.省略/class_demo.aspx.
  
  注:“本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文!

相關熱詞搜索:標引 語料庫 標注 基于分類標注語料庫的關鍵詞標引知識自動獲取 開淘寶怎么做優(yōu)化推廣 搜索引擎排名優(yōu)化

版權(quán)所有 蒲公英文摘 m.91mayou.com