信息融合模型【面向主題的Web信息融合模型】
發(fā)布時間:2020-03-10 來源: 感悟愛情 點擊:
[摘要]評述國內(nèi)外現(xiàn)有Web信息融合的研究成果,分析其中存在的主要問題與不足。針對現(xiàn)有Web信息融合對多維度、多粒度綜合查詢分析和決策支持不足的問題,分析面向主題的Web信息融合的基本原理,設計面向主題的Web信息融合模型,該模型由Web倉庫模型、Web信息融合功能模型和人機交互接口三層組成,并探討各層工作原理和需要實現(xiàn)的關鍵技術,最后給出原型系統(tǒng)實現(xiàn)及融合查詢示例。
[關鍵詞]面向主題 Web信息融合 模型 技術
[分類號]G354
1、引言
隨著Web2.0技術的發(fā)展,企業(yè)運作日益向Inter-net擴展,企業(yè)Web信息的容量和多樣性呈爆炸式增長,Web信息日益成為企業(yè)決策的重要依據(jù)。由于Web信息具有半結構化和非結構化的特征,Web信息的急劇增長在為人們獲取所需信息和知識帶來更多機遇的同時也帶來了更大的挑戰(zhàn)。傳統(tǒng)搜索引擎的性能已達到極限,其基于關鍵詞匹配排序來檢索Web信息的工作原理存在檢索結果信息冗余和不精準的問題,無法滿足用戶基于主題查詢的需求,更無法適應企業(yè)決策的需要。信息融合借鑒人腦的工作原理,利用計算機對具有相似或不同特征的多源數(shù)據(jù)和信息進行處理,為用戶提供統(tǒng)一的信息視圖和可綜合利用的信息。信息融合技術已在生物、經(jīng)濟和軍事等領域得到廣泛應用。信息融合技術為Web信息處理提供了新的途徑,但其研究成果主要針對結構化數(shù)據(jù)。
現(xiàn)有Web信息融合研究主要集中在多源Web信息檢索融合和多Web文檔的知識融合兩方面,對應于傳統(tǒng)信息融合中的數(shù)據(jù)級融合和特征級融合,不支持信息的多維度和多粒度查詢與綜合分析,遠遠不能滿足用戶從Web有效獲取信息進行決策的需要。
2、國內(nèi)外研究綜述
2.1 信息檢索融合
信息檢索融合將多個搜索組件的文檔結果集視為多源證據(jù),綜合利用和聲效應、撇取效應和/或黑馬效應,基于綜合評分或排序?qū)Χ嘣唇Y果集中的文檔進行優(yōu)化組合,為用戶提供更高質(zhì)量的搜索結果。采用的主要方法包括:
2.1.1 基于統(tǒng)計的方法 分為評分融合和排序融合兩類。評分融合算法根據(jù)各源(即搜索組件)的性能賦予其權重,用線性組合計算出現(xiàn)在多源結果集的文檔的綜合評分,將綜合評分最高的N個文檔返回給用戶,如WebFusion算法;谂判虻娜诤纤惴▽Χ嘣唇Y果集按相關度排序后采用輪循的方式從結果集抽取文檔返回給用戶,如SR融合算法。
2.1.2 基于人工智能的方法 主要是利用人工神經(jīng)網(wǎng)絡等人工智能技術進行文檔聚類與模式識別。如文獻利用人工神經(jīng)網(wǎng)絡自組織映射(sOM)算法對Web網(wǎng)頁進行聚類,識別各類主題之間的關系,從而實現(xiàn)搜索結果的聚合。
2.1.3 基于統(tǒng)計和人工智能的混合方法 基于統(tǒng)計的方法中文檔評分函數(shù)的形式,文檔的內(nèi)容、鏈接和結構三方面各自的權重,以及各搜索組件的權重對融合結果有很大影響,通常結合人工智能的方法確定,如文獻采用模式識別和啟發(fā)式學習調(diào)整搜索源權重。
2.2 基于多文本的知識融合
基于多文本的知識融合將搜索結果集中的多個文檔視為多源證據(jù),主要利用語義本體和自然語言處理技術分析多個文檔,利用基于邏輯的規(guī)則、基于本體的映射與合并消除其中的知識冗余、知識不完整性和知識沖突,為用戶提供具有一致性的知識。根據(jù)處理對象的結構化程度可分為半結構化文本的知識融合和非結構化文本的知識融合。
2.2.1 半結構化文本的知識融合 主要對XML格式的信息進行融合。如文獻采用語義本體技術構建了面向半結構化信息(XML格式)的知識融合模型,文獻提出了一種將融合規(guī)則與知識庫相結合的對半結構化信息進行融合的方法。
2.2.2 非結構化文本的知識融合 主要對HTML格式和其他文本格式的信息進行融合。大致可分為兩類:一是基于Web的本體學習,從網(wǎng)頁學習本體概念及概念間關系、獲取概念屬性和填充本體實例;二是多文檔的自動摘要系統(tǒng),核心問題是摘要旬的抽取與融合。
2.3 面向決策的信息融合
這方面的研究成果很少。中國科學院Yu L等人提出面向Web挖掘的信息融合工具――Web倉庫,設計了Web倉庫體系結構和EFML處理模型,在信息的融合上采用中介模型。但作者的討論僅限于Web倉庫的概念模型與工作機制,沒有深入討論具體的信息融合模型與方法。
2.4 研究現(xiàn)狀總結
總結國內(nèi)外研究現(xiàn)狀,Web信息檢索融合的研究成果相對成熟。由于半結構化文本實現(xiàn)模式(Sche-ma)映射相對容易,結合融合規(guī)則和知識推理可以獲得較好的半結構化文本知識融合效果。較困難的是非結構化文本的知識融合,原因在于機器理解自然語言仍有難度,目前的自動摘要系統(tǒng)會產(chǎn)生較大的信息損失;谖谋镜恼Z義標注進行知識融合是解決問題的一種途徑。現(xiàn)有Web信息融合算法基本上都是面向Web查詢設計的,不支持多粒度與多維度查詢,無法滿足決策支持的需要。面向主題的Web信息融合模型與技術是亟待研究和解決的問題。
3、面向主題的Web信息融合模型設計
面向決策的信息融合必須支持信息的多粒度與多維度查詢和分析,其關鍵基礎是多維信息模型的構建,并通過維度的分類關系(即對維度繼續(xù)細分得到新的子維度)反映信息的多粒度特征。由于Web信息融合的對象,即Web信息,具有半結構化和非結構化特征,無法直接用于決策支持,其關鍵是找到一種有效的方法,根據(jù)決策主題對相關Web信息進行融合且融合的結果能按多維信息模型進行組織,同時在多維信息模型的基礎上可以進一步進行信息的多粒度、多維度融合,以滿足決策支持的需要。基于上述原理設計的面向主題的Web信息融合模型如圖1所示:
3.1 Web倉庫模型
包括Web文檔本體模型、Web倉庫信息結構模型、基于代數(shù)的操作語言三個方面,具體原理如下:
3.1.1 Web文檔本體模型建立Web文檔本體元模型,設計包括Web文檔本體元模型、Web文檔概念層、Web文檔屬性層(包括概要屬性、鏈接與結構屬性、內(nèi)容屬性和信任屬性)、Web文檔實例的四層結構框架模型,為非結構化信息向結構化信息的轉換提供語義范式,并利用該本體的元模型機制實現(xiàn)面向不同主題的擴充。
3.1.2 Web倉庫信息結構模型 采用多維信息模型組織信息,以本體概念為中心,將本體的屬性映射為維度,將本體概念的繼承與包含關系映射為維度的分類關系,設計Web模式,構建事實表和多個維表的星型結構。利用語義模型到多維信息模型的映射關系將Web文檔本體實例裝載入Web倉庫。
3.1.3 基于代數(shù)的操作語言 利用語義模型到代數(shù)系統(tǒng)的映射將基于語義的查詢轉換為面向關系模型的查詢,設計基于代數(shù)的操作語言和映射算法將基于語義的查詢等操作映射到代數(shù)系統(tǒng)的集合操作;設計基 于一階謂詞邏輯的概念和屬性約束,用一階謂詞邏輯的子句歸結方法判定組合約束的真假實現(xiàn)選擇運算。
3.2 Web信息融合功能模型
該模型為具有反饋優(yōu)化機制的“信息檢索融合――屬性級融合――概念級融合――決策級融合”的四級融合功能模型,基于Web倉庫實現(xiàn)Web信息的多粒度與多維度融合。其基本工作原理是:首先利用面向主題的信息檢索融合技術檢索Web網(wǎng)頁,利用本體學習技術從Web網(wǎng)頁生成本體實例,并裝載入Web倉庫;然后根據(jù)用戶的查詢分析需求,在Web倉庫已有多維度信息的基礎上,進一步利用本體概念的多粒度關系和本體實例的合并消重算法,在屬性層級、概念層級或綜合概念與屬性層級實現(xiàn)信息的鉆取、切片、切塊和旋轉等操作,實現(xiàn)Web信息在屬性級、概念級、綜合概念與屬性的決策級進行多粒度、多維度融合,以提供滿足用戶需求的信息融合結果。
3.2.1 功能模型 具有自我優(yōu)化機制的閉環(huán)結構信息融合功能模型,定義各級功能實現(xiàn)的輸入輸出及各級功能的依賴關系,具有基于評估反饋的自我優(yōu)化機制,能夠分析評估反饋結果與各級融合參數(shù)和融合規(guī)則的關系,并能根據(jù)評估反饋結果實現(xiàn)融合參數(shù)和融合規(guī)則的自動或半自動調(diào)整。
3.2.2 主要算法 主要包括與功能模型相對應的各級融合算法以及本體實例填充算法。①與功能模型相對應的各級融合算法:在已有信息檢索融合算法的基礎上引入信任評價機制,綜合信息源信任度、文本相似度和搜索組件權重三個方面的信息檢索融合算法;基于多文檔的相同概念相同屬性的屬性值歸并融合算法;基于本體概念上下位關系的屬性級多粒度融合算法;基于本體屬性合并的概念級多粒度融合算法;基于圖理論、本體概念合并、本體屬性合并和本體實例消重的決策級融合算法。②本體實例填充算法:把每個文檔視為本體實例,重點解決本體實例概念和屬性的學習問題,其中概要屬性如所在站點、創(chuàng)建時間等概要信息通過URL和HTTP響應信息獲。绘溄优c結構屬性通過文本分析器分析獲;信任屬性由人工賦初值后基于反饋機制調(diào)整;設計基于SOM和層次凝聚的聚類算法獲取實例概念及概念間關系,設計基于文檔模板匹配和句法模式分析的算法獲取內(nèi)容屬性。
3.3 人機交互接口
負責用戶與融合功能模型層之間基于語義進行交互,其實現(xiàn)形式是語義瀏覽器。語義瀏覽器以圖形化的方式顯示本體,用戶通過對本體進行操作來表明面向主題的查詢與分析需求,用戶請求被封裝成基于語義的形式后提交給融合功能模型層,融合功能模型層返回查詢分析結果給用戶并且可以讓用戶追蹤到融合的相關原始Web信息。
4、原型系統(tǒng)實現(xiàn)
面向服裝行業(yè)企業(yè)主題,滿足服裝行業(yè)按企業(yè)和產(chǎn)品進行綜合分析決策的需要,構建Web信息融合原型系統(tǒng)。該系統(tǒng)架構如圖2所示:
主要包括數(shù)據(jù)中心、融合功能、系統(tǒng)管理、應用開發(fā)接口和用戶接口五個部分,信息源為Web文檔。整個系統(tǒng)基于Tomcat+MySQL+Jena實現(xiàn)。Web文檔模型本體和服裝本體采用Protege工具構建并存儲在MySQL數(shù)據(jù)庫中,通過Jena的ARQ查詢引擎采用SPARQL查詢語言進行查詢;融合規(guī)則的前項和后項以數(shù)據(jù)表的形式存儲在MySQL數(shù)據(jù)庫中;Web倉庫則采用MySQL數(shù)據(jù)倉庫引擎InfoBright實現(xiàn)。Web倉庫模式依據(jù)服裝本體的“概念――屬性”關系建立,目前根據(jù)“企業(yè)”和“產(chǎn)品”概念建立了兩個事實表,并分別根據(jù)“企業(yè)”概念和“產(chǎn)品”概念的屬性建立了以事實表為中心的維表,實現(xiàn)了本體實例填充算法和基于概念上下位關系的多粒度融合算法,用戶能夠根據(jù)不同概念和屬性粒度實現(xiàn)融合結果的查詢。按產(chǎn)品分級(服裝產(chǎn)品――男裝――休閑襯衫)檢索的融合結果如圖3所示:
5、結論
信息維度與信息粒度是人類認識世界的基本特征,但現(xiàn)有Web信息融合技術不支持Web信息的多維度和多粒度查詢與分析。本文面向充分利用Web信息進行決策支持的需要,設計面向主題的Web信息融合模型,并探討其基本工作原理和實現(xiàn)技術。該模型由Web倉庫模型、Web信息融合功能模型和人機交互接口三個層次構成:Web倉庫模型實現(xiàn)對Web信息的多維組織與存儲;Web信息融合功能模型實現(xiàn)具有反饋優(yōu)化機制的“信息檢索融合――屬性級融合――概念級融合――決策級融合”的四級融合功能;人機交互接口為用戶提供基于語義的主題查詢與分析界面。面向服裝行業(yè)企業(yè)主題構建了Web信息融合原型系統(tǒng),融合查詢結果初步表明了本文提出原理方法的有效性。今后將在已有模型和算法的基礎上深入研究并陸續(xù)行文探討其他融合算法與功能。
相關熱詞搜索:融合 模型 面向 面向主題的Web信息融合模型 融合空間信息的主題模型 融合多維信息的主題自適應
熱點文章閱讀