數(shù)據(jù)分析模型 [基于文本情感挖掘的企業(yè)技術(shù)競(jìng)爭(zhēng)情報(bào)采集模型研究]
發(fā)布時(shí)間:2020-03-07 來(lái)源: 感恩親情 點(diǎn)擊:
[摘要]在分析情感知識(shí)的技術(shù)競(jìng)爭(zhēng)情報(bào)價(jià)值和文本信息資源的情感特性及情感化方式的基礎(chǔ)上,圍繞企業(yè)技術(shù)競(jìng)爭(zhēng)情報(bào)獲取目標(biāo)與環(huán)境,結(jié)合文本情感挖掘流程構(gòu)建由數(shù)據(jù)層、處理層、應(yīng)用層組成的采集模型,可用于從以網(wǎng)絡(luò)技術(shù)評(píng)論為典型代表的主觀性文本信息資源中識(shí)別出情感知識(shí)作為對(duì)傳統(tǒng)的主題式情報(bào)采集的有益補(bǔ)充,實(shí)現(xiàn)情感類技術(shù)競(jìng)爭(zhēng)情報(bào)的智能獲取。
[關(guān)鍵詞]企業(yè)技術(shù)競(jìng)爭(zhēng)情報(bào)情報(bào)采集情感挖掘
[分類號(hào)]G350
技術(shù)競(jìng)爭(zhēng)情報(bào)可以幫助企業(yè)加強(qiáng)對(duì)技術(shù)發(fā)展、技術(shù)市場(chǎng)、技術(shù)競(jìng)爭(zhēng)對(duì)手以及企業(yè)自身技術(shù)能力與優(yōu)勢(shì)的正確認(rèn)知,為企業(yè)技術(shù)創(chuàng)新提供有力支持。目前,企業(yè)技術(shù)競(jìng)爭(zhēng)情報(bào)的采集主要依靠人工瀏覽或借助于相關(guān)軟件,圍繞特定技術(shù)主題展開情報(bào)采集工作。這種面向主題的信息采集策略針對(duì)情報(bào)需求,僅獲取相關(guān)主題的信息,有利于提高技術(shù)競(jìng)爭(zhēng)情報(bào)采集的主題相關(guān)度及其速度和效率。但同時(shí),“基于主題的采集”也意味著重點(diǎn)關(guān)注客觀信息主題,而忽略信息源中所擁有的其他類型知識(shí),如情感知識(shí)――它們作為技術(shù)主體主觀感受的外在體現(xiàn),也是重要的情報(bào)來(lái)源,對(duì)其進(jìn)行開發(fā)挖掘,是對(duì)傳統(tǒng)的主題式情報(bào)采集的有益補(bǔ)充。本文在分析情感知識(shí)的技術(shù)競(jìng)爭(zhēng)情報(bào)價(jià)值及文本信息資源情感特性的基礎(chǔ)上,構(gòu)建基于文本情感挖掘的技術(shù)競(jìng)爭(zhēng)情報(bào)采集模型。
1 情感知識(shí)的企業(yè)技術(shù)競(jìng)爭(zhēng)情報(bào)價(jià)值
1.1 企業(yè)技術(shù)競(jìng)爭(zhēng)情報(bào)概述
企業(yè)技術(shù)競(jìng)爭(zhēng)情報(bào)指為滿足企業(yè)技術(shù)創(chuàng)新需求,提升技術(shù)商業(yè)價(jià)值,實(shí)現(xiàn)企業(yè)商業(yè)競(jìng)爭(zhēng)目標(biāo)所需的有關(guān)技術(shù)信息和知識(shí),它能深化企業(yè)對(duì)內(nèi)外部技術(shù)環(huán)境的認(rèn)知,其獲取需要對(duì)企業(yè)自身、競(jìng)爭(zhēng)對(duì)手、外部機(jī)構(gòu)、技術(shù)客戶等信息源進(jìn)行知識(shí)層次的深加工處理。企業(yè)技術(shù)競(jìng)爭(zhēng)情報(bào)作為技術(shù)戰(zhàn)略活動(dòng)與競(jìng)爭(zhēng)情報(bào)整合的產(chǎn)物,其工作的開展以競(jìng)爭(zhēng)為導(dǎo)向,以信息為基石,以分析處理為手段,能為技術(shù)戰(zhàn)略制定提供必要輸入,從而有效促進(jìn)技術(shù)戰(zhàn)略的實(shí)施,提升企業(yè)技術(shù)競(jìng)爭(zhēng)優(yōu)勢(shì)。
1.2 情感知識(shí)在技術(shù)競(jìng)爭(zhēng)情報(bào)中的價(jià)值體現(xiàn)
企業(yè)技術(shù)競(jìng)爭(zhēng)情報(bào)作為“對(duì)企業(yè)制定技術(shù)戰(zhàn)略決策有用的與技術(shù)相關(guān)的信息”,具有對(duì)技術(shù)環(huán)境的描繪與認(rèn)識(shí)功能,其需求存在于技術(shù)戰(zhàn)略管理所包含的領(lǐng)域業(yè)務(wù)問(wèn)題中,如在企業(yè)的R&D項(xiàng)目選擇中需要了解哪些技術(shù)比較熱門;在進(jìn)行關(guān)鍵技術(shù)跟蹤與預(yù)測(cè)時(shí),需要評(píng)估技術(shù)開發(fā)前景等。從廣義上看,技術(shù)競(jìng)爭(zhēng)情報(bào)工作貫穿于企業(yè)的技術(shù)戰(zhàn)略管理與技術(shù)創(chuàng)新的整個(gè)過(guò)程,不僅應(yīng)著眼于企業(yè)技術(shù)研發(fā),還應(yīng)服務(wù)于技術(shù)產(chǎn)品化、市場(chǎng)化。在由技術(shù)研發(fā)類、技術(shù)產(chǎn)品化類、技術(shù)市場(chǎng)類所構(gòu)成的三維一體式技術(shù)競(jìng)爭(zhēng)情報(bào)活動(dòng)中(見圖1),為輔助實(shí)現(xiàn)識(shí)別技術(shù)活動(dòng)行為、識(shí)別技術(shù)發(fā)展趨勢(shì)等技術(shù)戰(zhàn)略管理目標(biāo),存在廣泛的信息保障需求。
其中,專家對(duì)技術(shù)開發(fā)前景的看法、市場(chǎng)對(duì)技術(shù)的接受程度等情感類知識(shí)對(duì)于企業(yè)正確認(rèn)識(shí)技術(shù)競(jìng)爭(zhēng)環(huán)境發(fā)揮著重要作用。如在利用Hype cycle模型識(shí)別技術(shù)生命周期狀態(tài)時(shí),需要采集社會(huì)情感類知識(shí)。Hypecycle模型將技術(shù)的發(fā)展過(guò)程劃分為技術(shù)誘發(fā)期、期望過(guò)熱期、期望谷底期、技術(shù)攀升期、技術(shù)成熟期五個(gè)階段,并通過(guò)可視化曲線形式表征技術(shù)成熟度、市場(chǎng)接受度和商業(yè)應(yīng)用程度。Hype cycle模型各階段具有一些顯著特性,如從技術(shù)探索階段到期望釋放頂峰期間,會(huì)提出一些具有轟動(dòng)效應(yīng)的概念或產(chǎn)生一些引發(fā)社會(huì)關(guān)注的事件,此時(shí),期刊、網(wǎng)站等媒體涌現(xiàn)大量正面報(bào)道的信息;在到達(dá)期望頂峰后,由于一些失敗案例的出現(xiàn),技術(shù)進(jìn)入了低谷,大眾期望逐漸消退,此時(shí),各種媒體很少出現(xiàn)相關(guān)的文章和技術(shù)討論,且負(fù)面評(píng)價(jià)居多。這些外部情感狀態(tài)成為利用Hype cycle模型劃分技術(shù)發(fā)展階段的重要社會(huì)特性類參考指標(biāo)。
2 文本信息資源的情感特性及獲取
2.1 文本信息資源的情感特性
文本作為人類認(rèn)識(shí)事物存在方式和運(yùn)動(dòng)狀態(tài)的語(yǔ)言載體,不僅客觀表達(dá)出事物主題,同時(shí)還包含認(rèn)識(shí)主體的自我情感,體現(xiàn)出一定的主觀性。在現(xiàn)代語(yǔ)言學(xué)范疇下,“情感”一詞的外延很寬泛,包括感情、情緒、觀點(diǎn)、意向、態(tài)度、看法、評(píng)價(jià)等。文本語(yǔ)言情感特性是語(yǔ)言主觀性的一種體現(xiàn),即在話語(yǔ)中含有說(shuō)話人“自我”的表現(xiàn)成分――說(shuō)話人在說(shuō)出一段話的同時(shí)表明自己對(duì)這段話的立場(chǎng)、態(tài)度和感情,從而在話語(yǔ)中留下自我的印記。情感特性作為文本語(yǔ)言的一種基本屬性,廣泛存在于新聞報(bào)刊、電子雜志等媒介中,尤其是隨著社會(huì)性網(wǎng)絡(luò)軟件以及社區(qū)、論壇等開放性交流平臺(tái)的普及,情感特性在個(gè)人博客、評(píng)論等文本形式的信息資源中日益突出。
2. 2 文本情感知識(shí)的獲取
文本情感特性的產(chǎn)生需要經(jīng)歷一個(gè)情感化的過(guò)程,即文本語(yǔ)言采用一定的結(jié)構(gòu)或形式才能體現(xiàn)說(shuō)話主體的情感。情感化是一項(xiàng)非常復(fù)雜的語(yǔ)言藝術(shù)行為,不同的語(yǔ)言在表現(xiàn)“情感性”時(shí)所采用的形式有所不同,同一門語(yǔ)言也可采用或明顯或隱晦的多種方式加以展現(xiàn),具體而言,包含情感用詞、語(yǔ)法、布局等多種途徑。一些典型的情感化方式如表1所示:
近年來(lái),網(wǎng)絡(luò)信息資源中所蘊(yùn)含的豐富的文本情感知識(shí)引發(fā)政府、企業(yè)以及消費(fèi)者等多主體的重視,成為體察社會(huì)輿情、探測(cè)用戶需求心理的重要依據(jù)。面對(duì)海量的文本信息資源,如何克服人工理解方式所固有的低效性,準(zhǔn)確、快速、自動(dòng)獲取其中的情感知識(shí)以滿足多應(yīng)用需求,針對(duì)這一問(wèn)題的研究形成一個(gè)新穎而且十分重要的領(lǐng)域――基于文本的情感挖掘。文本情感挖掘融合語(yǔ)言學(xué)、信息檢索、文本挖掘等多領(lǐng)域的理論與技術(shù),針對(duì)不同的情感化方式,從情感詞統(tǒng)計(jì)、語(yǔ)法推理等不同角度對(duì)詞語(yǔ)、句子、篇章等不同粒度的文本對(duì)象進(jìn)行情感分析,識(shí)別其中的心理態(tài)度、情感傾向及其演化趨勢(shì)。
3 基于文本情感挖掘的企業(yè)技術(shù)競(jìng)爭(zhēng)情報(bào)采集模型
圍繞企業(yè)技術(shù)競(jìng)爭(zhēng)情報(bào)獲取目標(biāo)與環(huán)境,結(jié)合文本情感挖掘流程,本文設(shè)計(jì)的一體化采集模型如圖2所示:
該模型由數(shù)據(jù)層、處理層、應(yīng)用層組成,可用于從以網(wǎng)絡(luò)技術(shù)評(píng)論為典型代表的主觀性文本信息資源中識(shí)別出情感知識(shí)作為對(duì)傳統(tǒng)的主題式情報(bào)采集的有益補(bǔ)充,實(shí)現(xiàn)情感類技術(shù)競(jìng)爭(zhēng)情報(bào)的智能獲取。
3.1 數(shù)據(jù)層
根據(jù)技術(shù)環(huán)境中技術(shù)影響因素和參與角色,企業(yè)技術(shù)競(jìng)爭(zhēng)情報(bào)主要來(lái)源于企業(yè)自身、大學(xué)實(shí)驗(yàn)室、科學(xué)研究機(jī)構(gòu)、競(jìng)爭(zhēng)企業(yè)、供應(yīng)商及消費(fèi)者等主體的技術(shù)活動(dòng)行為,其信息表征形式主要為科技論文、研發(fā)報(bào)告、技術(shù)專利、技術(shù)評(píng)論等。由于科技論文、技術(shù)標(biāo)準(zhǔn)與專利等信息源側(cè)重于對(duì)事物、事件、現(xiàn)象的客觀描述,較少包含作者自身的主觀性、情感化的論述,因此這類信息源不宜作為文本情感挖掘的主要數(shù)據(jù)來(lái)源,以免干擾、降低情感挖掘處理層的效率與性能。隨著網(wǎng)絡(luò)技術(shù)的發(fā)展以及各種開放式內(nèi)容生產(chǎn)平臺(tái)和社交網(wǎng)絡(luò)的出現(xiàn),信息交流的理念與模式發(fā)生很大變化,相較于傳統(tǒng)信息環(huán)境,用戶能夠并有意愿積極參與到信息的非正式生產(chǎn)與自由化溝通中。這使得網(wǎng)絡(luò)環(huán)境中不僅包 括大量灰色的、主觀性較強(qiáng)的技術(shù)研發(fā)報(bào)告,還擁有參與者之間的交流溝通所表達(dá)出來(lái)的情感型知識(shí)。這些知識(shí)廣泛蘊(yùn)含于技術(shù)研究團(tuán)隊(duì)博客、技術(shù)專家博客、技術(shù)風(fēng)險(xiǎn)投資評(píng)論、技術(shù)用戶評(píng)論等動(dòng)態(tài)信息源中。
3.2 處理層
目前的文本情感挖掘研究側(cè)重于分析文本的情感傾向,并根據(jù)其傾向強(qiáng)度的不同分為不同的情感類別(如消極的/積極的、正面的/負(fù)面的),實(shí)現(xiàn)情感分類。傳統(tǒng)文本分類主要針對(duì)文本主題,基于詞語(yǔ)間的相似度或文檔中的詞頻數(shù)進(jìn)行分析,通過(guò)對(duì)訓(xùn)練文本的訓(xùn)練,統(tǒng)計(jì)出相關(guān)類別中詞語(yǔ)的出現(xiàn)頻度或概率,然后根據(jù)目標(biāo)文本中相關(guān)詞語(yǔ)的頻度信息判別出其類別。情感型文本不太滿足詞語(yǔ)間相互獨(dú)立等基本假設(shè)條件,如果直接利用已有的一些文本分類方法進(jìn)行情感分類,無(wú)法達(dá)到主題分類的效果。比較有效的解決途徑是引入語(yǔ)言學(xué)理論與知識(shí),針對(duì)情感用詞、構(gòu)句、語(yǔ)法等不同的情感化方式,借助語(yǔ)義分析處理手段實(shí)現(xiàn)基于情感分類的文本情感挖掘;谡Z(yǔ)義理解的文本情感挖掘通常需要首先構(gòu)建情感語(yǔ)料庫(kù)或利用已有的詞語(yǔ)知識(shí)庫(kù)生成情感詞典,在此基礎(chǔ)上進(jìn)行主觀性句子識(shí)別、情感關(guān)系抽取、基于特征的情感分析等關(guān)鍵處理,從具體研究對(duì)象這一特定粒度層次出發(fā),辨別、分析出文本信息資源中蘊(yùn)含的情感知識(shí),實(shí)現(xiàn)文本情感分類。
?主觀性句子識(shí)別。情感性語(yǔ)句一般包含說(shuō)話人對(duì)事物的觀點(diǎn),體現(xiàn)出一定的主觀性,如例1所示:
例1:“中國(guó)大學(xué)生設(shè)計(jì)的節(jié)能車搭載了Honda低油耗摩托車的4沖程發(fā)動(dòng)機(jī)。這款通過(guò)搭載摩托車發(fā)動(dòng)機(jī)的節(jié)能賽車是世界上獨(dú)一無(wú)二的創(chuàng)意杰作!
在例1中,第一個(gè)句子描述客觀事實(shí),為客觀句;第二個(gè)句子包含了說(shuō)話人對(duì)客觀事實(shí)的肯定態(tài)度,為情感傾向較強(qiáng)的主觀句。在對(duì)大量文本進(jìn)行情感分析之前,為降低客觀句對(duì)文本情感分類性能的影響,需要盡量剔除干擾信息,只保留主觀性語(yǔ)句。目前,主觀性句子識(shí)別主要建立在情感語(yǔ)料庫(kù)基礎(chǔ)之上,以情感詞識(shí)別為主,輔之以各種詞匯及文法信息,然后根據(jù)標(biāo)準(zhǔn)分類器或標(biāo)注的特征進(jìn)行判斷。
?情感關(guān)系抽取。情感關(guān)系抽取的主要任務(wù)是識(shí)別句子或篇章所存在的評(píng)價(jià)詞及與目標(biāo)對(duì)象之間的關(guān)聯(lián)關(guān)系,如例1的主觀句中,評(píng)價(jià)詞“獨(dú)一無(wú)二”、“創(chuàng)意”、“杰作”等對(duì)應(yīng)的評(píng)價(jià)對(duì)象為“節(jié)能賽車”。為識(shí)別出這類關(guān)聯(lián)關(guān)系,通常一方面需要建立領(lǐng)域特征庫(kù)作為待評(píng)價(jià)對(duì)象的概念表征,如構(gòu)建面向技術(shù)競(jìng)爭(zhēng)情報(bào)的技術(shù)特征本體作為表達(dá)技術(shù)或子技術(shù)的狀態(tài)、功能、應(yīng)用、工藝、產(chǎn)品等相關(guān)因素的領(lǐng)域術(shù)語(yǔ),用于識(shí)別顯式主題;另一方面可通過(guò)人工構(gòu)建的情感詞匯本體、利用HowNet等已有概念知識(shí)庫(kù)推理生成情感詞匯本體,或選擇合適的情感語(yǔ)料庫(kù)并根據(jù)詞語(yǔ)的語(yǔ)義關(guān)系計(jì)算判斷出詞語(yǔ)情感傾向等不同方式識(shí)別出句子或篇章的評(píng)價(jià)詞及原始的情感傾向強(qiáng)度等。
?基于特征的情感分析。情感分析以情感詞作為句子、文本的情感傾向識(shí)別的基礎(chǔ),而情感關(guān)系抽取中目標(biāo)對(duì)象及其評(píng)價(jià)詞關(guān)聯(lián)關(guān)系的映射可以使情感分析深入到具體的對(duì)象特征這一特定粒度;谔卣鞯那楦蟹治鐾ㄟ^(guò)對(duì)抽取出的情感詞進(jìn)行上下文語(yǔ)境分析,檢測(cè)程度副詞、情感詞匯組合等語(yǔ)法現(xiàn)象,并采用一定的公式計(jì)算出目標(biāo)對(duì)象特征的上下文情感極性。具體而言,基于特征的情感分析在計(jì)算情感傾向性時(shí)可采用基于情感詞組的分類技術(shù)實(shí)現(xiàn)(否定語(yǔ)句等需進(jìn)行特殊處理),主要包含三個(gè)步驟:①利用詞性標(biāo)注方法提取特征項(xiàng)句子中所包含的形容詞或副詞詞組;②使用逐點(diǎn)互信息計(jì)算方法與公式估計(jì)所抽取詞組的語(yǔ)義傾向性;③基于特征項(xiàng)計(jì)算所有提取詞組的平均語(yǔ)義傾向性值。
3.3 應(yīng)用層
采集模型中的應(yīng)用層主要包含兩方面的功能:①實(shí)現(xiàn)用戶與系統(tǒng)的交互,用戶可以根據(jù)實(shí)際任務(wù)的需要自主調(diào)整、維護(hù)情感語(yǔ)料庫(kù)、技術(shù)情報(bào)特征庫(kù),并通過(guò)一定的軟件環(huán)境指導(dǎo)文本情感挖掘過(guò)程以及查看挖掘結(jié)果;②提供導(dǎo)入和導(dǎo)出接口,擴(kuò)充、豐富挖掘功能,實(shí)現(xiàn)與基于主題的技術(shù)競(jìng)爭(zhēng)情報(bào)采集結(jié)果、商業(yè)競(jìng)爭(zhēng)情報(bào)采集結(jié)果的集成,并能有機(jī)融入到技術(shù)戰(zhàn)略管理系統(tǒng)中,提供技術(shù)戰(zhàn)略決策支持。從上文有關(guān)情感知識(shí)在技術(shù)競(jìng)爭(zhēng)情報(bào)中的價(jià)值論述可知,對(duì)于技術(shù)生命周期分析這類典型技術(shù)競(jìng)爭(zhēng)情報(bào)決策支持目標(biāo),情感知識(shí)在Hype cycle模型生成中發(fā)揮了關(guān)鍵作用。這里可以考慮將情感挖掘和時(shí)間序列挖掘有機(jī)融入到Hype Cycle模型的創(chuàng)建中:①用戶可以通過(guò)應(yīng)用層為特定技術(shù)領(lǐng)域選擇或自行構(gòu)建技術(shù)情報(bào)特征庫(kù)作為情感挖掘分析的目標(biāo)對(duì)象,并同時(shí)指定相關(guān)的情感語(yǔ)料庫(kù)或情感詞匯本體;②利用應(yīng)用層接口導(dǎo)入時(shí)間序列挖掘功能,經(jīng)過(guò)主觀性句子識(shí)別、情感關(guān)系抽取、基于特征的情感分析等環(huán)節(jié)的處理操作,實(shí)現(xiàn)對(duì)技術(shù)報(bào)告、專家評(píng)論等序列數(shù)據(jù)的挖掘,洞察社會(huì)對(duì)相關(guān)技術(shù)的情感傾向性及其變化趨勢(shì)。這種基于文本情感挖掘模型的技術(shù)競(jìng)爭(zhēng)情報(bào)采集理念與方式可以為技術(shù)成熟度度量提供定量依據(jù),提升以往完全依靠專家主觀感受進(jìn)行判斷的決策效果與效率。
4 結(jié)語(yǔ)
企業(yè)技術(shù)競(jìng)爭(zhēng)情報(bào)的挖掘有助于企業(yè)加強(qiáng)對(duì)技術(shù)環(huán)境的認(rèn)知。網(wǎng)絡(luò)技術(shù)評(píng)論、專家博客等文本信息資源所蘊(yùn)含的情感知識(shí)是一類非傳統(tǒng)意義上的技術(shù)競(jìng)爭(zhēng)情報(bào),對(duì)企業(yè)制定技術(shù)戰(zhàn)略決策具有重要價(jià)值。本文對(duì)情感知識(shí)的技術(shù)競(jìng)爭(zhēng)情報(bào)價(jià)值特征、文本信息資源的情感特性及情感化途徑、基于語(yǔ)義分析的文本情感挖掘方法等進(jìn)行了簡(jiǎn)要分析,并初步構(gòu)建了基于文本情感挖掘的企業(yè)技術(shù)競(jìng)爭(zhēng)情報(bào)采集模型。在今后的研究中,將進(jìn)一步結(jié)合技術(shù)決策者的業(yè)務(wù)環(huán)節(jié),將分析其情感類技術(shù)競(jìng)爭(zhēng)情報(bào)需求作為挖掘目標(biāo),根據(jù)采集模型設(shè)計(jì)開發(fā)原型系統(tǒng),并選擇和結(jié)合實(shí)際企業(yè)技術(shù)工作環(huán)境,多方面應(yīng)用企業(yè)技術(shù)管理人員和技術(shù)領(lǐng)域?qū)<业膫(gè)性化知識(shí),評(píng)估挖掘效果。
相關(guān)熱詞搜索:采集 挖掘 模型 基于文本情感挖掘的企業(yè)技術(shù)競(jìng)爭(zhēng)情報(bào)采集模型研究 圖書情報(bào) 圖書情報(bào)專業(yè)
熱點(diǎn)文章閱讀