Scorpion自動(dòng)標(biāo)引思想初探|思想初探
發(fā)布時(shí)間:2020-03-07 來(lái)源: 幽默笑話 點(diǎn)擊:
[摘要]介紹OCLC的Scorpion項(xiàng)目在運(yùn)用杜威十進(jìn)分類法探索電子資源自動(dòng)標(biāo)引和編目方面所做的主要研究工作,并對(duì)杜威法作為自動(dòng)主題識(shí)別工具的可行性進(jìn)行驗(yàn)證;接著建立Scorpion杜威數(shù)據(jù)庫(kù)實(shí)驗(yàn)并對(duì)其進(jìn)行結(jié)果評(píng)價(jià)和結(jié)果集改進(jìn),分析Scorpion的核心思想和技術(shù),最后簡(jiǎn)單評(píng)價(jià)scorpion所取得的成績(jī)以及在自動(dòng)標(biāo)引上取得的新進(jìn)展。
[關(guān)鍵詞]Scorpion 自動(dòng)標(biāo)引 杜威十進(jìn)分類法
[分類號(hào)]G250.73
Scorpion是OCLC運(yùn)用圖書館學(xué)和計(jì)算機(jī)信息檢索技術(shù)建立自動(dòng)主題標(biāo)引工具的一個(gè)研究項(xiàng)目,目前已創(chuàng)建了一些自動(dòng)主題標(biāo)引工具,其在探索中運(yùn)用的一些思想對(duì)于研究網(wǎng)絡(luò)資源的自動(dòng)標(biāo)引和編目具有較大借鑒意義。筆者系統(tǒng)地搜集了Scorpion項(xiàng)目資料,并對(duì)其研究?jī)?nèi)容進(jìn)行了具體分析,希望有助于進(jìn)一步研究自動(dòng)標(biāo)引和網(wǎng)絡(luò)信息資源組織與編目。
1 Scorpion概述
在計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)迅速發(fā)展的背景下,電子網(wǎng)絡(luò)資源日益增多,終端用戶很難查詢到所需的精確信息。在此背景下,OCLC啟動(dòng)了探索電子資源自動(dòng)標(biāo)引和編目的研究項(xiàng)目Scorpion,其研究的重點(diǎn)在于建立一個(gè)基于杜威十進(jìn)分類法的自動(dòng)主題識(shí)別工具。Scorpion的簡(jiǎn)單處理流程包括如下步驟(見(jiàn)圖1):首先,確定一組要包含在杜威等級(jí)檢索數(shù)據(jù)庫(kù)中的ESS記錄,并從這些記錄中選取一些字段來(lái)建立數(shù)據(jù)庫(kù);其次,將要標(biāo)引的電子資源轉(zhuǎn)換成相應(yīng)數(shù)據(jù)庫(kù)的檢索提問(wèn),并在Scorpion杜威數(shù)據(jù)庫(kù)中進(jìn)行檢索,輸出的結(jié)果集即可看作該資源潛在的標(biāo)引主題詞。盡管Scorpion最初的一些思想是容易被證明的,Scorpion研究人員仍花費(fèi)了大量時(shí)間來(lái)精煉分級(jí)檢索數(shù)據(jù)庫(kù),并且在輸入數(shù)據(jù)的預(yù)處理和輸出結(jié)果集的后處理上做了大量的工作。目前,對(duì)結(jié)果集的后處理已成為Scorpion關(guān)注的焦點(diǎn)。 綜觀Scorpion目前的研究,主要有如下幾方面:①Scorpion杜威等級(jí)數(shù)據(jù)庫(kù)的建立。在這一工作中,Scorpion研究人員分別探討了Scorpion與杜威十進(jìn)分類法的關(guān)系以及Scorpion杜威實(shí)驗(yàn)數(shù)據(jù)庫(kù)結(jié)果的檢驗(yàn)、評(píng)價(jià)和改進(jìn),其中使用了截詞算法和SMART的幾種得分算法,尤其重要的是引入杜威法上下位類等級(jí)關(guān)系,提高了自動(dòng)標(biāo)引的質(zhì)量。②Scorpion實(shí)驗(yàn)結(jié)果集的改進(jìn)及其質(zhì)量評(píng)價(jià)。在這一研究中,Scorpion研究人員運(yùn)用對(duì)比杜威號(hào)碼集和Scorpion結(jié)果集的方法,并在結(jié)果集的改進(jìn)中提出了幾種過(guò)濾方法。③其余相關(guān)研究,如Scorpion與自動(dòng)聚類的關(guān)系等。
2 建立Scorpion杜威、實(shí)驗(yàn)數(shù)據(jù)庫(kù)過(guò)程中的研究
OCLC發(fā)起Scorpion項(xiàng)目之目的在于以合理的成本費(fèi)用將等級(jí)分類法和主題標(biāo)題法應(yīng)用于電子信息資源的組織與檢索,因而其論題之一即杜威十進(jìn)分類法能否用于對(duì)電子信息資源進(jìn)行自動(dòng)主題分類。由于杜威法目前是由OCLC森林出版社使用編輯支持系統(tǒng)(Editori―al support system,簡(jiǎn)稱ESS)以電子方式在線進(jìn)行維護(hù)的,ESS系統(tǒng)相應(yīng)的記錄可用來(lái)制作杜威十進(jìn)分類法最近的印刷版本,因而Scorpion隱含的思想之一即使用ESS記錄來(lái)建立自動(dòng)標(biāo)引文獻(xiàn)主題的等級(jí)檢索數(shù)據(jù)庫(kù),然后把某一文獻(xiàn)看作這些數(shù)據(jù)庫(kù)的檢索提問(wèn),檢索的結(jié)果即作為該文獻(xiàn)可能的主題標(biāo)引詞集合。
2.1建立實(shí)驗(yàn)數(shù)據(jù)庫(kù)的基本方法和思想
由于任何分類工具都希望其依據(jù)的知識(shí)基礎(chǔ)立類完整,每一個(gè)主題概念明確無(wú)歧義。因而在建立杜威數(shù)據(jù)庫(kù)的過(guò)程中,Scorpion研究人員首先對(duì)杜威法是否可作為自動(dòng)主題分類工具進(jìn)行了驗(yàn)證。具體做法即根據(jù)ESS記錄中描述的概念建成數(shù)個(gè)數(shù)據(jù)庫(kù),然后將每一概念都轉(zhuǎn)換成針對(duì)相應(yīng)數(shù)據(jù)庫(kù)的檢索請(qǐng)求,讓分級(jí)檢索軟件確定數(shù)據(jù)庫(kù)中與輸入概念最為匹配的概念。
研究人員選用了SMARTll,O版(System for Ma-nipulating and Retrieving Text)作為實(shí)驗(yàn)數(shù)據(jù)庫(kù)平臺(tái),并選取了SMART的兩種得分算法ATN和ATC,這兩種算法是以同樣的方法來(lái)確定術(shù)語(yǔ)權(quán)重的,區(qū)別在于ATN計(jì)算的僅是術(shù)語(yǔ)權(quán)重的簡(jiǎn)單總和,而ATC則使用記錄的長(zhǎng)度將其權(quán)重標(biāo)準(zhǔn)化到0.0和1.0區(qū)間內(nèi)。標(biāo)準(zhǔn)化的目的是為了削減較長(zhǎng)記錄比較短記錄更容易被檢索的特點(diǎn)。記錄長(zhǎng)度之所以被作為實(shí)驗(yàn)考慮的一個(gè)因素,是因?yàn)樵诘燃?jí)層次中越靠后的概念具有的限制術(shù)語(yǔ)數(shù)越多。
在實(shí)驗(yàn)過(guò)程中,研究者發(fā)現(xiàn)ESS記錄實(shí)際上是依賴于杜威法的上下位類等級(jí)屬性來(lái)完整定義一個(gè)概念。針對(duì)ESS記錄數(shù)據(jù)庫(kù)的檢索提問(wèn),只有當(dāng)考慮了號(hào)碼的等級(jí)層次以及與之關(guān)聯(lián)的概念短語(yǔ)時(shí),才可能產(chǎn)生更精確的檢索結(jié)果。因而,研究者調(diào)查了在概念記錄中增加上下位類等級(jí)信息對(duì)Scorpion結(jié)果的影響。除此之外,研究人員還檢測(cè)了截詞法對(duì)杜威法概念術(shù)語(yǔ)檢索結(jié)果的影響,即建立有截詞算法功能和無(wú)截詞算法功能的兩種不同版本Scorpion數(shù)據(jù)庫(kù)。
此實(shí)驗(yàn)是在6個(gè)特定數(shù)據(jù)庫(kù)中進(jìn)行的,輸入的檢索提問(wèn)記錄都限于該記錄所在的數(shù)據(jù)庫(kù),如表1所示:
2.2實(shí)驗(yàn)過(guò)程
為了客觀評(píng)價(jià)Scorpion杜威數(shù)據(jù)庫(kù),研究人員首先檢測(cè)了一條輸入檢索提問(wèn)概念被轉(zhuǎn)換成潛在主題排序列表中第一條結(jié)果的頻率。實(shí)驗(yàn)假定只要輸入的檢索提問(wèn)概念出現(xiàn)在排序結(jié)果中,就表明自我匹配發(fā)生。并且實(shí)驗(yàn)中所有的結(jié)果集都只包含20個(gè)概念。這樣,每個(gè)結(jié)果集至多應(yīng)包含有1個(gè)自我匹配記錄和至少19個(gè)自我不匹配記錄。
對(duì)于杜威號(hào)307.77(Self-contained communities),使用012數(shù)據(jù)庫(kù)和ATC得分算法,得到如表2所示的20個(gè)返回概念:
以上實(shí)驗(yàn)結(jié)果非常滿意,自我匹配記錄出現(xiàn)在排序的第一條,并且超過(guò)半數(shù)的其他檢索概念出自數(shù)據(jù)庫(kù)中杜威號(hào)307所在的同一領(lǐng)域。
而事實(shí)上并非每一個(gè)ATC算法結(jié)果集中自我匹配記錄都出現(xiàn)在序號(hào)1的位置上,這主要是SMART系統(tǒng)本身的兩個(gè)因素造成的:①在ATC得分算法下,當(dāng)一個(gè)概念和它自身對(duì)比的時(shí)候,返回的得分總是為1.0(最高的可能得分)。因而,在結(jié)果集中每一個(gè)輸入的概念得分都會(huì)為l,問(wèn)題在于由于ATC得分算法的標(biāo)準(zhǔn)化,其他概念的得分也會(huì)為1.0。②SMART系統(tǒng)對(duì)所返回的具有同樣得分的記錄是按照SMART內(nèi)部文獻(xiàn)號(hào)的遞減順序排列的,而Scorpion數(shù)據(jù)庫(kù)是按杜威號(hào)的升序排列的。因而,在確定所輸入的檢索提問(wèn)概念作為潛在主題排序列表中第一個(gè)返回結(jié)果的頻率時(shí),在同樣的得分組中,概念是按杜威號(hào)的遞減順序排列的。
考慮到以上兩個(gè)因素,研究人員計(jì)算了某個(gè)輸入概念在一個(gè)給定數(shù)量的分值為1.O的關(guān)系組中出現(xiàn)的次數(shù),并將這些結(jié)果值繪制成圖(見(jiàn)圖2)。其中,x軸表示包含輸入記錄得分為1.0的結(jié)果集的數(shù)量大小,Y 軸表示具有這個(gè)數(shù)量或更少的關(guān)系組的所有結(jié)果集占總數(shù)的累計(jì)百分比。例如,數(shù)據(jù)庫(kù)012的結(jié)果集有99%是由得分為1、概念數(shù)量為4或更小的關(guān)系組組成。對(duì)數(shù)據(jù)庫(kù)012、013、015和016來(lái)說(shuō),至少97%的輸入概念作為排序號(hào)最高的概念和自身相匹配。在兩個(gè)沒(méi)有上下位等級(jí)的數(shù)據(jù)庫(kù)011和014中,結(jié)果不盡滿意,但是其匹配率仍然在93%以上。
2.3實(shí)驗(yàn)發(fā)現(xiàn)――上下位類等級(jí)信息對(duì)Scorpion杜威數(shù)據(jù)庫(kù)有重要影響
在圖2中,將具有截詞功能和不具有截詞功能的數(shù)據(jù)庫(kù)進(jìn)行對(duì)比(數(shù)據(jù)庫(kù)011和014對(duì)比,012和015對(duì)比,013和016對(duì)比),發(fā)現(xiàn)截詞功能對(duì)于自我匹配效果的影響不是很明顯。產(chǎn)生影響的主要因素是所包含的等級(jí)關(guān)系信息的數(shù)量,包含有上下位類等級(jí)關(guān)系數(shù)據(jù)庫(kù)的結(jié)果比僅包含上位類的數(shù)據(jù)庫(kù)更好?梢灶A(yù)言,兩者的結(jié)果都優(yōu)于不包含等級(jí)關(guān)系的數(shù)據(jù)庫(kù)。為了進(jìn)一步驗(yàn)證以上結(jié)果,又使用SMART ATN得分算法進(jìn)行了相似的分析,同樣證明在概念中增加其上下位類等級(jí)記錄后,其結(jié)果得到了最大程度的改善。
表3列出了杜威法中的概念535,028在數(shù)據(jù)庫(kù)011,012,013中運(yùn)用ATC算法檢索所得的前20條匹配記錄。值得注意的是在數(shù)據(jù)庫(kù)011的結(jié)果中ATC得分為1,O的大量的杜威概念號(hào)碼(等級(jí)序號(hào)從1-15)。當(dāng)通過(guò)增加上下位類關(guān)系使概念具有更多的上下文環(huán)境時(shí),數(shù)據(jù)庫(kù)011中前邊的匹配概念在數(shù)據(jù)庫(kù)012和013中被分散了。在數(shù)據(jù)庫(kù)012中只有三條非自我匹配的(用黑體顯示出來(lái))概念仍然保留在前20條記錄中。同樣在數(shù)據(jù)庫(kù)013的檢索結(jié)果中,只有6條記錄仍然被保留下來(lái)。
圖3和圖4以繪圖的形式展示了上下位類關(guān)系對(duì)記錄自我匹配效果的影響。這兩個(gè)圖是關(guān)于輸入某一檢索提問(wèn)概念的前20條記錄散布圖。其中x軸是相應(yīng)的檢索提問(wèn)概念的杜威號(hào),Y軸是檢索出的相應(yīng)概念的杜威號(hào)。通過(guò)對(duì)比圖3和圖4,可以明顯看出上下位類信息加強(qiáng)了概念間的匹配。
2.4實(shí)驗(yàn)結(jié)論
從以上實(shí)驗(yàn)中得出的結(jié)論有:①杜威法描述了一個(gè)高度結(jié)構(gòu)化的分類整體,其中的概念定義很嚴(yán)密,互不交叉;②增加上下位類環(huán)境可以在很大程度上改善Scorpion為主題概念分配較窄范圍號(hào)碼的能力。以上結(jié)論表明杜威法是自動(dòng)分類工具可依據(jù)的很好的知識(shí)基礎(chǔ);③實(shí)驗(yàn)結(jié)果集中還出現(xiàn)了明顯不符合要求的記錄,還有待進(jìn)一步改進(jìn)。
3 結(jié)語(yǔ)
Scorpion是基于杜威法來(lái)建立sc唧ion標(biāo)引數(shù)據(jù)庫(kù),并通過(guò)對(duì)該數(shù)據(jù)庫(kù)的檢索得到標(biāo)引詞集合的一種將關(guān)鍵詞和賦詞標(biāo)引相結(jié)合的方法。sc0Ipion在建立杜威數(shù)據(jù)庫(kù)過(guò)程中引入杜威法的上下位類等級(jí)關(guān)系以改善結(jié)果,此方法對(duì)于目前的自動(dòng)標(biāo)引研究有較大的借鑒意義。這一思想在中文自動(dòng)標(biāo)引研究中也有所反映,如韓客松與王永成在其《中文全文標(biāo)引的主題詞標(biāo)引和主題概念標(biāo)引》一文中,提出了一種用層次概念詞典改進(jìn)主題詞標(biāo)引質(zhì)量的新方法。另外,針對(duì)僅僅用主題詞標(biāo)引的不連貫性等缺陷,提出采用直接選取上位詞、通過(guò)聚類產(chǎn)生上位詞、由兩個(gè)或以上的主題詞合成主題概念三種方法進(jìn)行主題概念標(biāo)引。由于目前還沒(méi)有好的層次概念詞典,尚不能運(yùn)用這一思想進(jìn)行真實(shí)文本測(cè)試?偟膩(lái)看,盡管scorpion已經(jīng)建立了一些自動(dòng)主題標(biāo)引的工具,但是還不能進(jìn)行完全智能操作,并且其自動(dòng)結(jié)果集中仍存在明顯不符合要求的記錄,還需要對(duì)結(jié)果集進(jìn)行進(jìn)一步過(guò)濾和改進(jìn)。因此,迄今為止scorpion還不能代替手工編目,但對(duì)于可獲得的電子資源來(lái)說(shuō),它可以向手工編目員提供一個(gè)主題列表,供其從中選擇最適合的主題,從而降低傳統(tǒng)編目的成本。這已經(jīng)將目前的自動(dòng)標(biāo)引和網(wǎng)絡(luò)資源編目向前推進(jìn)了一步。
相關(guān)熱詞搜索:標(biāo)引 初探 思想 Scorpion自動(dòng)標(biāo)引思想初探 基于引文的自動(dòng)標(biāo)引法初探 自動(dòng)洗片機(jī)使用初探
熱點(diǎn)文章閱讀