情報語言學 情報語言學的若干研究心得和收獲
發(fā)布時間:2020-03-07 來源: 散文精選 點擊:
[摘要]著者自述情報語言學學術思想,包括情報檢索語言的研究方法、檢索效率、情報檢索語言一些具體問題的研究心得、術語學、自然語言檢索等。 [關鍵詞]張琪玉情報語言學情報檢索語言 自然語言檢索 術語學
[分類號]G254.0
我研究情報語言學,假如僅僅從寫作《情報檢索語言》一書算起,也已有30年的時間。有一些來之不易的心得和收獲,介紹出來與同行們交流、分享。
我有一個基本觀點,認為各種情報檢索語言的基本原理是一致的,它們只是在表達各種概念及其相互關系時和在解決對它們提出的那些共同要求時所采用的方法不同,才形成了不同的類型和語種。因此,對分類檢索語言、主題檢索語言和其他情報檢索語言以及自然語言在情報檢索中的應用問題進行統(tǒng)一研究,可探索它們影響檢索效率的共同規(guī)律和有效的改進途徑。提高檢索效率是情報語言學研究的根本目的和核心問題。
正是從這一基本觀點出發(fā),我寫成了《情報檢索語言》一書以及之后的許多情報語言學文章和專著。寫作《情報檢索語言》一書是我對各種情報檢索語言進行統(tǒng)一研究,以探索它們影響檢索效率的共同規(guī)律和有效的改進途徑的第一次實踐。
我的學術研究,以情報語言學(包括索引學)為范圍。對于情報語言學,我可以說是“情有獨鐘”,自1980年之后寫的幾百篇著作,幾乎全部是關于情報語言學的。
我認為,人生很短暫,一個人不可能做完一切想做的事,所以只能去做最必要的、最有意義的并且能夠做到的事情。做學問,要有一個專業(yè)范圍,在專業(yè)范圍內力求深而廣。
我把情報語言學定義為“是研究情報檢索中語言保證問題的一門學科,其主要研究對象是情報檢索語言,同時也研究自然語言在情報檢索中的應用問題”。這樣表述,是要在概念上弄清情報檢索語言與自然語言的區(qū)別,情報檢索語言(簡稱檢索語言)是人工語言,自然語言不能稱為“自然檢索語言”。
1 情報檢索語言的研究方法
我體會到,研究的成效在很大程度上取決于研究方法。
情報檢索語言的檢索效率是其功能決定的,而其功能則是由其結構決定的。所以,研究情報檢索語言的性能,主要就是要分析解剖其結構。結構功能分析法是研究情報檢索語言最為有效的方法。后來,我總結出研究情報檢索語言的一整套專用方法,如歷史演進研究法、比較研究法、調查整理法、歸納法和演繹法、原理或方法的移植法、理想語言設計法、現(xiàn)用語言改進法、數(shù)學方法和統(tǒng)計方法、實驗方法等,我發(fā)現(xiàn)這些方法都含有結構功能分析的內容,都是從結構功能分析法衍生出來的。
關于比較研究法,我寫過一篇題為《情報檢索語言原理的一致和方法的差異》(《圖書館建設》1994年第6期)的文章,提到比較研究法可以使我們觀察出情報檢索語言各種結構與功能的“異中之同,同中之異”,使我們能“既見樹木,也見森林”。這篇文章可以幫助人們了解各種情報檢索語言的性能。正是在利用結構功能分析法及其各種衍生方法的基礎上,我對情報語言學的內容進行了豐富、發(fā)展。
情報檢索語言的檢索效率由其各種檢索功能決定,而情報檢索語言的各種檢索功能則由其結構產(chǎn)生。產(chǎn)生檢索功能的是情報檢索語言的微觀結構。若干微觀結構的有機結合才能構成一種情報檢索語言。各種類型的情報檢索語言都是一種結構模式,即其宏觀結構。微觀結構的數(shù)量、種類及結合模式,形成情報檢索語言檢索效率的整體水平。
正是這一原理,使我樹立起情報檢索語言可創(chuàng)新、可改進的信念。我常常異想天開,去尋找理想的情報檢索語言結構模式,去發(fā)現(xiàn)新的功能,去探索創(chuàng)新之路。例如《學科一事物概念組配型檢索語言――關于情報檢索語言的遐想與求索》(《圖書館雜志》1997年第2期)和《探索21世紀的情報檢索語言》(《北京大學學報:信息管理系建系五十周年專刊》(1997年)以及《對未來分類法的憧憬》(《圖書館理論與實踐》2003年第1期)三篇文章。
《學科一事物概念組配型檢索語言――關于情報檢索語言的遐想與求索》和《探索21世紀的情報檢索語言》是經(jīng)過十多年的研究才尋找到的模式。該模式的本質屬性可歸納為:①學科聚類系統(tǒng)與事物聚類系統(tǒng)的結合;②先組式語言與后組式語言的結合、體系分類法與組配分類法的結合;③人工語言與自然語言的結合;④號碼標識與語詞標識的結合、系統(tǒng)序列與字順序列的結合;⑤不變概念代碼與可變概念體系的結合。其主要實現(xiàn)方法可概括為“分面分析+概念代碼+概念對應轉換+數(shù)據(jù)庫技術”。這種語言的性能可概括為:①分類法與主題法徹底一體化的;②充分發(fā)揮情報檢索語言對知識進行系統(tǒng)組織和對自然語言進行規(guī)范控制的功能的;③用戶可十分方便地進行標引和檢索的;④概念可不斷增補及概念的代表詞可進行更換的;⑤用戶區(qū)別不出是自然語言還是人工語言而其實是由嚴密的人工語言控制的;⑥修訂不受已標引文獻所牽制,故分類體系可逐步完善的;⑦可以掛接英文索引、分子式索引等以及可用于機助標引的。
《對未來分類法的憧憬》一文認為理想分類法的結構模式應是:①學科分類與事物分類并行又能相互結合的,既可形成學科分類體系又可形成事物分類體系,兩種體系可變換的分類法,即學科一事物概念組配型的分類法;②多聚類中心的、線性結構與網(wǎng)狀結構相結合的,學科和事物概念全向聚類的分類法,單純線性結構和單純網(wǎng)狀結構都有局限性;③只依據(jù)文獻內容的學科屬性或文獻研究對象之間的相互聯(lián)系的客觀事實進行分類,對其思想觀點不加區(qū)分和褒貶的分類法(某種意識形態(tài)、宗教信仰、政治主張等的優(yōu)先、重點揭示可作為照顧各國各民族的特殊需要來處理),即分類體系的建立更注重于揭示各種知識的內在聯(lián)系,重點不在于構建表示某種信仰的宏觀框架;④國際化與民族化妥善結合的分類法。依據(jù)“求同存異”的原則,以國際通用為基本,照顧各國各民族的特殊需要,阮崗納贊的“優(yōu)惠類”原理用超鏈接方法實現(xiàn);⑤體系列舉方式與分面組配方式相結合的分類法;⑥在一個整體框架下由眾多專業(yè)分類法集成的分類法;每個學科領域或事物范疇允許有不只一個分類體系,但不同體系之間大部分類目有對應轉換的可能性;⑦分類體系和類目可不斷革新的分類法;擺脫了已標引文獻和藏書排架牽制的分類法(排架仍可用已分類了大量藏書的原有分類法);⑧能與世界上現(xiàn)有主要分類法通過類目對應轉換達到基本兼容的分類法;⑨伸縮性很好的分類法;⑩類名與術語學成果盡可能取得一致的分類法,即其類名可作為主題詞使用的分類法,實際上就是分類法主題法一體化;⑩有詳細的、完善的自然語言入口的分類法,并可用于人機結合賦號標引;⑩多語種的分類法;⑩計算機化并可在網(wǎng)絡上應用的分類法;⑩有充分文獻保證的分類法,但不是僅限于專著的文獻保證。我設想,未來分類法的編制可能是先構筑部分(專業(yè)分類法),再形成整體。事實上,未來分類法的構成原理和方法大多已存在于現(xiàn)有情報檢索語言中,只是找出 它們完善結合(實現(xiàn))的方案還需要作出很大的努力。
由此可見,情報檢索語言的發(fā)展方向遠不止一個網(wǎng)絡檢索問題,我們必須多方面去探索情報檢索語言的發(fā)展方向。
我認為,情報檢索語言的進步主要是結構模式的進步。永遠只有更佳而不會有最佳的情報檢索語言結構模式。因此,尋找更佳結構模式永遠是情報檢索語言創(chuàng)新的主流。
我認為,目前尋找更佳結構模式的主要方向是:①學科檢索與事物檢索的更密切結合;②人工語言與自然語言的融合;③線性顯示與網(wǎng)狀顯示的結合;④族性檢索與特性檢索的靈活調節(jié);⑤簡單易用與功能豐富能兼?zhèn)洌虎薜统杀九c高效益能兼?zhèn);⑦自動化和網(wǎng)絡化;⑧既能不斷改進,又能回避重新標引;⑨適應性、兼容性、民族化和國際化;⑩與術語學密切結合。這10項中的哪一項,即使是小小的改進,也符合情報檢索語言發(fā)展的方向。
我在研究中歸納出情報檢索語言的4項基本功能,即:①對文獻的情報內容(及某些外表特征)加以標引;②對內容相同及相關的情報加以集中或揭示其相關性;③對大量情報加以系統(tǒng)化或組織化;④便于將標引用語和檢索用語進行相符性比較。后來,我在《情報檢索語言方法綜述》(《圖書情報知識》1984年第2期)一文中對情報檢索語言的各種微觀結構如何實現(xiàn)這4項基本功能做了系統(tǒng)說明。
2 檢索效率
關于檢索效率,我的總結是應當“全、準、快、便、省”(檢全率、檢準率、檢索速度、檢索方便性、檢索成本與效益),其中最主要的是全和準。
決定檢索效率的有4個方面的因素:①情報檢索語言的質量;②標引質量;③檢索質量;④其他。其中,情報檢索語言的質量與檢索效率關系最密切。
3 一些具體的心得和收獲
至于一些具體的體會,限于篇幅,這里僅列舉出相關的文章和出處。在這些文章中,我對情報語言學的某些問題曾做過全面、深入、系統(tǒng)的研究,我認為是比較重要的文章:
?《論情報檢索語言的研究、創(chuàng)制與普及》(《圖書情報知識》1983年第4期);
?《情報檢索中的語言保證問題》(《情報理論與實踐》1995年第1期);
?《檢索效率及其影響因素》(《情報理論與實踐》1995年第2期);
?《情報檢索語言語法體系初探》(《圖書館理論與實踐》1986年第3期);
?《情報檢索語言中聚類的原理和方法》(《北京圖書館館刊》1997年第1期);
?《組配及其演變》(《情報理論與實踐》1996年第1期);
?《文獻主題的構成因素及層次》(《圖書情報知識》1985年第1期);
?《試論隱含主題》(《圖書館理論與實踐》1993年第2期);
?《情報檢索語言的國家特點、時代特點和自然語言特點》(《圖書館理論與實踐》1989年第4期);
?《情報檢索語言的易用性問題》(《云南圖書館》199(年第4期));
?《文獻標引是需要智慧的近手藝術創(chuàng)造的處理過程》(《圖書館雜志》2004年第3期);
?《情報檢索全過程中概念與標識的對應轉換》(《圖書與情報》2002年第2期);
?《情報檢索語言的發(fā)展趨勢(與吳建中的對話)》(《圖書館雜志》1996年第4期);
?《事物分類與學科分類》(《圖書館理論與實踐》200:年第1期);
?《體系分類法的準則和慣例》(《晉圖學刊》1992年第4期);
?《體系分類法中“集中與分散”的矛盾》(《圖書館雜志》1982年第1期);
?《體系分類法中的交替法》(《圖書情報知識》1982年第2期);
?《分類標記原理與方法概述》(《圖書館》1993年第1期);
?《情報檢索語言中語詞標識的功能與局限――關于主題法性能的幾點分析》(《湖北高校圖書館》1985年第1期);
?《主題標引的原理和方法》(《圖書館學刊》1996年第1期和第2期);
?《漢語檢索詞詞素輪排索引編制法探索》(《圖書與情報》1992年第4期)。
這些文章都有一定的新穎性,大部分可構成情報語言學的基礎理論。
4 術語學
我認為,術語學對情報語言學極其重要。術語是指稱概念的規(guī)范化符號,情報檢索語言的語詞則是指稱文獻主題概念的規(guī)范化符號(標識),術語與情報檢索語言的語詞兩者存在著本質的一致性。從這一角度看,術語學與情報語言學的研究對象可以說是同一事物,情報語言學所研究的是如何編制用于情報檢索領域的“術語詞典”一一分類表、詞表、代碼表。
情報檢索語言的編制可以說是術語整理(規(guī)范化、統(tǒng)一化、標準化)工作成果的諸多應用領域之一。術語整理工作的原則,要求術語具有:單義性、標準化術語的字面意義同它所表達的概念的一致性、系統(tǒng)性(術語應盡可能反映概念之間實際存在的、在系統(tǒng)化過程中確定下來的關系)、穩(wěn)定性和普遍性、簡潔性、語言的正確性、借用外來語的不可取性等,這些要求與情報檢索語言的選詞、規(guī)范化處理和顯示概念關系等的要求都是一致的。所以,術語整理工作成果(術語標準、推薦術語集、術語詞典等,特別是有術語定義和分類體系的術語文獻)是情報檢索語言選詞的主要來源和進行規(guī)范化處理及建立概念間關系的重要依據(jù)。情報檢索語言編制中的失誤,有很多是忽視對術語整理工作成果的利用所造成的。
所以,術語學與情報語言學有著極為密切的關系,情報語言學研究者對術語學的研究必定會獲益匪淺。
5 自然語言檢索
近10多年,隨著自然語言檢索的流行,圖書情報界議論自然語言檢索的文章很多,主流的論點是:①自然語言檢索是發(fā)展方向,信息檢索要走自然語言道路;②人工語言(情報檢索語言)不適應網(wǎng)絡環(huán)境,自然語言不亞于人工語言;③目前自然語言雖有缺點,但人工智能可使其達到完善,滿足一切檢索要求。
但是,如果仔細去看,可發(fā)現(xiàn):發(fā)表這些樂觀論點者幾乎都不是自然語言檢索的專門研究者,而專門研究自然語言檢索的學者中多數(shù)雖然也認同以上某些觀點,但他們所發(fā)表的文章比較平和、審慎,不下如此斷言。
自然語言在文獻(或日信息、情報、知識)檢索中的應用大體可歸納為下列幾個方面:①關鍵詞索引及以關鍵詞為檢索標識的文獻數(shù)據(jù)庫(數(shù)據(jù)庫中的關鍵詞檢索標識來自人工自由標引,或略加人工輔助的計算機抽詞,或藉助于詞典的自動抽詞);②全文數(shù)據(jù)庫;③搜索引擎及由搜索引擎自動建立的網(wǎng)絡資源數(shù)據(jù)庫;④自動甄別(知識本體語言);⑤自動標引(自動抽取主題概念詞標引);⑥自動分類。
以上6個主要方面,只有關鍵詞索引及數(shù)據(jù)庫、全文檢索、搜索引擎已進入實用。其實,這三個方面的實質都是關鍵詞檢索。所以可以說,自然語言檢索目前僅在關鍵詞檢索的層次上已經(jīng)實現(xiàn)(但還不是非常成熟,不是無可指摘)。至于自動甄別、自動標引和自動分類,嚴格地說都還沒有走出實驗室進入廣泛應用。自然語言檢索的研究已有半個多世紀的歷史,進展如 此緩慢,可見難度極大。
自然語言在情報檢索中的應用,面臨著以下兩個難題:一是如何從自然語言文本中抽出(或者說確認)最能準確、充分地表達文獻有價值內容的詞以及這些詞與檢索課題有效匹配的問題。這個問題的復雜性在于文獻作者的用詞無明顯的規(guī)律性,并且作為人類社會現(xiàn)象的自然語言不可能用純自然科學的方法去研究解決。這個問題同機器翻譯的性質類似。如果去追求百分之百的自動化,至少在短期內是無希望解決的(當然,自然語言自動處理現(xiàn)有的一些中間成果還是有實用價值的)。如果采用人機結合的方法,則可以較為容易一些。二是克服自然語言由于不規(guī)范和缺乏語義關聯(lián)性而對檢索不利的問題。克服這個難題也是不能完全用自動化方法的。除此以外,對中文來說還有一個漢語分詞的問題。漢語分詞的研究已取得很大進展。但這個問題的解決,只是達到了拼寫文字國家的起點水平,拼寫文字中未解決的上述兩個問題仍有待我們去解決。
有不止一位作者說,自然語言檢索是情報檢索用語言發(fā)展的最高階段。他們說:從自然語言,到人工語言,再回到自然語言,或者說,從不控制,到控制,再到不控制,這是“否定之否定”,是情報檢索用語言的“發(fā)展規(guī)律”。
我認為,這種理解是似是而非的。沒有任何控制的檢索用語言是不可思議的。至今還沒有找到在計算機環(huán)境下不加控制地利用自然語言的十分有效的方法。如果有,一定會被檢索網(wǎng)站立即用高價收買而付諸應用。但至今在網(wǎng)絡上沒有發(fā)現(xiàn)那樣的方法,說明那樣的方法至少現(xiàn)在還不存在,將來也未必會出現(xiàn)。
自然語言到底會走向何方?我認為,自然語言的未來與情報檢索語言的未來在某種意義上可以說是同一個問題。從一方面看,自然語言不可能全面取代情報檢索語言、淘汰情報檢索語言,情報檢索語言還將繼續(xù)發(fā)展;但從另一方面看,在計算機檢索的條件下,自然語言有許多重要的優(yōu)點,故它也必然會更進一步得到發(fā)展?傊W(wǎng)絡檢索不能唯一地使用自然語言。自然語言的前途仍然要走向控制、規(guī)范,當然,控制的方法會與過去人工語言所采用的方法有所不同。
其實,自然語言檢索系統(tǒng)與情報檢索語言檢索系統(tǒng)并不是絕然對立的。既然兩者各有優(yōu)點而不可能互相取代,為什么不可以使兩者結合或融合呢?自然語言或情報檢索語言的未來將是自然語言的情報檢索語言化或情報檢索語言的自然語言化。
情報檢索語言的自然語言化、自然語言的情報檢索語言化,這是兩者發(fā)展的大趨勢,走兩者結合之路是大方向。在兩者完全融合的新型情報檢索語言普及以前的趨勢可能是下列三種情況并存:①情報檢索語言與自然語言在一個檢索系統(tǒng)中并用;②情報檢索語言增加自然語言成分;③自然語言適當引進情報檢索語言的原理與方法和增加情報檢索語言成分。
既然人工語言和自然語言都起著不可取代的作用,因而對兩者的研究不可偏廢。目前,亟待從情報語言學的角度來深入研究自然語言檢索中存在的問題(這是自然語言檢索研究中的薄弱環(huán)節(jié)),把情報語言學的原理和方法引進自然語言檢索的研究,并要重視利用情報檢索語言已往所積累的成果(例如分類表和詞表對概念和術語的整理成果)。也要積極研究情報檢索語言在網(wǎng)絡環(huán)境下應用中所遇到的新問題,尋找改進方法,特別是吸取自然語言的優(yōu)點來彌補情報檢索語言的不足之處。這兩方面的研究,應朝著并且必然會朝著從兩者的初步結合到完全融合。
總之,我對僅僅借助于計算機技術的純粹自然語言檢索(或者說不利用情報語言學原理控制的自然語言檢索)在短期內(例如10年、20年)能完滿實現(xiàn)并不抱樂觀的態(tài)度。我越來越覺得亟需從情報語言學角度深入研究自然語言檢索方法,把情報語言學的原理和方法引進自然語言檢索的研究。正是這樣,我近年的研究重點,轉移到了自然語言在情報檢索中的應用方面。
在自然語言在情報檢索中的應用(包括網(wǎng)絡資源檢索工具)的研究方面,我曾寫過不少文章,如:
?《關于自然語言檢索問題》(《圖書館論壇》2004年第6期);
?《自然語言檢索中各種因素對檢索效率的影響》(《情報理論與實踐》1997年第5期);
?《人一機結合的題內關鍵詞索引可回避漢語分詞難題》(《圖書館雜志》1993年第4期);
《題名關鍵詞與正文關鍵詞檢索性能的差別》(《中國索引》2004年第4期);
《自動抽詞與自動分詞》(《圖書館雜志》2002年第3期);
《文獻題名自動抽詞一分類標引系統(tǒng)》(《圖書館雜志》1998年第4期);
?《自然語言與人工語言的對應轉換一隋報檢索語言走向自動化之路》(《中國圖書館學報》1996年第1期);
?《積極為自然語言與情報檢索語言的結合創(chuàng)造務件――建議大量編制自然語言詞袁》(《圖書館雜志》1999年第9期);
?《走向自然語言與情報檢索語言結合之路》(《圖書館理論與實踐》2001年第2期);
《人工語言與自然語言、先控制與后控制的界限在計算機系統(tǒng)中可淡化或取消》(《圖書館雜志》1997年第5期);
?《分類語言、主題語言、自然語言一體化檢索系統(tǒng)》(《現(xiàn)代圖書情報技術》2002年第1期);
?《論后控制詞表》(《圖書情報工作》1994年第1期);
《充分利用入口詞原理》(《圖書館論叢》1992年試刊號);
《論自由標引》(《圖書館學刊》1995年第5期);
?《概念分面組配型自動分類系統(tǒng)》(《圖書館學刊》2002年第6期);
《全文數(shù)據(jù)庫、全文檢索與全文標引》(《圖書館理論與實踐》2002年第6期);
《全文檢索系統(tǒng)較好的模式》(《圖書館理論與實踐》2002年第5期);
《全文檢索系統(tǒng)的檢索性能》(《江西圖書館學刊》2004年第3期);
《字面相似聚類法輔助構造詞族表、分面類表和自動標引》(《圖書館論壇》2002年第5期);
《文獻題名初步研究》(《江西圖書館學刊》2006年第3期);
?《關于我國網(wǎng)絡信息檢索工具開發(fā)與改進的思考》(《2000年理論學術年刊》);
(下轉第29頁)
?《網(wǎng)絡信息檢索工具增強關鍵詞檢索功能的措施》(《圖書館雜志》2001年第1期);
?《網(wǎng)絡信息檢索工具的分類體系》(《江蘇圖書館學報》2002年第4期);
?《因特網(wǎng)大眾分類法若干問題的探討》(《圖書館論壇》2005年第6期);
《因特網(wǎng)大眾分類法的本質屬性》(《圖書館雜志》2002年第11期);
《因特網(wǎng)大眾分類法是獨立創(chuàng)造而不是對傳統(tǒng)分類法的改進和發(fā)展》(《江西圖書館學刊》2005年第1期);
《因特網(wǎng)大眾分類法的標準化問題》(《中國索引》2004年第l期);
《分類瀏覽型網(wǎng)絡信息檢索工具的主要缺陷》(《中國索引》2005年第1期);
《專業(yè)型檢索工具與導航庫在發(fā)掘網(wǎng)絡信息資源中的重要作用》(《圖書館理論與實踐》2002年第6期);
?《網(wǎng)絡信息檢索用語言的發(fā)展趨勢》(《圖書館雜志》2001年第3期)。
在以上文章中,帶“?”號的文章,我認為是比較重要的。
至于我在研究索引學方面的心得和收獲,因限于篇幅,不再作介紹了。
以上心得中的不正確、不完善之處,請不吝指正。
相關熱詞搜索:語言學 情報 收獲 情報語言學的若干研究心得和收獲 試論情報語言學的研究方法 情報語言學常用的研究方法
熱點文章閱讀