搜索引擎的發(fā)展情況和現(xiàn)狀 [聚類搜索引擎發(fā)展現(xiàn)狀研究]
發(fā)布時(shí)間:2020-03-07 來(lái)源: 感悟愛(ài)情 點(diǎn)擊:
[摘要]分析研究搜索引擎發(fā)展軌跡及國(guó)內(nèi)外聚類搜索引擎的發(fā)展現(xiàn)狀,通過(guò)對(duì)國(guó)內(nèi)外現(xiàn)有聚類搜索引擎的基本功能進(jìn)行分析,并從聚類方式、聚類結(jié)果展示形式和聚類效果三個(gè)角度進(jìn)行測(cè)評(píng),提出“以用戶為中心”的聚類2.0搜索是未來(lái)聚類搜索引擎乃至搜索引擎的發(fā)展趨勢(shì)。
[關(guān)鍵詞]聚類搜索引擎 可視化搜索 社會(huì)化聚類搜索 聚類2.0搜索 發(fā)展趨勢(shì)
[分類號(hào)]G354.2
1 前言
網(wǎng)絡(luò)信息的迅猛增長(zhǎng),信息用戶行為的不斷變化,致使網(wǎng)絡(luò)檢索需求在原有的全面性和準(zhǔn)確性的基礎(chǔ)上,朝著新穎化、個(gè)性化的趨勢(shì)發(fā)展,從而給搜索引擎的發(fā)展帶來(lái)了機(jī)遇與挑戰(zhàn)。聚類搜索引擎的突出特點(diǎn)是有利于提高檢索精度,根據(jù)某一屬性,對(duì)搜索引擎返回的結(jié)果進(jìn)行聚類,從而使用戶迅速定位所需信息。在當(dāng)前網(wǎng)絡(luò)環(huán)境下,現(xiàn)有的聚類搜索引擎能否滿足日益變化的檢索需求,其今后的發(fā)展態(tài)勢(shì)如何呢?本文將對(duì)上述問(wèn)題進(jìn)行探討。
2 聚類搜索引擎發(fā)展現(xiàn)狀分析
2.1搜索引擎發(fā)展軌跡
隨著搜索技術(shù)的不斷發(fā)展,新型異質(zhì)的搜索產(chǎn)品層出不窮。作者將搜索引擎近十多年的發(fā)展大致分為三個(gè)階段,即從目錄式搜索(第一代搜索引擎),發(fā)展到基于Robot的搜索(第二代搜索引擎),進(jìn)而到智能化、個(gè)性化搜索(第三代搜索引擎)。智能化搜索采用中文自動(dòng)分類、自動(dòng)聚類等人工智能技術(shù),使用內(nèi)容分析及區(qū)域智能識(shí)別技術(shù),增強(qiáng)了搜索引擎的查詢能力,產(chǎn)生了元搜索引擎(如Dogpile、mamma等)、聚類搜索引擎(如Clusty、KartOO及比比貓等)、自然語(yǔ)言處理搜索引擎(如Lexxe)以及語(yǔ)義網(wǎng)搜索引擎(如Swogle)等。在滿足用戶個(gè)性化檢索需求方面,產(chǎn)生了如移動(dòng)搜索引擎(如Ask Mobile、儒豹等)、桌面搜索引擎(如Coogle Desktop、百度硬盤搜索等)、可視化搜索引擎(如SearchMe、RedZee)、垂直搜索引擎(如ZabaSearch、沱沱網(wǎng))以及多內(nèi)容搜索引擎(博客、視頻、音頻、地圖等)。
搜索引擎的發(fā)展可從其緊密關(guān)聯(lián)的兩個(gè)對(duì)象――互聯(lián)網(wǎng)資源(搜索引擎的搜索對(duì)象)和用戶(搜索引擎的使用者)來(lái)分析。搜索引擎前兩個(gè)發(fā)展階段主要聚焦在資源,從第三代開(kāi)始逐漸注重用戶的搜索體驗(yàn),搜索引擎發(fā)展的最終目的是“所得即所需”(What You Get is What You Want)。
2.2國(guó)內(nèi)外聚類搜索引擎發(fā)展現(xiàn)狀
作為第三代搜索引擎的代表――聚類搜索引擎正在蓬勃發(fā)展:2000年出現(xiàn)的Vivisimo可稱為國(guó)內(nèi)外最早的聚類搜索產(chǎn)品之一,2004年Clusty在其基礎(chǔ)上得到了進(jìn)一步發(fā)展;2003年問(wèn)世的Mooter被人們廣泛看好;近期出現(xiàn)的KartOO(Ujiko及KVisu)、Quintura、KoolTorch和WebBrain等多款可視化聚類搜索引擎帶給用戶全新的視覺(jué)感受;可視化音樂(lè)電影聚類搜索引擎Liveplasma的出現(xiàn)使聚類搜索向垂直化趨勢(shì)邁進(jìn)。相對(duì)于國(guó)外來(lái)說(shuō)國(guó)內(nèi)聚類搜索引擎的發(fā)展則滯后得多,其中最具競(jìng)爭(zhēng)力和發(fā)展?jié)摿κ?005年創(chuàng)立的比比貓(Bbmao),它集聚類、去重、收藏等多重功能于一身,是社會(huì)化的聚類元搜索引擎;5iseek及SeekXun目前處于聚類的起始階段,只提供搜索結(jié)果聚類這一功能。
3 國(guó)內(nèi)外聚類搜索引擎功能分析
本文從聚類搜索引擎的基本功能和聚類功能兩個(gè)角度分析國(guó)內(nèi)外已有成熟聚類搜索引擎產(chǎn)品。
3.省略發(fā)起的“The Top 100Alternative Search Engines”評(píng)選結(jié)果為標(biāo)準(zhǔn),并借助調(diào)研和實(shí)驗(yàn),選取了較具代表性的聚類搜索引擎作為分析對(duì)象,如表1所示:
通過(guò)以上分析可以看出,目前聚類搜索引擎得到了快速發(fā)展并取得了一定的成果:①聚類搜索引擎幾乎均為元搜索引擎,檢索對(duì)象已不單單為網(wǎng)頁(yè),更觸及到圖像、視頻、博客、地圖、維基及工作等;②將社會(huì)性網(wǎng)絡(luò)(SNS)的相關(guān)概念和技術(shù)充分融合其中,如Tag、收藏及掘客等;③在提供個(gè)性化服務(wù)方面各具特色,其中iBoogie及國(guó)內(nèi)的比比貓?zhí)峁┑姆⻊?wù)形式使人眼前一亮,如iBoogie的用戶可根據(jù)自己的偏好,在博客、游戲、軍事及旅游等大類下選擇已提供的信息源,形成個(gè)性化的搜索對(duì)象,比比貓?jiān)陧?yè)面右側(cè)將相關(guān)圖片、新聞、購(gòu)物及下載等與網(wǎng)頁(yè)檢索結(jié)果一并呈現(xiàn)給用戶。
3.2聚類搜索引擎的聚類功能測(cè)評(píng)
聚類功能的測(cè)評(píng)主要從聚類方式、聚類結(jié)果展示形式及聚類效果三個(gè)角度來(lái)分析。
3.2.1聚類方式 盡管所選取網(wǎng)站的聚類形式不盡相同,但大體上可歸納為三種:目錄結(jié)構(gòu)、層次聚類結(jié)構(gòu)和樹(shù)狀及網(wǎng)狀結(jié)構(gòu)。目錄結(jié)構(gòu)即將聚類類目簡(jiǎn)單地羅列;層次聚類采用“自下而上”的方式將聚類結(jié)果再進(jìn)行聚類,直到滿足“類內(nèi)最大相似,類間最大差異”的聚類目的;樹(shù)狀和網(wǎng)狀結(jié)構(gòu)是將聚類結(jié)果進(jìn)行一系列的控制和優(yōu)化處理,將類目間的關(guān)系揭示出來(lái)。表2歸納了各聚類搜索引擎的聚類方式:
3.2.2聚類結(jié)果的展現(xiàn)形式 傳統(tǒng)聚類搜索引擎主要通過(guò)類目列表的形式來(lái)展示搜索結(jié)果,即將類目按照一定的組織形式(如類目大小)通過(guò)列表呈現(xiàn)給用戶,如Clusty、iBoogie、Carrot2以及比比貓;可視化技術(shù)在聚類結(jié)果展示方面發(fā)揮了巨大的作用,消除了傳統(tǒng)列表形式不夠“易用”的缺陷,使用戶能夠更方便地理解和使用聚類結(jié)果,如Mnemomap、Webbrain及Quintu-ra。筆者認(rèn)為Quintura在聚類結(jié)果可視化方面較具特色且效果較好,其采用Quintura Cloud可視化地圖技術(shù)展現(xiàn)聚類結(jié)果(見(jiàn)圖1),類目名稱的大小及顏色的深淺代表該類目下搜索結(jié)果的多少,字體愈大、顏色愈深表示其結(jié)果越多,反之則越少。
在這里介紹一下KVisu引聚類搜索引擎及其Car-tographic Surfaces可視化技術(shù)。它使用聚類地圖更形象地展示聚類結(jié)果,一塊區(qū)域代表一個(gè)類目,區(qū)域面積的大小代表類目下結(jié)果的多少,面積愈大表明結(jié)果愈多,反之愈少。在地圖上類目的遠(yuǎn)近代表類目間關(guān)系的緊密程度,愈近則表示類目間關(guān)系越密切,進(jìn)而形成聚類組(Clustering Group),如圖2所示:
3.2.3聚類的效果 聚類搜索引擎的聚類效果至關(guān)重要,筆者選取兩個(gè)方向作為評(píng)價(jià)的內(nèi)容,即類目的邏輯關(guān)系和類目名稱的有效性,并選取Java作為關(guān)鍵詞展開(kāi)實(shí)驗(yàn),Java有三種含義,即:爪哇島(印尼)、爪哇產(chǎn)的咖啡及面向?qū)ο蟮某绦蜷_(kāi)發(fā)語(yǔ)言。類目的邏輯關(guān)系指的是類目之間以及類目與其下位類之間是否存在一定的邏輯關(guān)系;類目名稱的有效性是指類名是否能概括聚類的主題,并與其他聚類相區(qū)別,對(duì)用戶而言是可 識(shí)別并且有意義的。
類目劃分應(yīng)依據(jù)聚類的內(nèi)容而不僅依據(jù)字面的差異。通過(guò)實(shí)驗(yàn)可看出,目前聚類搜索引擎仍舊依據(jù)網(wǎng)頁(yè)所包含的相應(yīng)關(guān)鍵詞作為類目名稱,尚未依據(jù)網(wǎng)頁(yè)內(nèi)容來(lái)聚類,導(dǎo)致無(wú)法體現(xiàn)類目間的邏輯關(guān)系,如老牌聚類搜索引擎Clusty,通過(guò)搜索Java得到包括Down-10ads、Tutorials、Language及Sun Microsystems等39個(gè)類目,類目之間并無(wú)關(guān)聯(lián);類目的名稱雖是高頻詞(組),但對(duì)于用戶來(lái)說(shuō)并無(wú)實(shí)際意義,如類Additions、List ofJava及l(fā)inks等,用戶無(wú)法了解該聚類的明確主題,反而增加了用戶的負(fù)擔(dān),類似的情況也出現(xiàn)在Carrot、iBoogie及比比貓等搜索引擎上。部分聚類搜索引擎在此問(wèn)題上做了一些改進(jìn),如WebBrain按照父類、子類、兄弟類及相關(guān)類來(lái)組織類目;Mnemomap按照標(biāo)簽、翻譯、鄰居和同義詞組織聚類;iseek依照主題、人、地點(diǎn)、組織、時(shí)間、縮寫、發(fā)布時(shí)間以及來(lái)源控制聚類。雖然它們還是依據(jù)關(guān)鍵詞來(lái)聚類,但通過(guò)對(duì)聚類的控制使類目間有了一定的關(guān)聯(lián)。
4.1目前聚類搜索引擎存在的問(wèn)題
聚類搜索引擎雖取得了階段性的巨大進(jìn)步,但在聚類方式、結(jié)果展現(xiàn)形式以及聚類效果等方面存在不足,如聚類所需時(shí)間長(zhǎng)、聚類效果不佳、聚類結(jié)果展示形式單一等?梢哉f(shuō),目前聚類搜索引擎所關(guān)注的是互聯(lián)網(wǎng)資源,即如何更全面、更準(zhǔn)確地處理互聯(lián)網(wǎng)信息,而針對(duì)用戶設(shè)計(jì)的產(chǎn)品功能目前只是試探性的,并未產(chǎn)生實(shí)質(zhì)性的革新與突破。
4.2未來(lái)聚類搜索引擎的發(fā)展趨勢(shì)――聚類2.0搜索
Web2.0的出現(xiàn)使網(wǎng)絡(luò)步入“全民織網(wǎng)”的時(shí)代,用戶已從被動(dòng)信息接受者轉(zhuǎn)變?yōu)橹鲃?dòng)提供者。聚類搜索引擎的發(fā)展同樣應(yīng)在關(guān)注互聯(lián)網(wǎng)資源的基礎(chǔ)上,將用戶放在與其同等重要的地位。Vivisimo公司創(chuàng)始人兼CEO――Raul Valdes-Perez2008年1月提出了Clus-tering 2.0的概念,即通過(guò)“Remix Clustering”在原有搜索結(jié)果上再一次聚類來(lái)滿足用戶的個(gè)性化需求。由此可看出,聚類2.0搜索是通過(guò)用戶的參與將更智能化的聚類結(jié)果以更形象的展現(xiàn)形式來(lái)滿足用戶的個(gè)性化搜索需求。聚類2.0搜索將在繼承傳統(tǒng)聚類搜索引擎已有成果基礎(chǔ)上朝以下4個(gè)方向發(fā)展。
4.2.1聚類結(jié)果――智能化 這里的智能搜索有別于基于人工智能的智能搜索引擎,是指聚類的智能化。利用語(yǔ)義分析、智能化的文本挖掘技術(shù)及去重技術(shù),通過(guò)詞形、詞性以及詞義的處理去除重復(fù)網(wǎng)頁(yè),進(jìn)行真正的基于內(nèi)容的聚類,并使類目之間建立一定的邏輯關(guān)系而不是簡(jiǎn)單的羅列,類目名稱能夠反映此類目下所含資源的主題。通過(guò)聚類,達(dá)到減輕用戶負(fù)擔(dān),用戶快速定位所需搜索結(jié)果的目的。雖然目前尚未有智能化聚類搜索產(chǎn)品問(wèn)世,但這是未來(lái)聚類搜索最重要的發(fā)展趨勢(shì)。
4.2.2結(jié)果呈現(xiàn)――可視化 時(shí)至今日,已有部分聚類搜索引擎在聚類結(jié)果可視化方面進(jìn)行了有益的嘗試,如Mnemomap、Webbrain、KartOO、Quintura、Liveplas-ma及KVisu等等?梢哉f(shuō)后三種可視化聚類搜索引擎在某種程度上代表了未來(lái)的發(fā)展方向。利用聚類地圖等形式使類目面積的大小、類目間距離的遠(yuǎn)近以及類目的顏色等具有一定的意義,如類目的大小代表該類目下搜索結(jié)果的多少,類目間的距離代表類目間關(guān)系的遠(yuǎn)近,類目的不同顏色代表該類目下搜索結(jié)果受關(guān)注程度的差異。通過(guò)這種更為形象的可視化方式,使用戶能夠方便地掌握聚類結(jié)果的整體情況。
4.2.3用戶參與――社會(huì)化 社會(huì)化搜索是聚類搜索引擎乃至搜索引擎按照自身邏輯發(fā)展的必然結(jié)果,社會(huì)化聚類搜索并不是“社區(qū)+聚類搜索”的簡(jiǎn)單交叉。提供社會(huì)性書簽功能、網(wǎng)頁(yè)收藏功能并將具有相似檢索興趣的用戶組成社群網(wǎng)絡(luò),分享交流彼此的搜索結(jié)果及經(jīng)驗(yàn),這只是社區(qū)化搜索在網(wǎng)頁(yè)聚類搜索功能上的橫向補(bǔ)充與擴(kuò)展。社會(huì)化聚類搜索則試圖以用戶參與的方式優(yōu)化搜索結(jié)果的聚類,讓用戶根據(jù)自身瀏覽體驗(yàn)對(duì)搜索結(jié)果的聚類進(jìn)行評(píng)價(jià),在杜絕作弊的情況下,可以讓用戶判斷搜索結(jié)果所屬類目的精度,使聚類效果得到不斷優(yōu)化。
4.2.4服務(wù)提供――個(gè)性化 個(gè)性化搜索是發(fā)展社會(huì)化搜索的另一思路。滿足用戶個(gè)性化的檢索需求,提供個(gè)性化的檢索體驗(yàn)是每個(gè)搜索引擎所追求的最大目標(biāo)。用戶可以選擇和添加聚類信息源、設(shè)置搜索對(duì)象(如包含圖片、視頻及博客等)、設(shè)置聚類數(shù)量等,使搜索成為一種普遍性的服務(wù),根據(jù)用戶需求分化出許多異質(zhì)的搜索產(chǎn)品。不僅如此,用戶逐漸可以擁有自己的聚類搜索產(chǎn)品,隨心所欲地設(shè)計(jì)各種聚類屬性。每個(gè)人的聚類搜索引擎都不相同,反映出各自的興趣和習(xí)慣,最終每個(gè)人都可以經(jīng)營(yíng)自己的垂直聚類搜索引擎,提高檢索精度,增強(qiáng)用戶體驗(yàn)。
5 結(jié)語(yǔ)
通過(guò)對(duì)已有聚類搜索引擎功能的分析,可以看出聚類搜索得到了快速蓬勃的發(fā)展,無(wú)論是在聚類方式、結(jié)果展現(xiàn)形式等方面都取得了巨大的進(jìn)步。在當(dāng)今的網(wǎng)絡(luò)環(huán)境下,聚類搜索引擎的局限及不足也是顯而易見(jiàn)的。隨著Web2.0思想不斷滲透到聚類搜索引擎當(dāng)中,聚類2.0搜索必將是未來(lái)的發(fā)展趨勢(shì)。聚類結(jié)果的智能化、結(jié)果呈現(xiàn)的可視化、用戶參與的社會(huì)化以及服務(wù)提供的個(gè)性化將是未來(lái)聚類搜索發(fā)展的方向。
相關(guān)熱詞搜索:發(fā)展現(xiàn)狀 搜索引擎 研究 聚類搜索引擎發(fā)展現(xiàn)狀研究 旅游發(fā)展現(xiàn)狀研究 脆弱性研究發(fā)展現(xiàn)狀
熱點(diǎn)文章閱讀