因特網(wǎng)的迅猛發(fā)展、WEB信息的增加,用戶要在信息海洋里查找信息,就像大海撈針一樣,搜索引擎(計算機愛好者,學(xué)習(xí)計算機基礎(chǔ),電腦入門,請到本站,我站同時提供計算機基礎(chǔ)知識教程,計算機基礎(chǔ)知識試題供大家學(xué)習(xí)和使用),技術(shù)恰好解決了這一難題,它可以為用戶提供信息檢索服務(wù)。目前,搜索引擎技術(shù)正成為計算機工業(yè)界和學(xué)術(shù)界爭相研究、開發(fā)的對象。 搜索引擎(Search Engine)是隨著WEB信息的迅速增加,從1995年開始逐漸發(fā)展起來的技術(shù)。
據(jù)發(fā)表在《科學(xué)》雜志1999年7月的文章《WEB信息的可訪問性》估計,全球目前的網(wǎng)頁超過8億,有效數(shù)據(jù)超過9TB,并且仍以每4個月翻一番的速度增長。例如,Google目前擁有10億個網(wǎng)址,30億個網(wǎng)頁,3.9 億張圖像,Google支持66種語言接口,16種文件格式,面對如此海量的數(shù)據(jù)和如此異構(gòu)的信息,用戶要在里面尋找信息,必然會“大海撈針”無功而返。
搜索引擎正是為了解決這個“迷航”問題而出現(xiàn)的技術(shù)。搜索引擎以一定的策略在互聯(lián)網(wǎng)中搜集、發(fā)現(xiàn)信息,對信息進行理解、提取、組織和處理,并為用戶提供檢索服務(wù),從而起到信息導(dǎo)航的目的。
目前,搜索引擎技術(shù)按信息標引的方式可以分為目錄式搜索引擎、機器人搜索引擎和混合式搜索引擎;按查詢方式可分為瀏覽式搜索引擎、關(guān)鍵詞搜索引擎、全文搜索引擎、智能搜索引擎;按語種又分為單語種搜索引擎、多語種搜索引擎和跨語言搜索引擎等。
目錄式搜索引擎
目錄式搜索引擎(Directory Search Engine)是最早出現(xiàn)的基于WWW的搜索引擎,以雅虎為代表,我國的搜狐也屬于目錄式搜索引擎。
目錄式搜索引擎由分類專家將網(wǎng)絡(luò)信息按照主題分成若干個大類,每個大類再分為若干個小類,依次細分,形成了一個可瀏覽式等級主題索引式搜索引擎,一般的搜索引擎分類體系有五六層,有的甚至十幾層。
目錄式搜索引擎主要通過人工發(fā)現(xiàn)信息,依靠編目員的知識進行甄別和分類。由于目錄式搜索引擎的信息分類和信息搜集有人的參與,因此其搜索的準確度是相當高的,但由于人工信息搜集速度較慢,不能及時地對網(wǎng)上信息進行實際監(jiān)控,其查全率并不是很好,是一種網(wǎng)站級搜索引擎。
機器人搜索引擎
機器人搜索引擎通常有三大模塊:信息采集、信息處理、信息查詢。信息采集一般指爬行器或網(wǎng)絡(luò)蜘蛛,是通過一個URL列表進行網(wǎng)頁的自動分析與采集。起初的URL并不多,隨著信息采集量的增加,也就是分析到網(wǎng)頁有新的鏈接,就會把新的URL添加到URL列表,以便采集。
機器人搜索引擎使用多線程并發(fā)搜索技術(shù),主要完成文檔訪問代理、路徑選擇引擎和訪問控制引擎。基于機器人搜索引擎的Web頁搜索模塊主要由URL服務(wù)器、爬行器、存儲器、URL解析器四大功能部件和資源庫、錨庫、鏈接庫三大數(shù)據(jù)資源構(gòu)成,另外還要借助標引器的一個輔助功能。
上一條:當你忘記用戶登陸密碼找警察?
下一條:保證QQ安全三大對策