搜索引擎其實也是WEB2.0的典范,因為需要處理用戶輸入了數(shù)據(jù),所以能很好和用戶產(chǎn)生交互。但對于搜索引擎而言,并不會把用戶輸入的所有詞語都直接用于排名,而是首先會經(jīng)過自己的處理,這次處理之后的詞語才能直接用戶排名。本文根據(jù)自己的總結(jié)和大家分享搜索引擎是如何處理我們輸入的搜索詞。
第一、首先分詞:分詞是一大特色,無論我們輸入的是長句子或者是短語,搜索引擎都會把這些詞語進(jìn)行切分,將這些搜索的字符串切分成以詞為基礎(chǔ)的關(guān)鍵詞組合。比如我們輸山西熱泵網(wǎng),百度自動將www.sxrb123.com排上第一個作為結(jié)果。只要這樣,才能更好的通過自己已經(jīng)預(yù)處理后的數(shù)據(jù)庫進(jìn)行查詢和比對,把所有符合這些詞的也沒列舉返回給用戶。這個分詞和頁面分詞的原理有些類似。
第二、去停止詞:我們在搜索時候帶有很多的主觀性,很多時候把口語話的一些詞語都用在了搜索詞上,但這次詞往往對要搜索的內(nèi)容沒有實質(zhì)性的幫助,但我們已經(jīng)養(yǎng)成了輸入這些詞的習(xí)慣,所以搜索引擎必須要能去停止詞,最大程度上保證搜索的準(zhǔn)確率以及相關(guān)性。
第三、指令的處理:平時我們在搜索時會輸入多個詞語,其實默認(rèn)的情況下,搜索引擎把多個默認(rèn)的詞語都按照“與”來進(jìn)行詞語。比如你搜索“減肥”“網(wǎng)站”時,搜索引擎會默認(rèn)我們輸入的“減肥網(wǎng)站”來進(jìn)行處理,單獨包含“減肥”或者“網(wǎng)站”的內(nèi)容理論上將不會返回,但實際情況往往也會出現(xiàn)單獨包含一個詞語的網(wǎng)站。另外,還要處理各種高級搜索指令的詞語,比如加號減號等。
第四、錯誤矯正:很多時候我們輸入都會存在錯誤的問題,拼音本來諧音就比較多,輸錯也實屬正常,但如果搜索引擎不進(jìn)行糾錯的話,就會返回很多我們不希望看到的結(jié)果。所以,有時候我們即使輸入的全拼,搜索引擎也會根據(jù)這個來提示正確的中文。
第五、分類對待:不同詞語一般是不同對待的,這是搜索引擎的一個特色功能。比如我們搜索一般性的關(guān)鍵詞,返回的一般以網(wǎng)頁居多,而當(dāng)我們搜索一個明星的名字,則會出現(xiàn)很多新聞、視頻、圖片等綜合的搜索結(jié)果。所以,搜索引擎要根據(jù)用戶的需求去進(jìn)行判斷。這次判斷都是在預(yù)處理階段進(jìn)行的。比如我們搜索二手絎縫機(jī)的信息,也可以看見絎縫機(jī)的信息等。
好了,搜索引擎對于搜索詞的處理基本是從這五個方面進(jìn)行,在這里給大家做個總結(jié):分詞、去停止詞、指令的處理、錯誤矯正、分類對待。雖然這個對于我們做網(wǎng)站沒有直接的關(guān)系,但多了解一些基礎(chǔ)知識相信會有間接的作用。網(wǎng)站,用戶,搜索引擎本來三個就是一體的,這三個組成了整個互聯(lián)網(wǎng)。很多道理也是想通的,知道了這些簡單的知識,有可能會引發(fā)我們其它方面的一些思考和啟示。