在早先的分享中,小海就談到過(guò)百度搜索引擎排名的規(guī)則和算法。然而不僅僅是百度,其他的比如谷歌、360、搜狗、雅虎、搜搜、必應(yīng)等搜索引擎,都是具有自己獨(dú)立的排名展示的規(guī)則算法,只不過(guò)百度搜索引擎的規(guī)則算法是最完善和科學(xué)的。那么為什么搜索引擎會(huì)有自己的排名規(guī)則,以及我們要怎樣把握好搜索引擎的展示算法,因此在這里就需要引入一個(gè)概念,即搜索引擎的工作原理。正因?yàn)橛辛怂阉饕娴墓ぷ髟恚艜?huì)有搜索引擎的排名法則。俗話(huà)說(shuō):知己知彼,百戰(zhàn)不殆。想要攻克對(duì)手,就必須先了解對(duì)方。搜索引擎的工作原理是其排名的前提,如果想要自己的網(wǎng)站在搜索引擎中擁有好的排名,那么就必須要對(duì)搜索引擎本身的操作機(jī)制有足夠的了解。因此在今天的SEO學(xué)習(xí)分享中,小海將給大家詳細(xì)的介紹搜索引擎的工作原理。
雖然每個(gè)搜索引擎是各自獨(dú)立的,但是他們的排名算法卻是大致相同的,因而他們的工作原理也是相差無(wú)幾。既然這樣,那么對(duì)于SEO學(xué)習(xí),我們就拿其中一個(gè)搜索引擎來(lái)分析即可,我們就以目前使用率最高且搜索引擎機(jī)制最先進(jìn)的百度搜索引擎為例來(lái)說(shuō)明搜索引擎的工作原理過(guò)程,總體分為爬行過(guò)濾、抓取收錄、分析預(yù)處理、展示排名四個(gè)步驟。
百度蜘蛛爬行過(guò)濾:
1.搜索引擎根據(jù)自己獨(dú)特的程序系統(tǒng)來(lái)追蹤網(wǎng)站的鏈接,并從這個(gè)鏈接追蹤到其他鏈接,就如同蜘蛛在蛛網(wǎng)上爬行一般,因此就有了百度蜘蛛或機(jī)器人的說(shuō)法。
2.百度蜘蛛具備有規(guī)律的爬行順序,大致可以分為兩種爬行順序:一種是縱向爬行順序,就是直接從網(wǎng)站的首頁(yè)爬行到欄目頁(yè)再爬行到列表頁(yè)最后爬行到內(nèi)容頁(yè),也就是常規(guī)的爬行順序;另一種是橫向爬行順序,這種爬行順序并不是嚴(yán)格按照首頁(yè)-欄目頁(yè)-內(nèi)容頁(yè)的順序爬行,而是可以跳過(guò)欄目頁(yè)從首頁(yè)直接到內(nèi)容頁(yè),相當(dāng)于特殊的爬行順序。
3.百度蜘蛛會(huì)將爬行到的內(nèi)容進(jìn)行過(guò)濾和篩選。
百度蜘蛛抓取收錄:
1.百度蜘蛛經(jīng)過(guò)爬行了內(nèi)容之后,就會(huì)選擇自己需要的信息進(jìn)行抓取,并收錄存儲(chǔ)在自身的數(shù)據(jù)庫(kù)中。
2.百度蜘蛛抓取過(guò)程:爬行鏈接列表——抓取頁(yè)面——提出鏈接——存儲(chǔ)原始頁(yè)面。
3.百度蜘蛛收錄原則:在原創(chuàng)內(nèi)容和采集內(nèi)容之間來(lái)回重復(fù)爬行,選擇最終百度認(rèn)為原創(chuàng)度高和質(zhì)量好的內(nèi)容進(jìn)行收錄。
SEO學(xué)習(xí)之搜索引擎的工作原理
百度搜索引擎分析預(yù)處理:
總的來(lái)說(shuō)就是將收錄的內(nèi)容進(jìn)行關(guān)鍵詞的分類(lèi)處理,然后分析頁(yè)面和關(guān)鍵詞的相關(guān)匹配度。
1.提取關(guān)鍵詞。說(shuō)到關(guān)鍵詞,那肯定是文字內(nèi)容,因此百度搜索引擎會(huì)優(yōu)先處理文字信息,其他的比如圖片、flash、js、框架、視頻等載體都基本不會(huì)抓取。
2.判斷特殊詞。最明顯的就是新鮮的網(wǎng)絡(luò)詞匯,正所謂中國(guó)文化博大精深,漢字的巧妙搭配正是其中一大特色,不同的階段都會(huì)出現(xiàn)很多新造的網(wǎng)絡(luò)用語(yǔ),而作為搜索引擎就需要及時(shí)更新自身數(shù)據(jù)庫(kù)的詞匯才能判斷這些特殊詞,當(dāng)然百度這方面是最先進(jìn)的。
3.去除語(yǔ)氣助詞、人稱(chēng)詞以及其他沒(méi)有實(shí)際意義的詞語(yǔ)。比如啊、呀、哈、嗎、嘛、啦、哇等,還比如你、我、他、您、咱、俺等。
4.刪除垃圾內(nèi)容。最主要的就是黃賭毒信息和廣告內(nèi)容。
5.經(jīng)過(guò)以上四步處理之后,就將剩下的內(nèi)容建立索引。
百度搜索引擎展示排名:
1.將分析預(yù)處理后的內(nèi)容按照不同關(guān)鍵詞的信息根據(jù)頁(yè)面和關(guān)鍵詞相關(guān)匹配度的高低在數(shù)據(jù)庫(kù)中進(jìn)行內(nèi)部排序。
2.當(dāng)用戶(hù)搜索一個(gè)關(guān)鍵詞后,百度搜索引擎會(huì)將與該關(guān)鍵詞相關(guān)匹配度越高的鏈接越往前展現(xiàn)。
以上便是百度搜索引擎工作原理的四項(xiàng)內(nèi)容,當(dāng)然其他搜索引擎也是如此。雖然這個(gè)過(guò)程看似很簡(jiǎn)單,且耗費(fèi)的時(shí)間僅僅是用戶(hù)從搜索關(guān)鍵詞到內(nèi)容展現(xiàn)不到0.1秒的時(shí)間,但是如果我們了解了這個(gè)工作原理,那么對(duì)日后的SEO工作是有很大的促進(jìn)作用的。我們要想關(guān)鍵詞獲得好的排名,就必須做搜索引擎喜歡的內(nèi)容,簡(jiǎn)單地說(shuō)就是要做原創(chuàng)度高和質(zhì)量好的文字內(nèi)容。其實(shí)搜索引擎的工作原理也是SEO學(xué)習(xí)中的必學(xué)知識(shí)。