當(dāng)前位置: 首頁(yè) > 今日要聞

今日要聞

網(wǎng)站建設(shè)優(yōu)化學(xué)習(xí)—理解搜索引擎蜘蛛的爬行原理

來(lái)源: 上海網(wǎng)站建設(shè)    發(fā)布日期: 2014-02-27 11:55    點(diǎn)擊量: 5918

 

    搜索引擎的計(jì)算過(guò)程可以說(shuō)是最復(fù)雜的程序之一,之前曾經(jīng)講過(guò)其大致的工作原理.不過(guò)還是不夠通俗,很多SEO新手朋友感覺(jué)有些不容易理解.今天筆者再用另外的一種形式為廣大網(wǎng)站建設(shè)與優(yōu)化的新手朋友們?cè)僬f(shuō)說(shuō)了.可能對(duì)于真正的搜索引擎技術(shù)人員或者優(yōu)化人員是皮毛.不過(guò)對(duì)于很多不從事網(wǎng)站建設(shè)不接觸程序,負(fù)責(zé)外圍的SEO推廣人員來(lái)說(shuō)比較有用.

 

    搜索引擎的大致工作過(guò)程

 

    搜索引擎的工作大致上可以分成下面的3個(gè)階段:1,爬行和抓取.,這個(gè)階段,搜索引擎的蜘蛛會(huì)通過(guò)鏈接來(lái)訪問(wèn)網(wǎng)頁(yè),獲取頁(yè)面的HTML代碼,將這些代碼存在自己的數(shù)據(jù)庫(kù);2,頁(yè)面代碼的預(yù)處理,這個(gè)過(guò)程是對(duì)所存的頁(yè)面的一些數(shù)據(jù)進(jìn)行文字提取,分詞,建立索引等操作,這樣以備后面的排名程序的調(diào)用.3,接下來(lái)就是排名了,用戶在輸入關(guān)鍵詞,排名的程序會(huì)根據(jù)數(shù)據(jù)庫(kù)里面的索引,相關(guān)性的計(jì)算等處理,然后按照重要性生成搜索操作結(jié)果呈現(xiàn)給用戶.

 

    蜘蛛的爬行和抓取

 

    搜索引擎的爬行和訪問(wèn)頁(yè)面程序被通俗的稱為蜘蛛.搜索引擎蜘蛛訪問(wèn)會(huì)模擬用戶使用的瀏覽,蜘蛛程序發(fā)出頁(yè)面訪問(wèn)請(qǐng)求后,網(wǎng)頁(yè)服務(wù)器會(huì)返回HTML代碼,搜索引擎就會(huì)把代碼存到自己的原始數(shù)據(jù)庫(kù)里面.蜘蛛訪問(wèn)每個(gè)網(wǎng)站的時(shí)候,都會(huì)先訪問(wèn)網(wǎng)站的ROBOTS.TXT文件.如果有的ROBOTS.TXT文件不想被搜索引擎抓取,比如一些保密的信息,那么搜索引擎就不會(huì)抓取這些頁(yè)面.

 

    鏈接的跟蹤

 

    理解了鏈接的跟蹤,就會(huì)明白為什么大家在進(jìn)行網(wǎng)站制作的時(shí)候,要遵守一些優(yōu)化的原則.搜索引擎的蜘蛛從一個(gè)網(wǎng)頁(yè)到另一個(gè)網(wǎng)頁(yè),很象蜘蛛網(wǎng)的爬行,互聯(lián)網(wǎng)的鏈接就象蜘蛛網(wǎng)一樣.雖然計(jì)算機(jī)的速度很快,但再快也是有時(shí)間的,理論上雖然說(shuō)不管是鏈接有多深,只要時(shí)間足夠,蜘蛛都能夠爬完所有的頁(yè)面,但實(shí)際上,網(wǎng)上資源實(shí)在太多,加上帶寬的限制,不可能爬完所有的頁(yè)面.

 

    所以大家在布局鏈接的時(shí)候,要讓蜘蛛程序很清晰的判斷出你的網(wǎng)站架構(gòu),避免一些死鏈接,使用扁平的價(jià)格,這樣蜘蛛就會(huì)比較容易比較快速的對(duì)你網(wǎng)站所有的頁(yè)面進(jìn)行訪問(wèn)抓取,并能夠通過(guò)自己的程序,很快的分析出你的網(wǎng)站內(nèi)容,這樣就能起到很好的優(yōu)化的效果.

 

    了解了以上上海網(wǎng)站制作的小編所述,相信大家也從原理上了解了搜索引擎的爬行訪問(wèn)收錄原理,就能明白自己的網(wǎng)站該如何在優(yōu)化的角度來(lái)展開.

 

    本文由上海藝覺(jué)網(wǎng)絡(luò)科技有限公司(http://thetananrena.com)原創(chuàng)編輯轉(zhuǎn)載請(qǐng)注明。  

相關(guān)新聞

CONTACT USCAREERSFOODSERVICEPRESSPRIVACY POLICY
? 2014 yijueweb. All rights reserved.
?