|
北京SEO技術(shù)服務(wù)中心今天主要是跟大家分享一下搜索引擎的工作第一個(gè)環(huán)節(jié)的知識(shí):互聯(lián)網(wǎng)之爬蟲。
我們先來看一下它的定義:網(wǎng)絡(luò)爬蟲(又被稱為網(wǎng)頁蜘蛛,網(wǎng)絡(luò)機(jī)器人,在FOAF社區(qū)中間,更經(jīng)常的稱為網(wǎng)頁追逐者),是一種按照一定的規(guī)則,自動(dòng)地抓取萬維網(wǎng)信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動(dòng)索引、模擬程序或者蠕蟲。
從以上的定義來看,百度蜘蛛,谷歌機(jī)器人都屬于爬蟲的一種,而爬蟲主要是按照一定的規(guī)則,自動(dòng)抓取信息的腳本或者程序,這個(gè)不難理解,有經(jīng)驗(yàn)的程序員都能夠獨(dú)立的編寫出來一套比較完整的蜘蛛程序,用來收集網(wǎng)絡(luò)信息,充實(shí)自己的網(wǎng)站。其實(shí)很多的信息采集軟件也是采用了這種技術(shù)。
那么我們?cè)趤砜匆幌轮┲氲降走M(jìn)行的什么工作:) ![]()
每一種類型的資源,都有相應(yīng)的蜘蛛爬蟲來搜集,當(dāng)然解析的方式也各不相同。我們經(jīng)常能夠在網(wǎng)站的日志中看到百度的spider和image-spider,不同的爬蟲利用其自身的規(guī)則來對(duì)其頁面進(jìn)行解析。即使是這樣, 我們也能夠看到爬蟲在爬去頁面的時(shí)候還是有一定的規(guī)律性的,這種規(guī)律性則是來自于搜索引擎效率最大化的取舍。
寬度優(yōu)先遍歷原則:這個(gè)原則是從網(wǎng)站自身做起的,根據(jù)網(wǎng)站的層級(jí)來抓取。因?yàn)槲覀冊(cè)谧鼍W(wǎng)站的時(shí)候都有一個(gè)優(yōu)先的考慮,比如我第一個(gè)想讓搜索引擎看到的就是首頁,其次的各個(gè)目錄頁面,再其次就是內(nèi)容頁面,蜘蛛也是利用這一點(diǎn)來抓取。
非完全pagerank排序:這個(gè)原則就是利用谷歌的pr值來計(jì)算的。因?yàn)槊恳粋(gè)網(wǎng)頁在谷歌中都會(huì)有一個(gè)評(píng)分,根絕這些評(píng)分高低來抓取。如果完全計(jì)算就比較耗費(fèi)計(jì)算資源,所以它就采用高pr值的網(wǎng)頁傳遞出來的鏈接肯定都是可靠的。
OPIC(online page importance computation在線頁面重要性計(jì)算):這一個(gè)原則跟pr值計(jì)算相差無幾,在采集的網(wǎng)頁中來計(jì)算每一個(gè)網(wǎng)頁的重要性,然后在進(jìn)行優(yōu)先抓取。
大站優(yōu)先策略:這個(gè)毋庸置疑了。因?yàn)榇髴?zhàn)比較符合信賴的原則。
其實(shí)我們可以看到,這種原則其實(shí)是對(duì)抓取的有限性和網(wǎng)頁的無限性的一個(gè)折中,即在有限的時(shí)間內(nèi)抓取網(wǎng)絡(luò)中更為重要的頁面和資源。當(dāng)然我們也需要去了解網(wǎng)絡(luò)爬蟲工作的原理,這樣的話更有利于我們?nèi)プ?span style="font-size:18px;">SEO優(yōu)化。
|
搜索引擎爬蟲研究與爬去原則
發(fā)布時(shí)間:2017.01.12 瀏覽:
次
0
贊一個(gè)
預(yù)約SEO顧問服務(wù)請(qǐng)聯(lián)系:185-1018-8870(手機(jī)微信同步) 領(lǐng)取免費(fèi)VIP內(nèi)部課程
文章來源:北京SEO技術(shù)服務(wù)中心
文章標(biāo)題:搜索引擎爬蟲研究與爬去原則
本文地址:http://www.szbingri.com/SEOjishu/SEOjichu/444.html
版權(quán)所有 © 北京SEO技術(shù)服務(wù)中心(微信/QQ:zhizheseo/2052048546),歡迎分享本文,轉(zhuǎn)載請(qǐng)保留出處! 

