搜索引擎爬蟲研究與爬去原則

發(fā)布時(shí)間：2017.01.12 瀏覽: 次

北京SEO技術(shù)服務(wù)中心今天主要是跟大家分享一下搜索引擎的工作第一個(gè)環(huán)節(jié)的知識(shí)：互聯(lián)網(wǎng)之爬蟲。

我們先來看一下它的定義：網(wǎng)絡(luò)爬蟲（又被稱為網(wǎng)頁蜘蛛，網(wǎng)絡(luò)機(jī)器人，在FOAF社區(qū)中間，更經(jīng)常的稱為網(wǎng)頁追逐者），是一種按照一定的規(guī)則，自動(dòng)地抓取萬維網(wǎng)信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動(dòng)索引、模擬程序或者蠕蟲。

從以上的定義來看，百度蜘蛛，谷歌機(jī)器人都屬于爬蟲的一種，而爬蟲主要是按照一定的規(guī)則，自動(dòng)抓取信息的腳本或者程序，這個(gè)不難理解，有經(jīng)驗(yàn)的程序員都能夠獨(dú)立的編寫出來一套比較完整的蜘蛛程序，用來收集網(wǎng)絡(luò)信息，充實(shí)自己的網(wǎng)站。其實(shí)很多的信息采集軟件也是采用了這種技術(shù)。

那么我們?cè)趤砜匆幌轮┲氲降走M(jìn)行的什么工作：)

每一種類型的資源，都有相應(yīng)的蜘蛛爬蟲來搜集，當(dāng)然解析的方式也各不相同。我們經(jīng)常能夠在網(wǎng)站的日志中看到百度的spider和image-spider，不同的爬蟲利用其自身的規(guī)則來對(duì)其頁面進(jìn)行解析。即使是這樣，我們也能夠看到爬蟲在爬去頁面的時(shí)候還是有一定的規(guī)律性的，這種規(guī)律性則是來自于搜索引擎效率最大化的取舍。

寬度優(yōu)先遍歷原則：這個(gè)原則是從網(wǎng)站自身做起的，根據(jù)網(wǎng)站的層級(jí)來抓取。因?yàn)槲覀冊(cè)谧鼍W(wǎng)站的時(shí)候都有一個(gè)優(yōu)先的考慮，比如我第一個(gè)想讓搜索引擎看到的就是首頁，其次的各個(gè)目錄頁面，再其次就是內(nèi)容頁面，蜘蛛也是利用這一點(diǎn)來抓取。

非完全pagerank排序：這個(gè)原則就是利用谷歌的pr值來計(jì)算的。因?yàn)槊恳粋€(gè)網(wǎng)頁在谷歌中都會(huì)有一個(gè)評(píng)分，根絕這些評(píng)分高低來抓取。如果完全計(jì)算就比較耗費(fèi)計(jì)算資源，所以它就采用高pr值的網(wǎng)頁傳遞出來的鏈接肯定都是可靠的。

OPIC（online page importance computation在線頁面重要性計(jì)算）：這一個(gè)原則跟pr值計(jì)算相差無幾，在采集的網(wǎng)頁中來計(jì)算每一個(gè)網(wǎng)頁的重要性，然后在進(jìn)行優(yōu)先抓取。

大站優(yōu)先策略：這個(gè)毋庸置疑了。因?yàn)榇髴?zhàn)比較符合信賴的原則。

其實(shí)我們可以看到，這種原則其實(shí)是對(duì)抓取的有限性和網(wǎng)頁的無限性的一個(gè)折中，即在有限的時(shí)間內(nèi)抓取網(wǎng)絡(luò)中更為重要的頁面和資源。當(dāng)然我們也需要去了解網(wǎng)絡(luò)爬蟲工作的原理，這樣的話更有利于我們?nèi)プ?span style="font-size:18px;">SEO優(yōu)化。

贊一個(gè)

關(guān)鍵詞：搜索引擎搜索引擎爬蟲搜索引擎原則

預(yù)約SEO顧問服務(wù)請(qǐng)聯(lián)系：185-1018-8870（手機(jī)微信同步）領(lǐng)取免費(fèi)VIP內(nèi)部課程

文章來源：北京SEO技術(shù)服務(wù)中心
文章標(biāo)題：搜索引擎爬蟲研究與爬去原則
本文地址：http://www.szbingri.com/SEOjishu/SEOjichu/444.html
版權(quán)所有 © 北京SEO技術(shù)服務(wù)中心（微信/QQ：zhizheseo/2052048546），歡迎分享本文，轉(zhuǎn)載請(qǐng)保留出處！

分享到：新浪微博騰訊微博開心網(wǎng) 人人網(wǎng) 天涯社區(qū) 百度搜藏 QQ空間

上一篇：網(wǎng)站SEO優(yōu)化：無思維,不排名下一篇：網(wǎng)站收錄的進(jìn)度如此慢~~你想過原因嗎？

欧美放荡办公室videos4k_97久久久久久_国产精品影片在线观看_久久久久久久影院_91中文字幕一区_国产日韩精品综合网站_91爱爱小视频k_91热福利电影_97高清免费视频_国产精品v日韩精品

搜索引擎爬蟲研究與爬去原則

相關(guān)資訊：

評(píng)論

SEO黑帽技術(shù)

SEO入門知識(shí)

SEO外包服務(wù)

搜索引擎算法研究

新媒體時(shí)代

SEO常用工具

SEO實(shí)戰(zhàn)教程