疯狂伦交小说200篇,吃女人奶,91精品国产高清91久久久久久

網頁去重和增加爬蟲收錄的方法有這些

發表日期：2019-11-01文章編輯：admin瀏覽次數：0 ?

　　想做好網站收錄，一定要了解去重算法和指紋算法，只有這樣才能更好地做好原創網頁，幫助網站促進收錄，提升排名。對一個新的網頁，爬蟲程序通過網頁去重算法，最終決定是否對其索引，成都網站建設公司優化人員為你帶來以下干貨知識講解：

　　一、近似重復網頁類型，根據文章內容和網頁布局格式的組合分為4種形式：

　　1、兩篇文檔在內容和布局格式上毫無區別，則這種重復稱為完全重復頁面。

　　2、兩篇文檔內容相同，但布局格式不同，則這種重復稱為內容重復頁面。

　　3、兩篇文檔有部分重要的內容相同，并且布局格式相同，則這種重復稱為布局重復頁面。

　　4、兩篇文檔有部分重要內容相同，但布局格式不同，則這種重復稱為部分重復頁面。

　　二、重復網頁對搜索引擎的不利影響：

　　正常情況下，非常相似的網頁內容不能或只能給用戶提供少量的新信息，但在對爬蟲進行抓取、索引和用戶搜索會消耗大量的服務器資源。

　　三、重復網頁對搜索引擎的好處：

　　如果某個網頁重復性很高，往往是其內容比較比較受歡迎的一種體現，也預示著該網頁相對比較重要。應予以優先收錄。當用戶搜索時，在輸出結果排序時，也應給與較高的權重。

　　四、重復文檔的處理方式：

　　1、刪除

　　2、將重復文檔分組

　　五、 SimHash文檔指紋計算方法：

　　1、從文檔中提取具有權值的特征集合來表示文檔。如：假設特征都是由詞組成的，詞的權值由詞頻TF來確定。

　　2、對每一個詞，通過哈希算法生成N位(通常情況是64位或更多)的二進制數值,如上圖，以生成8位的二進制值為例。每個詞都對應各自不同的二進制值。

　　3、在N維(上圖為8維)的向量V中，分別對每維向量進行計算。如果詞相應的比特位的二進制數值為1，則對其特征權值進行加法運算;如果比特位數值為0，則進行減法運算，通過這種方式對向量進行更新。

　　4、當所有的詞都按照上述處理完畢后，如果向量V中第i維是正數，則將N位的指紋中第i位設置為1，否則為0。

　　一般的，我們想抓取一個網站所有的URL，首先通過起始URL，之后通過網絡爬蟲提取出該網頁中所有的URL鏈接，之后再對提取出來的每個URL進行爬取，提取出各個網頁中的新一輪URL，以此類推。整體的感覺就是自上而下進行抓取網頁中的鏈接，理論上來看，可以抓取整站所有的鏈接。但是問題來了，一個網站中網頁的鏈接是有環路的。

　　首先介紹一個簡單的思路，也是經常用的一個通用思路。我們將已經爬取過的網頁放到一個列表中去，以首頁為例，當首頁被抓取之后，將首頁放到列表中，之后我們抓取子網頁的時候，如果再次碰到了首頁，而首頁已經被抓取過了，此時就可以跳過首頁，繼續往下抓取其他的網頁，而避開了將首頁重復抓取的情況，這樣下來，爬取整站就不會出現一個環路。以這個思路為出發點，將訪問過的URL保存到數據庫中，當獲取下一個URL的時候，就去數據庫中去查詢這個URL是否已經被訪問過了。雖然數據庫有緩存，但是當每個URL都去數據庫中查詢的話，會導致效率下降的很快，所以這種策略用的并不多，但不失為最簡單的一種方式。

　　第二種方式是將訪問過的URL保存到set中去，通過這樣方式獲取URL的速度很快，基本上不用做查詢。但是這種方法有一個缺點，將URL保存到set中，實際上是保存到內存中，當URL數據量很大的時候(如1億條)，會導致內存的壓力越來越大。對于小型的爬蟲來說，這個方法十分可取，但是對于大型的網絡爬蟲，這種方法就難以企及了。

　　第三種方式是將字符進行md5編碼，md5編碼可以將字符縮減到固定的長度。一般來說，md5編碼的長度約為128bit，約等于16byte。在未縮減之前，假設一個URL占用的內存大小為50個字節，一個字節等于2byte，相當于100byte。由此可見，進行md5編碼之后，節約了大量的內存空間。通過md5的方式可以將任意長度的URL壓縮到同樣長度的md5字符串，而且不會出現重復的情況，達到去重的效果。通過這種方式很大程度上節約了內存，scrapy框架采取的方式同md5方式有些類似，所以說scrapy在正常情況下，即使URL的數量級達到了上億級別，其占用的內存比起set方式也要少得多。

　　第四種方式是使用bitmap方法將字符進一步壓縮。這種方式的意思是在計算機中申請8個bit，即8個位，每個位由0或者1表示，這是計算機中最小的單元。8個位組成1個byte，一個位代表一個URL的話，為什么一個位可以確定一個URL呢?因為我們可以將一個URL進行一個哈希函數，然后將其映射到位上面去。舉個栗子，假設我們有8個URL，分別對應8個位，然后通過位上面的0和1的狀態，便可以表明這個URL是否存在，通過這種方法便可以進一步的壓縮內存。但是bitmap方法有一個非常大的缺點，就是它的沖突會非常高，因為同用一個哈希函數，極有可能將兩個不同的URL或者多個不同的URL映射到一個位置上來。實際上這種哈希的方法，它也是set方式的一種實現原理，它將URL進行一種函數計算，然后映射到bit的位置中去，所以這種方式對內存的壓縮是非常大的。簡單的來計算一下，還是以一億條URL來進行計算，相當于一億個bit，通過計算得到其相當于12500000byte，除以1024之后約為12207KB，大概是12MB的空間。在實際過程中內存的占用可能會比12MB大一些，但是即便是如此，相比于前面三種方法，這種方式以及大大的減少了內存占用的空間了。但是與此同時，該方法產生沖突的可能性是非常大的，所以這種方法也不是太適用的。那么有沒有方法將bitmap這種對內存濃重壓縮的方法做進一步優化，讓沖突的可能性降下來呢?答案是有的，就是第五種方式。

　　第五種方式是bloomfilter，該方法對bitmap進行改進，它可以通過多個哈希函數減少沖突的可能性。通過這種方式，一方面它既可以達到bitmap方法減少內存的作用，另一方面它又同時起到減少沖突的作用。關于bloomfilter原理及其實現，后期肯定會給大家呈上，今天先讓大家有個簡單的認識。Bloomfilter適用于大型的網絡爬蟲，尤其是數量級超級大的時候，采用bloomfilter方法可以起到事半功倍的效果，其也經常和分布式爬蟲共同配合，以達到爬取的目的。

上一篇：seo新手容易犯的五個錯誤你都記住了嗎？
下一篇：關鍵詞變動是否會影響網站優化排名？

相關新聞

99re在线视频播放-99re在线视频观看-99re在线视频免费观看-99re在线这里只有精品免费-免费色视频网站-免费色网站

網頁去重和增加爬蟲收錄的方法有這些

建站知識

解決方案

公司新聞

常見問題