蜘蛛通過網(wǎng)站提交的Sitemap (網(wǎng)頁地圖)或者在互聯(lián)網(wǎng)其他地方留下的頁面URL信息,爬行到網(wǎng)站對應頁面,然后沿著網(wǎng)站頁面其他鏈接一層層往下爬行,發(fā)現(xiàn)更多的頁面。
蜘蛛抓取網(wǎng)頁是收錄頁面工作的上游,通過蜘蛛對網(wǎng)頁的抓取,發(fā)現(xiàn)更多頁面,同時知道哪些頁面已經(jīng)有了更新,從而實現(xiàn)對互聯(lián)網(wǎng)頁面的抓取和持續(xù)更新。
關于蜘蛛抓取系統(tǒng)的工作原理,可以參考百度蜘蛛抓取的說明。
簡而言之,蜘蛛抓取系統(tǒng)包括鏈接存儲系統(tǒng)、鏈接選取系統(tǒng)、DNS解析服務系統(tǒng)、抓取調(diào)度系統(tǒng)、網(wǎng)頁分析系統(tǒng)、鏈接提取系統(tǒng)、鏈接分析系統(tǒng)、網(wǎng)頁存儲系統(tǒng)。Baiduspider 通過這種系統(tǒng)的通力合作完成對互聯(lián)網(wǎng)頁面的抓取工作。
- 上一篇:應對蜘蛛抓取基本策略
- 下一篇: EO優(yōu)化與關鍵詞的聯(lián)系
請立即點擊咨詢我們或撥打咨詢熱線:13383168502,我們會詳細為你一一解答你心中的疑難。項目經(jīng)理在線