• <strike id="msesi"><s id="msesi"></s></strike>
    
    
    <samp id="msesi"></samp>
    <strike id="msesi"><s id="msesi"></s></strike><ul id="msesi"><pre id="msesi"></pre></ul>
  • 首頁服務(wù)案例新聞公司聯(lián)系

    這里有我們最新的簽約信息及相關(guān)公司活動(dòng)!

    最近我們都在干什么?

    什么叫網(wǎng)絡(luò)爬蟲又有何作用

    類目:行業(yè)資訊 發(fā)布日期:2015-09-11 點(diǎn)擊:7643 次

    網(wǎng)絡(luò)爬蟲(又被稱為網(wǎng)頁蜘蛛,網(wǎng)絡(luò)機(jī)器人,在FOAF社區(qū)中間,更經(jīng)常的稱為網(wǎng)頁追逐者),是一種按照一定的規(guī)則,自動(dòng)的抓取萬維網(wǎng)信息的程序或者腳本。另外一些不常使用的名字還有螞蟻,自動(dòng)索引,模擬程序或者蠕蟲。

    網(wǎng)絡(luò)爬蟲是一個(gè)自動(dòng)提取網(wǎng)頁的程序,它為搜索引擎從萬維網(wǎng)上下載網(wǎng)頁,是搜索引擎的重要組成。傳統(tǒng)爬蟲從一個(gè)或若干初始網(wǎng)頁的URL開始,獲得初始網(wǎng)頁上的URL,在抓取網(wǎng)頁的過程中,不斷從當(dāng)前頁面上抽取新的URL放入隊(duì)列,直到滿足系統(tǒng)的一定停止條件。聚焦爬蟲的工作流程較為復(fù)雜,需要根據(jù)一定的網(wǎng)頁分析算法過濾與主題無關(guān)的鏈接,保留有用的鏈接并將其放入等待抓取的URL隊(duì)列。

    相對(duì)于通用網(wǎng)絡(luò)爬蟲,聚焦爬蟲還需要解決三個(gè)主要問題:

    (1) 對(duì)抓取目標(biāo)的描述或定義;

    (2) 對(duì)網(wǎng)頁或數(shù)據(jù)的分析與過濾;

    (3) 對(duì)URL的搜索策略。

    抓取目標(biāo)的描述和定義是決定網(wǎng)頁分析算法與URL搜索策略如何制訂的基礎(chǔ)。而網(wǎng)頁分析算法和候選URL排序算法是決定搜索引擎所提供的服務(wù)形式和爬蟲網(wǎng)頁抓取行為的關(guān)鍵所在。這兩個(gè)部分的算法又是緊密相關(guān)的。


    精品国产日韩亚洲一区| 国产手机精品一区二区| 国产精品无打码在线播放| 日韩在线视频播放免费视频完整版| 亚洲国产精品18久久久久久 | 精品国产免费人成电影在线观看| 久久久2019精品| 九九热在线视频观看这里只有精品| 国产免费久久精品丫丫| 伊人 久久 精品| 人妻偷人精品成人AV| 日韩午夜在线视频不卡片| 亚洲日韩中文字幕天堂不卡| 日韩人妻无码一区二区三区久久99 | 久久久久无码精品国产| 国产福利精品一区二区| 国产精品无码久久综合| 亚洲精品成人网站在线观看| 国产精品99久久久精品无码| 9久久这里只有精品国产| 国产精品手机在线观看你懂的| 亚洲第一永久AV网站久久精品男人的天堂AV| 亚洲欧美日韩自偷自拍| 欧美日韩精品乱国产| 日韩一区二区视频| 日韩在线视频导航| 四虎永久在线精品国产馆V视影院| 青青草97国产精品免费观看| 日韩丝袜在线观看| 尤物国精品午夜福利视频| caoporn国产精品免费| 亚洲国产精品成人| 国产精品自产拍在线观看花钱看| 国产精品 视频一区 二区三区 | 精品久久久无码人妻中文字幕| 亚洲国产精品专区| 亚洲精品福利你懂| 国产精品制服丝袜一区| 亚洲精品9999久久久久无码| 国产精品免费观看久久| 国产精品99re|