探究全自動網(wǎng)頁信息采集系統(tǒng)論文

時間：2022-08-06 04:51:34 畢業(yè)論文范文我要投稿

相關推薦

　　搜索引擎存在一定的局限性，會導致搜索的結(jié)果不能很好滿足用戶的需求。例如，在一個搜索引擎中，搜索一個信息，互聯(lián)網(wǎng)中會搜到成百上千的相關鏈接，甚至幾萬個相關鏈接，其中存在著一些無效和重復的鏈接，即便是有效的鏈接，數(shù)量也是龐大的。面對這些龐大的數(shù)據(jù)，如果通過逐一查看，將會消耗大量的時間和人力。因此，使用戶利用搜索引擎快速、準確的獲取所需數(shù)據(jù)信息，是用戶迫切需要的。

探究全自動網(wǎng)頁信息采集系統(tǒng)論文

　　全自動網(wǎng)頁信息采集的目的是通過已有的Web信息抽取、網(wǎng)絡爬蟲等相關技術對搜索結(jié)果中的網(wǎng)頁信息進行處理，能夠自動完成商品信息抽取，并將結(jié)果存入數(shù)據(jù)庫，以實現(xiàn)在一定的時間內(nèi)，用戶搜索的信息如果在數(shù)據(jù)庫中有相應的記錄，就可以直接從數(shù)據(jù)庫中檢索出相應的信息提交給用戶，最后給用戶提供一個較權(quán)威的搜索結(jié)果，這樣能夠節(jié)省大量的時間，提高自動化程度。

　　1 網(wǎng)絡爬蟲技術

　　網(wǎng)絡爬蟲是一個自動提取網(wǎng)頁的程序，它為搜索引擎從萬維網(wǎng)上下載網(wǎng)頁，是搜索引擎的重要組成，例如在做圖片搜索時，需要大量的測試圖片，因此可以使用爬取圖書封面圖片。它會對一個特定網(wǎng)頁進行抓取分析URL，不斷的抓取并分析，直到?jīng)]有新的URL 出現(xiàn)。一般的搜索引擎只抓取網(wǎng)頁的一部分，不會抓取全部網(wǎng)頁。為了最大限度利用有限的資源，需要進行資源配置，并運用某些策略使爬蟲優(yōu)先爬取重要性較高的網(wǎng)頁。HtmlParser 是一個對現(xiàn)有的HTML 進行分析的快速實時解析器，解析功能非常強大，本文將利用它對網(wǎng)頁中的內(nèi)容進行商品信息提取。

　　2 基于Heritrix的擴展和定制

　　2.1 Heritrix中添加定制的Extractor

　　要實現(xiàn)的功能是對淘寶商品信息的抓取。例如淘寶網(wǎng)的商品詳細信息的網(wǎng)址如下：http：//item.taobao.com/item.htm?spm=a230r.1.14.90.WLLzF8&id=37599839492

　　(1)從URL 格式可以看出，http：//item.taobao.com 是淘寶商品網(wǎng)頁的域名，spm=a230r.1.14.90.WLLzF8 表示流量來源，用于統(tǒng)計點擊來源，id=37599839492 表示當前網(wǎng)頁的編號。通過多個網(wǎng)頁分析之后，發(fā)現(xiàn)網(wǎng)頁由域名+點擊來源+編號等組成，因此制定如下抓取匹配正則表達式：http：//item.taobao.com/item.htm?spm=(([w]+).)+[w]+&id=[d]+對于該正則表達式的URL 鏈接進行抓取，不符合的過濾掉，這樣就有了抓取的方向和范圍。

　　(2)在Heritrix 中，所有的要擴展實現(xiàn)Extractor的類都繼承自抽象基類Extractor，在它基類的內(nèi)部實現(xiàn)了inner Process 方法，主要是處理各種異常和日志的記錄，因此擴展實現(xiàn)Extractor 的新類也都必須實現(xiàn)inner Process方法。

　　2.2 在Prefetcher中取消限制

　　為搜索引擎抓取網(wǎng)站的內(nèi)容而設置的robots.txt是一個純文本文件，訪問一個站點時，一般首先檢查該站點根目錄下是否存在robots.txt，如果存在，就會按照該文件中的內(nèi)容來確定訪問的范圍;如果該文件不存在，那么就沿著鏈接抓取[5]。在搜索時需要進行robots.txt 查找，影響效率。因此，修改Heritrix的PreconditionEnforcer 類中的ConsiderRobotsPreconditions方法，方法聲明如下：private boolean consider Robots Preconditions(CrawlURI curi);返回值設定為false，這樣可以提高50%以上的效率。

　　3 全自動網(wǎng)頁信息采集系統(tǒng)

　　基于對國內(nèi)權(quán)威商品網(wǎng)站信息和客戶需求的認真分析，本網(wǎng)頁信息采集系統(tǒng)需要滿足兩個需求：

　　(1)網(wǎng)頁信息的采集。首先要對信息抓取時要進行詳細的規(guī)劃，確保抓取的頁面都是和所需信息相關的頁面，本文主要針對所要搜索商品的各類信息的抓取為主，然后將搜索到的信息下載到本地，并對其網(wǎng)頁進行分析，抽取出所需要的信息，最后將商品的名稱、價格、優(yōu)惠、商品詳情等信息，存到數(shù)據(jù)庫中，供用戶將來查詢和檢索。

　　(2)信息的搜索需求。根據(jù)用戶的要求，在系統(tǒng)的前臺輸入想要查找的信息，首先通過網(wǎng)絡爬蟲爬去滿足要求的網(wǎng)頁，經(jīng)過過濾器信息抽取，將搜索到的信息保存到數(shù)據(jù)庫，并將結(jié)果顯示給用戶。

　　3.1 網(wǎng)絡爬蟲模塊

　　Heritrix 自身是一個通用爬蟲框架，在進行網(wǎng)頁內(nèi)容處理之前需要調(diào)用Frontier 對要抓取的URL 進行處理，這樣才能根據(jù)用戶的需求抓取信息。在對URL的處理完成之后，需要實現(xiàn)自定義的Extractor，用于處理對搜索到的網(wǎng)頁內(nèi)容分類，進而找出下一步需要處理的URL信息。具體分為以下步驟：

　　(1)設置Heritrix 的種子站點，將淘寶網(wǎng)主頁的URL 加入種子站點seeds 文件中，啟動Heritrix 抓取時就會到這些頁面上開始爬行。

　　(2)擴展FrontierScheduler，來實現(xiàn)過濾不相干的網(wǎng)頁。由于Frontier Scheduler 不能保證只抓取系統(tǒng)特定格式的URL，擴展抓取符合規(guī)則的URL。URL的選擇策略主要滿足以下任一條件：(a)URL.indexof(“item.taobao.com/item.htm”)!=-1這個條件用于過濾不是詳細商品信息的頁面，以提高抓取的準確性;(b)URL.indexOf("dns：")!=-1 該條件是Heritrix在域名解釋時請求URL的前綴;(c)URL.indexOf("robots.txt")!=-1 滿足該條件的URL 是針對robots 策略發(fā)出的URL 所包含的字符串抓取頁面找到src/modules 目錄下的Processor.options文件。

　　4 結(jié)論

　　本論文對搜索引擎的基本原理和內(nèi)部功能組件的功能做了概述，為信息采集系統(tǒng)的構(gòu)建提供了理論和技術基礎。在通用搜索引擎的基礎上，對信息采集的相關技術更加深入的進行分析，針對網(wǎng)絡爬蟲技術、信息提取技術、HtmlParser 技術等，還需要進一步提高效率和數(shù)據(jù)分布式存儲、建立索引并不斷地對其進行更新等。

【探究全自動網(wǎng)頁信息采集系統(tǒng)論文】相關文章：

信息管理系統(tǒng)論文02-15

管理信息系統(tǒng)論文06-21

學生信息管理系統(tǒng)論文07-14

管理信息系統(tǒng)論文(集合)07-22

【優(yōu)選】管理信息系統(tǒng)論文07-21

信息管理系統(tǒng)論文15篇02-15

信息系統(tǒng)項目管理師論文02-22

管理信息系統(tǒng)論文必備15篇07-21

管理信息系統(tǒng)論文優(yōu)秀15篇07-22

物資管理系統(tǒng)論文07-31

精品国产一级毛片大全,毛片一级在线,毛片免费观看的视频在线,午夜毛片福利

探究全自動網(wǎng)頁信息采集系統(tǒng)論文