可擴展的網(wǎng)頁關(guān)鍵信息抽取探究論文

時間：2022-08-06 04:10:27 畢業(yè)論文范文我要投稿

相關(guān)推薦

　　1引言

可擴展的網(wǎng)頁關(guān)鍵信息抽取探究論文

　　網(wǎng)頁的關(guān)鍵信息是網(wǎng)頁的最基本的信息，它體現(xiàn)了該網(wǎng)頁和其他網(wǎng)頁的差別。常見的關(guān)鍵信息有正文、作者、來源、發(fā)布時間等。在網(wǎng)絡(luò)輿情監(jiān)控、網(wǎng)絡(luò)情報分析、搜索引擎等重大網(wǎng)絡(luò)應(yīng)用中，這些關(guān)鍵信息都是后期分析挖掘必不可少的基礎(chǔ)數(shù)據(jù)。需要利用網(wǎng)絡(luò)信息抽取技術(shù)從網(wǎng)頁中抽取出這些關(guān)鍵信息。從某種角度上講，關(guān)鍵信息的抽取質(zhì)量直接決定了網(wǎng)絡(luò)應(yīng)用服務(wù)的效果。因此，網(wǎng)頁的關(guān)鍵信息抽取研究具有重大的應(yīng)用價值。隨著網(wǎng)頁規(guī)模呈指數(shù)級增長，在網(wǎng)絡(luò)應(yīng)用中，模板無關(guān)的全自動信息抽取算法和基于模板的信息抽取算法以其特有的優(yōu)勢成為信息抽取環(huán)節(jié)的主流算法。該算法通常針對特定需求，利用一些經(jīng)驗規(guī)則處理特定領(lǐng)域或特定格式的網(wǎng)頁。

　　因為抽取過程無需人工干預(yù)，所以此類算法越來越多地應(yīng)用于實際網(wǎng)絡(luò)環(huán)境中。基于模板的信息抽取算法充分利用了動態(tài)網(wǎng)頁的規(guī)律：網(wǎng)頁是由同一個模板生成的，屬于模板的符號不會變化，變化的只是模板中填充的數(shù)據(jù)。因此，該算法在對動態(tài)網(wǎng)頁進行抽取時能夠取得較高的精度。但是，這兩類抽取算法也存在著其固有的缺陷。模板無關(guān)的全自動抽取算法通�；谶^強的假設(shè)。在處理多樣性日益顯著的網(wǎng)頁時，常常因為某些網(wǎng)頁不符合假設(shè)，而導(dǎo)致出現(xiàn)抽取精度不能滿足需求的情況;并且由于使用過多規(guī)則，導(dǎo)致抽取效率低的情況。使用基于模板的信息抽取算法進行抽取時，需先針對某類網(wǎng)頁學(xué)習(xí)出模板，后人工標(biāo)注。面對日益增多的數(shù)據(jù)源，會導(dǎo)致網(wǎng)絡(luò)應(yīng)用的運維代價過大;同時日益復(fù)雜的網(wǎng)頁使得模板的準(zhǔn)確性下降，從而導(dǎo)致抽取精度下降。針對上述模板無關(guān)的全自動信息抽取算法和基于模板的信息抽取算法的缺陷，本文進行了深入研究。本文的貢獻主要有以下兩點。首先，提出了一種可擴展的網(wǎng)頁關(guān)鍵信息抽取框架。該框架通過輸入訓(xùn)練網(wǎng)頁或其他算法的抽取結(jié)果，生成關(guān)鍵信息模板集。再通過模板的正交過濾算法，生成候選的關(guān)鍵信息模板。最后通過模板的特征過濾算法，生成最終的關(guān)鍵信息模板。利用該模板可快速、準(zhǔn)確地從同類型網(wǎng)頁中抽取關(guān)鍵信息。該框架很好地融合了模板無關(guān)的全自動信息抽取算法和基于模板的信息抽取算法，使得兩類算法能夠充分發(fā)揮各自的優(yōu)點，并在缺點方面互相彌補。實驗結(jié)果表明，該框架能夠在抽取精度、抽取效率方面有本質(zhì)上的提高。此外，該框架具有很好的可擴展性，框架中的一些關(guān)鍵環(huán)節(jié)可根據(jù)需求進行替換。其次，本文提出了模板的正交過濾算法，該算法將訓(xùn)練網(wǎng)頁或其他算法的抽取結(jié)果分成若干份，生成若干個模板，再通過模板的正交過濾算法，過濾掉模板中的噪音部分，得到候選模板。將該算法引入基于模板的抽取算法中，能夠從本質(zhì)上提高生成的模板的準(zhǔn)確性，最后的實驗結(jié)果也充分驗證了這一結(jié)論。本文的組織結(jié)構(gòu)如下：第1節(jié)介紹了本文提出的可擴展的網(wǎng)頁關(guān)鍵信息抽取框架的背景及意義，并簡單介紹該框架及核心算法。第2節(jié)介紹主要的相關(guān)工作。第3節(jié)詳細介紹可擴展的網(wǎng)頁關(guān)鍵信息抽取框架，重點介紹框架中的關(guān)鍵技術(shù)點。第4節(jié)介紹實驗與結(jié)果分析。第5節(jié)對本文工作進行總結(jié)，并介紹未來工作。

　　2相關(guān)工作網(wǎng)頁信息抽取

　　是一種針對網(wǎng)絡(luò)數(shù)據(jù)源和網(wǎng)頁進行深度處理和加工的過程。由于網(wǎng)頁的復(fù)雜性和多樣性，使得網(wǎng)頁信息抽取算法也越來越多。常見的網(wǎng)頁信息抽取算法主要可分為4類：包裝器語言、包裝器歸納、基于模板的信息抽取和模板無關(guān)的全自動信息抽取。由于包裝器語言和包裝器歸納都需要過多的人工干預(yù)，所以在實際的工程應(yīng)用中，基于模板的信息抽取算法和模板無關(guān)的全自動信息抽取算法以其較強的實用性占據(jù)了主流的位置�；谀０宓男畔⒊槿⊥ǔ；谶@樣的假設(shè)：待抽取的網(wǎng)頁是由同一個模板生成的，屬于模板的符號不會變化，變化的只是模板中填充的數(shù)據(jù)。符合這種生成模型的網(wǎng)頁都可以利用網(wǎng)頁模板分析方法來抽取�；ヂ�(lián)網(wǎng)上大量存在的動態(tài)網(wǎng)頁是由機器生成的(例如論壇)網(wǎng)頁�；谀０宓男畔⒊槿〉墓ぷ髁鞒淌牵�1)利用多個同類型網(wǎng)頁中具有共性的不變的部分生成一個模板;2)根據(jù)模板對同類型網(wǎng)頁進行抽取。因為此類算法過濾了網(wǎng)頁中的大量模板，只留下了數(shù)據(jù)，同時自動還原出了數(shù)據(jù)的結(jié)構(gòu)，使得用戶在付出較小人工代價的同時，能夠獲得較為準(zhǔn)確的關(guān)鍵信息。因此此類算法一直都是網(wǎng)絡(luò)應(yīng)用中的主流算法。但是該類算法具有這樣的缺陷：首先需要針對同類型的網(wǎng)頁生成一個模板。模板的準(zhǔn)確性直接決定了后續(xù)信息抽取的精確度。隨著網(wǎng)頁復(fù)雜性以及同一類型網(wǎng)頁的差異性的增大，生成的模板準(zhǔn)確性隨之降低。模板無關(guān)的全自動信息抽取算法進一步提高了信息抽取的自動化程度。此類算法通常利用一些經(jīng)驗規(guī)則處理特定領(lǐng)域或特定格式的網(wǎng)頁，例如，經(jīng)典的全自動信息抽取算法 MDR。

　　該算法的缺陷在于通�；谶^強的假設(shè)。以網(wǎng)頁正文抽取為例。網(wǎng)頁的正文往往是各大網(wǎng)絡(luò)應(yīng)用都需要的關(guān)鍵信息，有不少針對正文抽取的模板無關(guān)的全自動抽取算法。CoreEx是通過計算 DOM 樹中的鏈接文本比來確定正文所在的范圍。CETR是通過標(biāo)簽的密度來確定正文所在的范圍。CETD結(jié)合了二者優(yōu)點。這些算法自動化程度高，通用性強，但是效率較低，且假設(shè)過強，精確度不如基于模板的算法。VIPS是一種通用性較強的算法，但是它需要渲染網(wǎng)頁。因此這種方法的效率較低。在以往的文獻中，較少看到將模板無關(guān)的全自動信息抽取算法和基于模板的信息抽取算法結(jié)合使用的相關(guān)研究。在本文提出的框架中，巧妙地將這兩種算法有機地結(jié)合起來，使得二者能夠取長補短，從本質(zhì)上提高信息抽取的質(zhì)量。

　　3可擴展的網(wǎng)頁關(guān)鍵信息抽取框架

　　3.1框架概述如圖1所示，框架的輸入是一批原始訓(xùn)練網(wǎng)頁，或者其他信息抽取算法的抽取結(jié)果。需要說明的是，這些抽取結(jié)果帶有 HTML標(biāo)簽結(jié)構(gòu)，如圖2和圖3所示。然后將這些訓(xùn)練網(wǎng)頁或抽取結(jié)果隨機平均分成k份，每一份均通過模板生成算法，生成關(guān)鍵信息模板集。再通過模板的正交過濾算法，生成候選的關(guān)鍵信息模板。接著通過模板的特征過濾算法，生成最終的關(guān)鍵信息模板。最后根據(jù)最終模板對同類型網(wǎng)頁進行抽取。該框架具有很好的擴展性，主要體現(xiàn)在以下幾個方面。

　　(1)關(guān)鍵信息模板集合生成算法的輸入部分，是一批原始訓(xùn)練網(wǎng)頁，或者其他信息抽取算法的抽取結(jié)果。這里的抽取算法一般是模板無關(guān)的全自動抽取算法。這些算法已經(jīng)根據(jù)需求對原始網(wǎng)頁進行了一次噪音過濾。因此，對于框架中的模板生成環(huán)節(jié)，把這些抽取結(jié)果作為訓(xùn)練數(shù)據(jù)輸入，和把原始網(wǎng)頁作為輸入相比較，能夠獲得更精確的模板。另一方面，用模板無關(guān)的全自動抽取算法處理不符合算法假設(shè)的網(wǎng)頁時，噪音過濾的效果不夠好。對于這種情況，通過把抽取結(jié)果輸入到框架中，經(jīng)過后期一系列的模板生成、基于模板的抽取，能夠進一步過濾掉噪音，從而增強了模板無關(guān)的全自動抽取算法的適應(yīng)性。這兩方面結(jié)論在第5節(jié)的實驗結(jié)果將有展示。

　　(2)特征過濾算法部分，可以根據(jù)要抽取的信息特征，替換相應(yīng)的算法。

　　(3)在模板生成過程中，框架將關(guān)鍵信息模板集、候選的關(guān)鍵信息模板等中間結(jié)果存入磁盤，當(dāng)再次遇到同類型網(wǎng)頁時，可以直接從磁盤上讀取模板的中間結(jié)果。

　　(4)基于模板的信息抽取算法的輸入可以是框架中生成的模板，也可以是人工配置的模板�？蚣苤械年P(guān)鍵技術(shù)點有模板的表示、關(guān)鍵信息模板集合的生成算法、模板的正交過濾算法、模板的特征過濾算法，以及基于模板的抽取算法。3.2.2關(guān)鍵信息的模板集合生成算法單記錄頁面生成關(guān)鍵信息模板集合的算法如下：首先建立 DOM 樹。刪除CSS、Script等節(jié)點。去掉br和p節(jié)點，將相鄰的段落合并，即合并相鄰的葉子節(jié)點。標(biāo)簽名和屬性名、屬性值一樣的相鄰節(jié)點，則將它們合并成一個節(jié)點。這樣可以盡可能保證各關(guān)鍵信息不被分割。接著將 M 棵 DOM 樹對齊并合并。將對齊后每一個位置對應(yīng)的n個節(jié)點，有選擇地插入到站點版塊風(fēng)格樹SBSTree(siteboardstyletree)中(圖4中的數(shù)字代表該節(jié)點重復(fù)度dump，即該節(jié)點出現(xiàn)的次數(shù))：如果全是標(biāo)簽節(jié)點，則將第一個標(biāo)簽節(jié)點插入到SBSTree中相應(yīng)位置;如果全是文本葉子節(jié)點，則統(tǒng)計并記錄每個文本葉子節(jié)點出現(xiàn)的次數(shù)，并將內(nèi)容互不重復(fù)的文本葉子節(jié)點全部插入到SBSTree中相應(yīng)位置 (同一個父節(jié)點下);如果部分是文本葉子節(jié)點部分是標(biāo)簽節(jié)點，則選擇第一個標(biāo)簽節(jié)點插入到SBSTree中相應(yīng)位置，統(tǒng)計并記錄每個文本葉子節(jié)點出現(xiàn)的次數(shù)，并將內(nèi)容互不重復(fù)的葉子節(jié)點也全部插入到SBSTree中相應(yīng)位置 (同一個父節(jié)點下)。圖4DOM 樹合并合并后的DOM 樹具有如下特征：對于網(wǎng)頁中公共的信息，例如，導(dǎo)航、網(wǎng)站聲明，其對應(yīng)的合并后的樹中的葉子節(jié)點的重復(fù)度dump為 M，并且該節(jié)點的父節(jié)點只有一個葉子節(jié)點。而各個網(wǎng)頁的關(guān)鍵信息，由于不相同，因此它們的父節(jié)點的葉子節(jié)點個數(shù)小于 M，并且大部分葉子節(jié)點的重復(fù)度為1。

　　計算每個重復(fù)度大于1的葉子節(jié)點的平均重復(fù)度dump。最后將所有子節(jié)點含有重復(fù)度大于dump的葉子的節(jié)點轉(zhuǎn)換成模板。多記錄頁面生成所有關(guān)鍵信息模板算法如下：首先，建立 DOM 樹。刪除 CSS、Script等節(jié)點。其次將 M 棵 DOM 樹中含有style和class屬性，且所有屬性名和屬性值一樣的節(jié)點各自聚類。橫向比較每一類節(jié)點在 M 棵 DOM 樹中的數(shù)量及其葉子內(nèi)容的變化，并記錄個數(shù)相關(guān)的節(jié)點類，它的節(jié)點個數(shù)隨著記錄個數(shù)的變化而變化。例如，跟帖的正文節(jié)點、跟帖的作者ID節(jié)點的數(shù)量和正文的節(jié)點數(shù)量是一致的。

　　而那些非關(guān)鍵信息，有一部分節(jié)點個數(shù)和記錄個數(shù)保持一致，但是內(nèi)容基本不變，另一部分出現(xiàn)的次數(shù)和正文節(jié)點無關(guān)。最后對于每棵DOM 樹中，節(jié)點數(shù)量和內(nèi)容都有變化的節(jié)點，認(rèn)為是所有關(guān)鍵信息節(jié)點。將其轉(zhuǎn)換成模板。3.2.3模板的正交過濾一般的全自動模板生成算法，都是通過訓(xùn)練輸入的所有網(wǎng)頁，生成一個包含所有關(guān)鍵信息的模板集合。這種做法生成的模板精度較低，模板的結(jié)果受輸入的訓(xùn)練網(wǎng)頁的影響較大。在此我們提出了正交過濾算法，該算法對生成的關(guān)鍵信息模板集合進行正交過濾，以保證獲得更加準(zhǔn)確的候選模板。

　　4實驗為了驗證本文

　　提出的可擴展的網(wǎng)頁關(guān)鍵信息抽取框架的有效性，我們以抽取新聞的正文為例在該框架上進行了實驗。CETD是目前較新的全自動的網(wǎng)頁正文抽取算法，文獻表明該算法能夠獲得較好的抽取效果。為了展示本框架能夠增強模板無關(guān)的全自動抽取算法的適應(yīng)性，我們使用算法 CETD作為對比算法，并將其作為框架中的模板無關(guān)的全自動抽取算法。

　　4.1實驗數(shù)據(jù)與環(huán)境新聞的實驗數(shù)據(jù)是來自10個新聞網(wǎng)站的國際頻道的網(wǎng)頁共2000個。這些網(wǎng)站覆蓋了各大主流的新聞網(wǎng)站，且網(wǎng)頁在 HTML結(jié)構(gòu)方面也幾乎覆蓋了各種情況，因此，保證了實驗數(shù)據(jù)的多樣性。實驗機器配置為IntelQ9300雙核CPU，4GB內(nèi)存，運行環(huán)境為ubuntu平臺，程序由C++開發(fā)實現(xiàn)，編譯器為gcc。

　　4.2評價方法通過人工標(biāo)注，我們獲得2000個網(wǎng)頁的正文作為參考結(jié)果。假設(shè)a是參考結(jié)果，b是抽取結(jié)果，那么準(zhǔn)確率4.3實驗結(jié)果與分析為了檢驗本文提出的信息抽取框架的有效性，我們設(shè)計了4組實驗，如表1所示。1)使用本框架生成的模板進行信息抽取的實驗2)使用模板無關(guān)的全自動抽取算法(CETD)抽取3)使用模板無關(guān)的全自動抽取算法的抽取結(jié)果作為訓(xùn)練網(wǎng)頁生成模板的實驗4)使用本框架，但是沒有對模板進行正交過濾其中第1組和第3組的對比實驗用于檢驗利用模板無關(guān)的全自動抽取結(jié)果作為訓(xùn)練樣例生成模板的有效性。第1組和第4組的對比實驗用于檢驗正交過濾算法的有效性。第2組和第3組的對比實驗用于檢驗整個框架的有效性。

　　從結(jié)果中，我們可以得出以下結(jié)論。(1)從第3組和第1組實驗結(jié)果可以看出，使用模板無關(guān)的全自動抽取算法的抽取結(jié)果作為訓(xùn)練網(wǎng)頁生成模板的抽取結(jié)果要好于直接用訓(xùn)練網(wǎng)頁生成模板的抽取結(jié)果。(2)從第4組和第1組實驗的結(jié)果可以看出，引入正交過濾算法后，生成的模板的抽取結(jié)果要好于沒有對模板進行正交過濾的抽取結(jié)果。(3)從第1組和第2組實驗的結(jié)果可以看出，該框架的整體抽取結(jié)果要好于模板無關(guān)的全自動抽取結(jié)果。(4)通過對抽取結(jié)果錯誤的網(wǎng)頁進行分析發(fā)現(xiàn)，抽取錯誤的主要因素有如下3點：1)有些 HTML頁面標(biāo)簽缺失，從而造成部分標(biāo)簽被當(dāng)作正文抽取出來。2)有些網(wǎng)頁的正文開頭或結(jié)尾的作者、來源等噪音和正文是連在一起的。3)有些網(wǎng)頁的副標(biāo)題或者摘要僅通過換行標(biāo)簽和正文區(qū)分開來，和正文沒有區(qū)別。(5)全自動抽取算法的抽取結(jié)果作為訓(xùn)練網(wǎng)頁以及正交過濾算法對一小部分板塊的網(wǎng)頁抽取效果不明顯，但是從十個板塊的平均值上可以看出，這兩種算法對結(jié)果的正確率和召回率都有一定的提高。在運行效率方面，我們也做了實驗。該框架生成的模板平均每個頁面的處理時間為8.59ms，而模板無關(guān)的全自動抽取算法平均每個頁面的處理時間為24.72ms。

　　可以得出這樣的結(jié)論，在在線抽取過程中，用該框架生成的模板對網(wǎng)頁進行抽取，比用模板無關(guān)的全自動抽取算法抽取的速度快近2倍。5結(jié)論與未來工作本文提出了一種可擴展的網(wǎng)頁關(guān)鍵信息抽取框架，該框架很好地融合模板無關(guān)的全自動信息抽取算法和基于模板的信息抽取算法。實驗結(jié)果表明，該框架能夠在抽取精度和效率方面有本質(zhì)上的提高。該框架中一些關(guān)鍵環(huán)節(jié)可根據(jù)需求進行替換，因此該框架具有很好的可擴展性。

　　同時，本文還提出了模板的正交過濾算法，將該算法引入基于模板的抽取算法中，能夠從本質(zhì)上提高生成的模板的準(zhǔn)確性，最后的實驗結(jié)果也充分驗證了這一結(jié)論。在未來工作中，我們將針對輸入的訓(xùn)練網(wǎng)頁進行聚類以及引入視覺特征，以改進關(guān)鍵信息模板集合的生成算法和模板的正交過濾算法，從而進一步提高生成的模板的精度。

【可擴展的網(wǎng)頁關(guān)鍵信息抽取探究論文】相關(guān)文章：

寫好論文的關(guān)鍵11-18

論文關(guān)鍵詞怎么選08-24

論文中的關(guān)鍵詞怎么寫11-16

關(guān)于大數(shù)據(jù)時代下的隱私保護探究論文04-14

信息技術(shù)論文12-13

成功的關(guān)鍵在于勤奮議論文（通用54篇）10-31

精品国产一级毛片大全,毛片一级在线,毛片免费观看的视频在线,午夜毛片福利

可擴展的網(wǎng)頁關(guān)鍵信息抽取探究論文