- 相關(guān)推薦
可擴展的網(wǎng)頁關(guān)鍵信息抽取探究論文
1引言
網(wǎng)頁的關(guān)鍵信息是網(wǎng)頁的最基本的信息,它體現(xiàn)了該網(wǎng)頁和其他網(wǎng)頁的差別。常見的關(guān)鍵信息有正文、作者、來源、發(fā)布時間等。在網(wǎng)絡(luò)輿情監(jiān)控、網(wǎng)絡(luò)情報分析、搜索引擎等重大網(wǎng)絡(luò)應(yīng)用中,這些關(guān)鍵信息都是后期分析挖掘必不可少的基礎(chǔ)數(shù)據(jù)。需要利用網(wǎng)絡(luò)信息抽取技術(shù)從網(wǎng)頁中抽取出這些關(guān)鍵信息。從某種角度上講,關(guān)鍵信息的抽取質(zhì)量直接決定了網(wǎng)絡(luò)應(yīng)用服務(wù)的效果。因此,網(wǎng)頁的關(guān)鍵信息抽取研究具有重大的應(yīng)用價值。隨著網(wǎng)頁規(guī)模呈指數(shù)級增長,在網(wǎng)絡(luò)應(yīng)用中,模板無關(guān)的全自動信息抽取算法和基于模板的信息抽取算法以其特有的優(yōu)勢成為信息抽取環(huán)節(jié)的主流算法。該算法通常針對特定需求,利用一些經(jīng)驗規(guī)則處理特定領(lǐng)域或特定格式的網(wǎng)頁。
因為抽取過程無需人工干預(yù),所以此類算法越來越多地應(yīng)用于實際網(wǎng)絡(luò)環(huán)境中。基于模板的信息抽取算法充分利用了動態(tài)網(wǎng)頁的規(guī)律:網(wǎng)頁是由同一個模板生成的,屬于模板的符號不會變化,變化的只是模板中填充的數(shù)據(jù)。因此,該算法在對動態(tài)網(wǎng)頁進行抽取時能夠取得較高的精度。但是,這兩類抽取算法也存在著其固有的缺陷。模板無關(guān)的全自動抽取算法通;谶^強的假設(shè)。在處理多樣性日益顯著的網(wǎng)頁時,常常因為某些網(wǎng)頁不符合假設(shè),而導(dǎo)致出現(xiàn)抽取精度不能滿足需求的情況;并且由于使用過多規(guī)則,導(dǎo)致抽取效率低的情況。使用基于模板的信息抽取算法進行抽取時,需先針對某類網(wǎng)頁學(xué)習(xí)出模板,后人工標(biāo)注。面對日益增多的數(shù)據(jù)源,會導(dǎo)致網(wǎng)絡(luò)應(yīng)用的運維代價過大;同時日益復(fù)雜的網(wǎng)頁使得模板的準(zhǔn)確性下降,從而導(dǎo)致抽取精度下降。針對上述模板無關(guān)的全自動信息抽取算法和基于模板的信息抽取算法的缺陷,本文進行了深入研究。本文的貢獻主要有以下兩點。首先,提出了一種可擴展的網(wǎng)頁關(guān)鍵信息抽取框架。該框架通過輸入訓(xùn)練網(wǎng)頁或其他算法的抽取結(jié)果,生成關(guān)鍵信息模板集。再通過模板的正交過濾算法,生成候選的關(guān)鍵信息模板。最后通過模板的特征過濾算法,生成最終的關(guān)鍵信息模板。利用該模板可快速、準(zhǔn)確地從同類型網(wǎng)頁中抽取關(guān)鍵信息。該框架很好地融合了模板無關(guān)的全自動信息抽取算法和基于模板的信息抽取算法,使得兩類算法能夠充分發(fā)揮各自的優(yōu)點,并在缺點方面互相彌補。實驗結(jié)果表明,該框架能夠在抽取精度、抽取效率方面有本質(zhì)上的提高。此外,該框架具有很好的可擴展性,框架中的一些關(guān)鍵環(huán)節(jié)可根據(jù)需求進行替換。其次,本文提出了模板的正交過濾算法,該算法將訓(xùn)練網(wǎng)頁或其他算法的抽取結(jié)果分成若干份,生成若干個模板,再通過模板的正交過濾算法,過濾掉模板中的噪音部分,得到候選模板。將該算法引入基于模板的抽取算法中,能夠從本質(zhì)上提高生成的模板的準(zhǔn)確性,最后的實驗結(jié)果也充分驗證了這一結(jié)論。本文的組織結(jié)構(gòu)如下:第1節(jié)介紹了本文提出的可擴展的網(wǎng)頁關(guān)鍵信息抽取框架的背景及意義,并簡單介紹該框架及核心算法。第2節(jié)介紹主要的相關(guān)工作。第3節(jié)詳細介紹可擴展的網(wǎng)頁關(guān)鍵信息抽取框架,重點介紹框架中的關(guān)鍵技術(shù)點。第4節(jié)介紹實驗與結(jié)果分析。第5節(jié)對本文工作進行總結(jié),并介紹未來工作。
2相關(guān)工作網(wǎng)頁信息抽取
是一種針對網(wǎng)絡(luò)數(shù)據(jù)源和網(wǎng)頁進行深度處理和加工的過程。由于網(wǎng)頁的復(fù)雜性和多樣性,使得網(wǎng)頁信息抽取算法也越來越多。常見的網(wǎng)頁信息抽取算法主要可分為4類:包裝器語言、包裝器歸納、基于模板的信息抽取和模板無關(guān)的全自動信息抽取。由于包裝器語言和包裝器歸納都需要過多的人工干預(yù),所以在實際的工程應(yīng)用中,基于模板的信息抽取算法和模板無關(guān)的全自動信息抽取算法以其較強的實用性占據(jù)了主流的位置;谀0宓男畔⒊槿⊥ǔ;谶@樣的假設(shè):待抽取的網(wǎng)頁是由同一個模板生成的,屬于模板的符號不會變化,變化的只是模板中填充的數(shù)據(jù)。符合這種生成模型的網(wǎng)頁都可以利用網(wǎng)頁模板分析方法來抽取;ヂ(lián)網(wǎng)上大量存在的動態(tài)網(wǎng)頁是由機器生成的(例如論壇)網(wǎng)頁;谀0宓男畔⒊槿〉墓ぷ髁鞒淌牵1)利用多個同類型網(wǎng)頁中具有共性的不變的部分生成一個模板;2)根據(jù)模板對同類型網(wǎng)頁進行抽取。因為此類算法過濾了網(wǎng)頁中的大量模板,只留下了數(shù)據(jù),同時自動還原出了數(shù)據(jù)的結(jié)構(gòu),使得用戶在付出較小人工代價的同時,能夠獲得較為準(zhǔn)確的關(guān)鍵信息。因此此類算法一直都是網(wǎng)絡(luò)應(yīng)用中的主流算法。但是該類算法具有這樣的缺陷:首先需要針對同類型的網(wǎng)頁生成一個模板。模板的準(zhǔn)確性直接決定了后續(xù)信息抽取的精確度。隨著網(wǎng)頁復(fù)雜性以及同一類型網(wǎng)頁的差異性的增大,生成的模板準(zhǔn)確性隨之降低。模板無關(guān)的全自動信息抽取算法進一步提高了信息抽取的自動化程度。此類算法通常利用一些經(jīng)驗規(guī)則處理特定領(lǐng)域或特定格式的網(wǎng)頁,例如,經(jīng)典的全自動信息抽取算法 MDR。
該算法的缺陷在于通;谶^強的假設(shè)。以網(wǎng)頁正文抽取為例。網(wǎng)頁的正文往往是各大網(wǎng)絡(luò)應(yīng)用都需要的關(guān)鍵信息,有不少針對正文抽取的模板無關(guān)的全自動抽取算法。CoreEx是通過計算 DOM 樹中的鏈接文本比來確定正文所在的范圍。CETR是通過標(biāo)簽的密度來確定正文所在的范圍。CETD結(jié)合了二者優(yōu)點。這些算法自動化程度高,通用性強,但是效率較低,且假設(shè)過強,精確度不如基于模板的算法。VIPS是一種通用性較強的算法,但是它需要渲染網(wǎng)頁。因此這種方法的效率較低。在以往的文獻中,較少看到將模板無關(guān)的全自動信息抽取算法和基于模板的信息抽取算法結(jié)合使用的相關(guān)研究。在本文提出的框架中,巧妙地將這兩種算法有機地結(jié)合起來,使得二者能夠取長補短,從本質(zhì)上提高信息抽取的質(zhì)量。
3可擴展的網(wǎng)頁關(guān)鍵信息抽取框架
3.1框架概述如圖1所示,框架的輸入是一批原始訓(xùn)練網(wǎng)頁,或者其他信息抽取算法的抽取結(jié)果。需要說明的是,這些抽取結(jié)果帶有 HTML標(biāo)簽結(jié)構(gòu),如圖2和圖3所示。然后將這些訓(xùn)練網(wǎng)頁或抽取結(jié)果隨機平均分成k份,每一份均通過模板生成算法,生成關(guān)鍵信息模板集。再通過模板的正交過濾算法,生成候選的關(guān)鍵信息模板。接著通過模板的特征過濾算法,生成最終的關(guān)鍵信息模板。最后根據(jù)最終模板對同類型網(wǎng)頁進行抽取。該框架具有很好的擴展性,主要體現(xiàn)在以下幾個方面。
(1)關(guān)鍵信息模板集合生成算法的輸入部分,是一批原始訓(xùn)練網(wǎng)頁,或者其他信息抽取算法的抽取結(jié)果。這里的抽取算法一般是模板無關(guān)的全自動抽取算法。這些算法已經(jīng)根據(jù)需求對原始網(wǎng)頁進行了一次噪音過濾。因此,對于框架中的模板生成環(huán)節(jié),把這些抽取結(jié)果作為訓(xùn)練數(shù)據(jù)輸入,和把原始網(wǎng)頁作為輸入相比較,能夠獲得更精確的模板。另一方面,用模板無關(guān)的全自動抽取算法處理不符合算法假設(shè)的網(wǎng)頁時,噪音過濾的效果不夠好。對于這種情況,通過把抽取結(jié)果輸入到框架中,經(jīng)過后期一系列的模板生成、基于模板的抽取,能夠進一步過濾掉噪音,從而增強了模板無關(guān)的全自動抽取算法的適應(yīng)性。這兩方面結(jié)論在第5節(jié)的實驗結(jié)果將有展示。
(2)特征過濾算法部分,可以根據(jù)要抽取的信息特征,替換相應(yīng)的算法。
(3)在模板生成過程中,框架將關(guān)鍵信息模板集、候選的關(guān)鍵信息模板等中間結(jié)果存入磁盤,當(dāng)再次遇到同類型網(wǎng)頁時,可以直接從磁盤上讀取模板的中間結(jié)果。
(4)基于模板的信息抽取算法的輸入可以是框架中生成的模板,也可以是人工配置的模板?蚣苤械年P(guān)鍵技術(shù)點有模板的表示、關(guān)鍵信息模板集合的生成算法、模板的正交過濾算法、模板的特征過濾算法,以及基于模板的抽取算法。3.2.2關(guān)鍵信息的模板集合生成算法單記錄頁面生成關(guān)鍵信息模板集合的算法如下:首先建立 DOM 樹。刪除CSS、Script等節(jié)點。去掉br和p節(jié)點,將相鄰的段落合并,即合并相鄰的葉子節(jié)點。標(biāo)簽名和屬性名、屬性值一樣的相鄰節(jié)點,則將它們合并成一個節(jié)點。這樣可以盡可能保證各關(guān)鍵信息不被分割。接著將 M 棵 DOM 樹對齊并合并。將對齊后每一個位置對應(yīng)的n個節(jié)點,有選擇地插入到站點版塊風(fēng)格樹SBSTree(siteboardstyletree)中(圖4中的數(shù)字代表該節(jié)點重復(fù)度dump,即該節(jié)點出現(xiàn)的次數(shù)):如果全是標(biāo)簽節(jié)點,則將第一個標(biāo)簽節(jié)點插入到SBSTree中相應(yīng)位置;如果全是文本葉子節(jié)點,則統(tǒng)計并記錄每個文本葉子節(jié)點出現(xiàn)的次數(shù),并將內(nèi)容互不重復(fù)的文本葉子節(jié)點全部插入到SBSTree中相應(yīng)位置 (同一個父節(jié)點下);如果部分是文本葉子節(jié)點部分是標(biāo)簽節(jié)點,則選擇第一個標(biāo)簽節(jié)點插入到SBSTree中相應(yīng)位置,統(tǒng)計并記錄每個文本葉子節(jié)點出現(xiàn)的次數(shù),并將內(nèi)容互不重復(fù)的葉子節(jié)點也全部插入到SBSTree中相應(yīng)位置 (同一個父節(jié)點下)。圖4DOM 樹合并合并后的DOM 樹具有如下特征:對于網(wǎng)頁中公共的信息,例如,導(dǎo)航、網(wǎng)站聲明,其對應(yīng)的合并后的樹中的葉子節(jié)點的重復(fù)度dump為 M,并且該節(jié)點的父節(jié)點只有一個葉子節(jié)點。而各個網(wǎng)頁的關(guān)鍵信息,由于不相同,因此它們的父節(jié)點的葉子節(jié)點個數(shù)小于 M,并且大部分葉子節(jié)點的重復(fù)度為1。
計算每個重復(fù)度大于1的葉子節(jié)點的平均重復(fù)度dump。最后將所有子節(jié)點含有重復(fù)度大于dump的葉子的節(jié)點轉(zhuǎn)換成模板。多記錄頁面生成所有關(guān)鍵信息模板算法如下:首先,建立 DOM 樹。刪除 CSS、Script等節(jié)點。其次將 M 棵 DOM 樹中含有style和class屬性,且所有屬性名和屬性值一樣的節(jié)點各自聚類。橫向比較每一類節(jié)點在 M 棵 DOM 樹中的數(shù)量及其葉子內(nèi)容的變化,并記錄個數(shù)相關(guān)的節(jié)點類,它的節(jié)點個數(shù)隨著記錄個數(shù)的變化而變化。例如,跟帖的正文節(jié)點、跟帖的作者ID節(jié)點的數(shù)量和正文的節(jié)點數(shù)量是一致的。
而那些非關(guān)鍵信息,有一部分節(jié)點個數(shù)和記錄個數(shù)保持一致,但是內(nèi)容基本不變,另一部分出現(xiàn)的次數(shù)和正文節(jié)點無關(guān)。最后對于每棵DOM 樹中,節(jié)點數(shù)量和內(nèi)容都有變化的節(jié)點,認(rèn)為是所有關(guān)鍵信息節(jié)點。將其轉(zhuǎn)換成模板。3.2.3模板的正交過濾一般的全自動模板生成算法,都是通過訓(xùn)練輸入的所有網(wǎng)頁,生成一個包含所有關(guān)鍵信息的模板集合。這種做法生成的模板精度較低,模板的結(jié)果受輸入的訓(xùn)練網(wǎng)頁的影響較大。在此我們提出了正交過濾算法,該算法對生成的關(guān)鍵信息模板集合進行正交過濾,以保證獲得更加準(zhǔn)確的候選模板。
4實驗為了驗證本文
提出的可擴展的網(wǎng)頁關(guān)鍵信息抽取框架的有效性,我們以抽取新聞的正文為例在該框架上進行了實驗。CETD是目前較新的全自動的網(wǎng)頁正文抽取算法,文獻表明該算法能夠獲得較好的抽取效果。為了展示本框架能夠增強模板無關(guān)的全自動抽取算法的適應(yīng)性,我們使用算法 CETD作為對比算法,并將其作為框架中的模板無關(guān)的全自動抽取算法。
4.1實驗數(shù)據(jù)與環(huán)境新聞的實驗數(shù)據(jù)是來自10個新聞網(wǎng)站的國際頻道的網(wǎng)頁共2000個。這些網(wǎng)站覆蓋了各大主流的新聞網(wǎng)站,且網(wǎng)頁在 HTML結(jié)構(gòu)方面也幾乎覆蓋了各種情況,因此,保證了實驗數(shù)據(jù)的多樣性。實驗機器配置為IntelQ9300雙核CPU,4GB內(nèi)存,運行環(huán)境為ubuntu平臺,程序由C++開發(fā)實現(xiàn),編譯器為gcc。
4.2評價方法通過人工標(biāo)注,我們獲得2000個網(wǎng)頁的正文作為參考結(jié)果。假設(shè)a是參考結(jié)果,b是抽取結(jié)果,那么準(zhǔn)確率4.3實驗結(jié)果與分析為了檢驗本文提出的信息抽取框架的有效性,我們設(shè)計了4組實驗,如表1所示。1)使用本框架生成的模板進行信息抽取的實驗2)使用模板無關(guān)的全自動抽取算法(CETD)抽取3)使用模板無關(guān)的全自動抽取算法的抽取結(jié)果作為訓(xùn)練網(wǎng)頁生成模板的實驗4)使用本框架,但是沒有對模板進行正交過濾其中第1組和第3組的對比實驗用于檢驗利用模板無關(guān)的全自動抽取結(jié)果作為訓(xùn)練樣例生成模板的有效性。第1組和第4組的對比實驗用于檢驗正交過濾算法的有效性。第2組和第3組的對比實驗用于檢驗整個框架的有效性。
從結(jié)果中,我們可以得出以下結(jié)論。(1)從第3組和第1組實驗結(jié)果可以看出,使用模板無關(guān)的全自動抽取算法的抽取結(jié)果作為訓(xùn)練網(wǎng)頁生成模板的抽取結(jié)果要好于直接用訓(xùn)練網(wǎng)頁生成模板的抽取結(jié)果。(2)從第4組和第1組實驗的結(jié)果可以看出,引入正交過濾算法后,生成的模板的抽取結(jié)果要好于沒有對模板進行正交過濾的抽取結(jié)果。(3)從第1組和第2組實驗的結(jié)果可以看出,該框架的整體抽取結(jié)果要好于模板無關(guān)的全自動抽取結(jié)果。(4)通過對抽取結(jié)果錯誤的網(wǎng)頁進行分析發(fā)現(xiàn),抽取錯誤的主要因素有如下3點:1)有些 HTML頁面標(biāo)簽缺失,從而造成部分標(biāo)簽被當(dāng)作正文抽取出來。2)有些網(wǎng)頁的正文開頭或結(jié)尾的作者、來源等噪音和正文是連在一起的。3)有些網(wǎng)頁的副標(biāo)題或者摘要僅通過換行標(biāo)簽和正文區(qū)分開來,和正文沒有區(qū)別。(5)全自動抽取算法的抽取結(jié)果作為訓(xùn)練網(wǎng)頁以及正交過濾算法對一小部分板塊的網(wǎng)頁抽取效果不明顯,但是從十個板塊的平均值上可以看出,這兩種算法對結(jié)果的正確率和召回率都有一定的提高。在運行效率方面,我們也做了實驗。該框架生成的模板平均每個頁面的處理時間為8.59ms,而模板無關(guān)的全自動抽取算法平均每個頁面的處理時間為24.72ms。
可以得出這樣的結(jié)論,在在線抽取過程中,用該框架生成的模板對網(wǎng)頁進行抽取,比用模板無關(guān)的全自動抽取算法抽取的速度快近2倍。5結(jié)論與未來工作本文提出了一種可擴展的網(wǎng)頁關(guān)鍵信息抽取框架,該框架很好地融合模板無關(guān)的全自動信息抽取算法和基于模板的信息抽取算法。實驗結(jié)果表明,該框架能夠在抽取精度和效率方面有本質(zhì)上的提高。該框架中一些關(guān)鍵環(huán)節(jié)可根據(jù)需求進行替換,因此該框架具有很好的可擴展性。
同時,本文還提出了模板的正交過濾算法,將該算法引入基于模板的抽取算法中,能夠從本質(zhì)上提高生成的模板的準(zhǔn)確性,最后的實驗結(jié)果也充分驗證了這一結(jié)論。在未來工作中,我們將針對輸入的訓(xùn)練網(wǎng)頁進行聚類以及引入視覺特征,以改進關(guān)鍵信息模板集合的生成算法和模板的正交過濾算法,從而進一步提高生成的模板的精度。
【可擴展的網(wǎng)頁關(guān)鍵信息抽取探究論文】相關(guān)文章:
寫好論文的關(guān)鍵11-18
論文關(guān)鍵詞怎么選08-24
論文中的關(guān)鍵詞怎么寫11-16
關(guān)于大數(shù)據(jù)時代下的隱私保護探究論文04-14
信息技術(shù)論文12-13
成功的關(guān)鍵在于勤奮議論文(通用54篇)10-31
計算機信息論文12-14
信息安全管理論文07-29
計算機信息安全論文07-23
信息管理系統(tǒng)論文02-15