隨著電子商務(wù)的普及和數(shù)據(jù)挖掘技術(shù)的發(fā)展,將數(shù)據(jù)挖掘技術(shù)應(yīng)用到電子商務(wù)中可以解決電子商務(wù)中數(shù)據(jù)量龐大的問題。下面就是電子商務(wù)專業(yè)的一篇畢業(yè)論文范文——電子商務(wù)中數(shù)據(jù)挖掘技術(shù)的應(yīng)用研究,歡迎大家閱讀參考!
摘要:隨著電子商務(wù)的普及和數(shù)據(jù)挖掘技術(shù)的發(fā)展,將數(shù)據(jù)挖掘技術(shù)應(yīng)用到電子商務(wù)中可以解決電子商務(wù)中數(shù)據(jù)量龐大的問題,從而獲得真正有價(jià)值的信息。文章簡(jiǎn)要的介紹了電子商務(wù)以及數(shù)據(jù)挖掘的概念,并對(duì)電子商務(wù)中所使用到的數(shù)據(jù)挖掘技術(shù)進(jìn)行了詳細(xì)的分析。
論文關(guān)鍵詞:電子商務(wù),數(shù)據(jù)挖掘,聚類分析,關(guān)聯(lián)規(guī)則挖掘
1引言
隨著Internet的普及,電子商務(wù)得到了前所未有的發(fā)展,經(jīng)銷商和客戶之間通過互聯(lián)網(wǎng)進(jìn)行交易,節(jié)省了大量的費(fèi)用和時(shí)間。但是在電子商務(wù)中充斥著大量的數(shù)據(jù),如何從這些大量的數(shù)據(jù)中挖掘出真正有價(jià)值的信息,幫助企業(yè)經(jīng)銷商制定更好的營(yíng)銷策略是電子商務(wù)急需解決的問題。數(shù)據(jù)挖掘,又稱數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Database, KDD),也就是從大量的數(shù)據(jù)中挖掘出有用信息的一種技術(shù)。利用數(shù)據(jù)挖掘技術(shù)可以使經(jīng)銷商從大量的數(shù)據(jù)中挖掘出有用的信息幫助決策,從而在市場(chǎng)競(jìng)爭(zhēng)中獲得優(yōu)勢(shì)地位。
2電子商務(wù)概述
電子商務(wù)指交易當(dāng)事人或參與人利用現(xiàn)代信息技術(shù)和計(jì)算機(jī)網(wǎng)絡(luò)(主要是因特網(wǎng))所進(jìn)行的各類商業(yè)活動(dòng),包括貨物貿(mào)易、服務(wù)貿(mào)易和知識(shí)產(chǎn)權(quán)貿(mào)易。“電子商務(wù)”中所包括的“現(xiàn)代信息技術(shù)”應(yīng)涵蓋各種使用電子技術(shù)為基礎(chǔ)的通信方式;“商務(wù)”指不論是契約型還是非契約型的一切商務(wù)性質(zhì)的關(guān)系所引起的種種事項(xiàng)。如果將“現(xiàn)代信息技術(shù)”看作一個(gè)子集,“商務(wù)”看作另一個(gè)子集,電子商務(wù)所涵蓋的范圍應(yīng)當(dāng)是這兩個(gè)子集所形成的交集,即“電子商務(wù)”標(biāo)題之下可能廣泛涉及的因特網(wǎng)、內(nèi)部網(wǎng)和電子數(shù)據(jù)交換在貿(mào)易方面的各種用途。
電子商務(wù)與傳統(tǒng)商務(wù)相比有以下優(yōu)點(diǎn):(1)電子商務(wù)將傳統(tǒng)的商務(wù)流程數(shù)字化、電子化,讓傳統(tǒng)的商務(wù)流程轉(zhuǎn)化為電子流、信息流,突破了時(shí)間空間的局限,大大提高了商業(yè)運(yùn)作的效率。(2)電子商務(wù)簡(jiǎn)化了企業(yè)與企業(yè),企業(yè)與個(gè)人之間的流通環(huán)節(jié),最大限度地降低了流通成本,能有效地提高企業(yè)在現(xiàn)代商業(yè)活動(dòng)中的競(jìng)爭(zhēng)力。(3)電子商務(wù)是基于互聯(lián)網(wǎng)的一種商務(wù)活動(dòng),互聯(lián)網(wǎng)本身具有開放性全球性特點(diǎn),電子商務(wù)可為企業(yè)及個(gè)人提供豐富的信息資源,為企業(yè)創(chuàng)造更多商業(yè)機(jī)會(huì)。(4)電子商務(wù)對(duì)大型企業(yè)和中小企業(yè)都有利,因?yàn)榇笾行推髽I(yè)需要買賣交易活動(dòng)多,實(shí)現(xiàn)電子商務(wù)能有效地進(jìn)行管理和提高效率,對(duì)小企業(yè)同樣有利,因?yàn)殡娮由虅?wù)可以使企業(yè)以相近的成本進(jìn)行網(wǎng)上交易,這樣使中小企業(yè)可能擁有和大企業(yè)一樣的流通渠道和信息資源,極大提高了中小企業(yè)的競(jìng)爭(zhēng)力。(5)電子商務(wù)將大部分商務(wù)活動(dòng)搬到網(wǎng)上進(jìn)行,企業(yè)可以實(shí)行無紙化辦公節(jié)省了開支。
3數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘(Data Mining,DM)技術(shù)是隨著計(jì)算機(jī)的廣泛應(yīng)用和數(shù)據(jù)的大量積累而發(fā)展起來的。數(shù)據(jù)挖掘是從大量的數(shù)據(jù)中提取或“挖掘”知識(shí),即發(fā)現(xiàn)其中隱含的,未知的,有意義的信息的過程,它又被稱為“數(shù)據(jù)庫中知識(shí)發(fā)現(xiàn)”(KDD),也有人把數(shù)據(jù)挖掘視為數(shù)據(jù)庫中知識(shí)發(fā)現(xiàn)的一個(gè)基本步驟,知識(shí)發(fā)現(xiàn)過程由以下步驟組成:(1)數(shù)據(jù)清理(2)數(shù)據(jù)集成(3)數(shù)據(jù)選擇(4)數(shù)據(jù)變換(5)數(shù)據(jù)挖掘(6)模式評(píng)估(7)知識(shí)表示。
從商業(yè)的角度定義,數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術(shù),其主要特點(diǎn)是對(duì)商業(yè)數(shù)據(jù)庫中的大量業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù)。利用功能強(qiáng)大的數(shù)據(jù)挖掘技術(shù),可以使企業(yè)把數(shù)據(jù)轉(zhuǎn)化為有用的信息幫助決策,從而在市場(chǎng)競(jìng)爭(zhēng)中獲得優(yōu)勢(shì)地位。數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)分析的不同是在沒有明確假設(shè)的前提下去挖掘信息、發(fā)現(xiàn)知識(shí)。數(shù)據(jù)挖掘所得到的信息應(yīng)具有先前未知、有效和實(shí)用3個(gè)特征。
4數(shù)據(jù)挖掘在電子商務(wù)中的作用
數(shù)據(jù)挖掘技術(shù)之所以可以服務(wù)于電子商務(wù),是因?yàn)樗軌蛲诰虺龌顒?dòng)過程中的潛在信息以指導(dǎo)電子商務(wù)活動(dòng)。在電子商務(wù)中的作用有7個(gè)方面:(1)挖掘客戶活動(dòng)顧慮,針對(duì)性的在電子商務(wù)平臺(tái)下提供“個(gè)性化”的服務(wù)。(2)可以在瀏覽電子商務(wù)網(wǎng)站的訪問者中挖掘出潛在的客戶。(3)通過電子商務(wù)訪問者的活動(dòng)信息的挖掘,可以更加深入的了解客戶需求。(4)通過挖掘網(wǎng)上顧客的購買行為,可以幫助制定合理的產(chǎn)品策略和定價(jià)策略。(5)通過對(duì)商品訪問情況和銷售情況進(jìn)行挖掘,可以幫助制定產(chǎn)品營(yíng)銷策略,優(yōu)化促銷活動(dòng)。(6)優(yōu)化電子商務(wù)網(wǎng)站的信息導(dǎo)航,方便客戶瀏覽。(7)通過客戶在網(wǎng)絡(luò)上瀏覽時(shí)的擁塞記錄發(fā)現(xiàn)網(wǎng)站的性能瓶頸,從而提高網(wǎng)站的穩(wěn)定性,保證電子商務(wù)購物快速進(jìn)行。
5電子商務(wù)中數(shù)據(jù)挖掘的技術(shù)與方法
電子商務(wù)中的數(shù)據(jù)挖掘過程一般包括3個(gè)主要的階段:數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘、結(jié)果解釋和評(píng)價(jià)。(1)數(shù)據(jù)準(zhǔn)備又可分為數(shù)據(jù)選取和數(shù)據(jù)預(yù)處理兩個(gè)步驟。數(shù)據(jù)選取的目的是確定發(fā)現(xiàn)任務(wù)的操作對(duì)象。即目標(biāo)數(shù)據(jù),是根據(jù)用戶的需要從原始數(shù)據(jù)庫中抽取的一組數(shù)據(jù)。數(shù)據(jù)預(yù)處理一般包括消除噪聲、推導(dǎo)計(jì)算缺值數(shù)據(jù)、消除重復(fù)記錄、完成數(shù)據(jù)類型轉(zhuǎn)換以及對(duì)數(shù)據(jù)降維。(2)數(shù)據(jù)挖掘階段首先要確定數(shù)據(jù)挖掘的目標(biāo)和挖掘的知識(shí)類型。確定挖掘任務(wù)后,根據(jù)挖掘的知識(shí)類型選擇合適的挖掘算法,最后實(shí)施數(shù)據(jù)挖掘操作,運(yùn)用選定的挖掘算法從數(shù)據(jù)庫中抽取所需的知識(shí)。(3)結(jié)果的解釋和評(píng)價(jià)。數(shù)據(jù)挖掘階段發(fā)現(xiàn)的知識(shí),經(jīng)過評(píng)估,可能存在冗余或無關(guān)的知識(shí),這時(shí)需要將其剔除,也有可能知識(shí)不滿足用戶的需求,需要重復(fù)上述挖掘過程重新進(jìn)行挖掘。另外,由于數(shù)據(jù)挖掘最終要面臨用戶,因此,還需要對(duì)所挖掘的知識(shí)進(jìn)行解釋,以一種用戶易于理解的方式供用戶所使用。
數(shù)據(jù)挖掘按照其挖掘任務(wù)主要包括分類和預(yù)測(cè)、聚類分析、關(guān)聯(lián)規(guī)則挖掘,回歸發(fā)現(xiàn)和序列模式發(fā)現(xiàn)等技術(shù)。在選擇某種數(shù)據(jù)挖掘技術(shù)之前,首先要將需要解決的問題轉(zhuǎn)化成正確的數(shù)據(jù)挖掘任務(wù),然后根據(jù)挖掘的任務(wù)來選擇使用哪些數(shù)據(jù)挖掘技術(shù)。在電子商務(wù)活動(dòng)中,主要使用下面的一些數(shù)據(jù)挖掘技術(shù)。
5.1分類
分類是找出數(shù)據(jù)庫中一組數(shù)據(jù)對(duì)象的共同特點(diǎn)并按照分類模式將其劃分為不同的類,其目的是通過分類模型或分類函數(shù),將數(shù)據(jù)庫中的數(shù)據(jù)項(xiàng)映射到某個(gè)給定的類別。分類的主要方法有基于決策樹模型的數(shù)據(jù)分類,貝葉斯分類算法,ID3算法和基于BP神經(jīng)網(wǎng)絡(luò)算法等。
假定現(xiàn)在我們有一個(gè)描述顧客屬性的數(shù)據(jù)庫,包括他們的姓名、年齡、收入、職業(yè)等,我們可以按照他們是否購買某種商品(例如,計(jì)算機(jī))來進(jìn)行分類。如果現(xiàn)在有新的顧客添加到數(shù)據(jù)庫中,我想將新計(jì)算機(jī)的銷售信息通知顧客,若將促銷材料分發(fā)給數(shù)據(jù)庫中的每個(gè)新顧客,如此可能會(huì)導(dǎo)致耗費(fèi)較多的精力和物力。而若我們只給那些可能購買新計(jì)算機(jī)的顧客分發(fā)材料,可以在較大的程度上節(jié)省成本。為此,可以構(gòu)造和使用分類模型。分類方法的特點(diǎn)是通過對(duì)示例數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行分析,已經(jīng)建立了一個(gè)分類模型,然后利用分類模型對(duì)數(shù)據(jù)庫中的其它記錄進(jìn)行分類。
5.2聚類分析
聚類分析是把一組數(shù)據(jù)按照相似性和差異性分為幾個(gè)類別,其目的是使得屬于同一類別的數(shù)據(jù)間的相似性盡可能大,不同類別中的數(shù)據(jù)間的相似性盡可能小。聚類分析的方法是數(shù)據(jù)挖掘領(lǐng)域最為常見的技術(shù)之一。常用的聚類分析方法有:分割聚類方法,層次聚類方法,基于密度的聚類方法和高維稀疏聚類算法等。聚類分析方法與分類方法的不同之處是聚類事先對(duì)數(shù)據(jù)集的分布沒有任何的了解。因此在聚集之后要有一個(gè)對(duì)業(yè)務(wù)很熟悉的人來解釋這樣聚集的意義。
很多情況下一次聚集你得到的分類對(duì)你的業(yè)務(wù)來說可能并不好,這時(shí)你需要?jiǎng)h除或增加變量以影響分類的方式,經(jīng)過幾次反復(fù)之后才能最終得到一個(gè)理想的結(jié)果。聚類分析方法在電子商務(wù)中的使用也極其廣泛。其中一個(gè)典型的應(yīng)用是幫助市場(chǎng)分析人員從客戶基本庫中發(fā)現(xiàn)不同的客戶群,并且用購買模式來刻畫不同客戶群的特征。通過對(duì)聚類的客戶特征的提取,把客戶群分成更細(xì)的市場(chǎng),提供針對(duì)性的服務(wù)。
5.3關(guān)聯(lián)規(guī)則挖掘
關(guān)聯(lián)規(guī)則是描述數(shù)據(jù)庫中數(shù)據(jù)項(xiàng)之間所存在關(guān)系的規(guī)則,即根據(jù)一個(gè)事物中的某些項(xiàng)的出現(xiàn)可導(dǎo)出另一些項(xiàng)在同一事物中也出現(xiàn),即隱藏在數(shù)據(jù)間的關(guān)聯(lián)或相互關(guān)系,比如在一次購買活動(dòng)中所買不同商品的相關(guān)性。在電子商務(wù)中,從大量商務(wù)事物記錄中發(fā)現(xiàn)有趣的關(guān)聯(lián)關(guān)系,可以幫助許多商務(wù)決策的制定。關(guān)聯(lián)規(guī)則挖掘最初也是最典型的形式是購物籃分析。它通過發(fā)現(xiàn)顧客放入其購物籃中不同商品之間聯(lián)系,分析顧客的購買習(xí)慣。例如,在同一次去超級(jí)市場(chǎng),如果顧客購買牛奶,他也購買面包(包括購買什么類型的面包)的可能性有多大?這些信息可以幫助零售商有選擇地經(jīng)銷和安排貨架,引導(dǎo)銷售。例如,將牛奶和面包盡可能放近一些,可以進(jìn)一步刺激一次去商店同時(shí)購買這些商品。在電子商務(wù)中,由于Web服務(wù)器的日志文件記錄了用戶的訪問記錄,通過這些記錄利用關(guān)聯(lián)規(guī)則挖掘網(wǎng)上顧客購買產(chǎn)品的相關(guān)度,對(duì)某些品牌的喜好和忠誠,價(jià)格接受范圍,以及包裝要求等,挖掘的結(jié)果可以用來幫助管理者進(jìn)行網(wǎng)站規(guī)劃、確定商品的種類、價(jià)格和新產(chǎn)品的投入。
5.4序列模式分析
序列模式分析和關(guān)聯(lián)規(guī)則挖掘相似,但側(cè)重點(diǎn)在分析數(shù)據(jù)間的前后序列關(guān)系。它能發(fā)現(xiàn)數(shù)據(jù)庫中形如在某一段時(shí)間內(nèi),顧客購買商品A,接著購買商品B,而后購買商品C,即序列A-B-C出現(xiàn)的頻度較高的信息。序列模式分析的一個(gè)例子是“九個(gè)月以前購買奔騰PC的客戶很可能在一個(gè)月內(nèi)訂購新的CPU芯片”。
6結(jié)束語
電子商務(wù)過程中的各種信息和數(shù)據(jù)是電子商務(wù)活動(dòng)能夠更好的進(jìn)行的基礎(chǔ),通過選擇合適的數(shù)據(jù)挖掘技術(shù)來挖掘電子商務(wù)中有價(jià)值的信息,從而使企業(yè)在激烈的市場(chǎng)競(jìng)爭(zhēng)中做出正確的決策,保持有力的競(jìng)爭(zhēng)優(yōu)勢(shì)。隨著數(shù)據(jù)挖掘技術(shù)的不斷發(fā)展,我們相信它在電子商務(wù)中的應(yīng)用將促使其得到更快更高效的發(fā)展。
參考文獻(xiàn):
[1]姚淼.《數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用》.高校圖書情報(bào)論壇.Mar.2009.Vol.8 No.1
[2]趙雁.張黎明.呂安.趙彥慧.《電子商務(wù)中的數(shù)據(jù)挖掘技術(shù)》.中國電子學(xué)會(huì)第十屆青年學(xué)術(shù)年會(huì)論文集.2004.9
[3]楊青杰.胡明霞.《數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用研究》.商場(chǎng)現(xiàn)代化.2008年第16期
[4]韓家煒.《數(shù)據(jù)挖掘概念與技術(shù)》.機(jī)械工業(yè)出版社.2001
[5]扈闖.《談如何在電子商務(wù)中使用數(shù)據(jù)挖掘技術(shù)》.大眾文藝(理論).2004年第04期