欧美三级日本三级少妇99_黄片毛片一级_毛片免费在线观看_日本一区视频在线播放_欧美黄色视屏_亚洲视频高清

期刊 科普 SCI期刊 投稿技巧 學(xué)術(shù) 出書 購(gòu)物車

首頁(yè) > 優(yōu)秀范文 > 數(shù)據(jù)挖掘總結(jié)

數(shù)據(jù)挖掘總結(jié)樣例十一篇

時(shí)間:2023-03-14 15:21:21

序論:速發(fā)表網(wǎng)結(jié)合其深厚的文秘經(jīng)驗(yàn),特別為您篩選了11篇數(shù)據(jù)挖掘總結(jié)范文。如果您需要更多原創(chuàng)資料,歡迎隨時(shí)與我們的客服老師聯(lián)系,希望您能從中汲取靈感和知識(shí)!

數(shù)據(jù)挖掘總結(jié)

篇1

一 、數(shù)據(jù)挖掘

隨著數(shù)據(jù)庫(kù)技術(shù)的廣泛使用,以及計(jì)算技術(shù)和計(jì)算機(jī)性能與網(wǎng)絡(luò)的迅速發(fā)展,人們面臨著一個(gè)困難的問題,即如何從海量的數(shù)據(jù)中提取出有價(jià)值的信息。查詢功能遠(yuǎn)不能滿足人們的需要,數(shù)據(jù)挖掘應(yīng)運(yùn)而生。有人將數(shù)據(jù)挖掘定義為一個(gè)從數(shù)據(jù)及數(shù)據(jù)庫(kù)中抽取隱含的,先前未知的并有潛在價(jià)值的信息的過程。但有人認(rèn)為數(shù)據(jù)挖掘,即數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn),是從大數(shù)據(jù)集中快速高效地發(fā)現(xiàn)令人感興趣的規(guī)則,數(shù)據(jù)挖掘是數(shù)據(jù)庫(kù)研究的新領(lǐng)域,所挖掘的知識(shí)能夠用于信息、管理、查詢處理、決策支持和過程控制等等。

數(shù)據(jù)挖掘(DataMining)是通過分析每個(gè)數(shù)據(jù),從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù),主要有數(shù)據(jù)準(zhǔn)備、規(guī)律尋找和規(guī)律表示三個(gè)步驟。隨著計(jì)算機(jī)網(wǎng)絡(luò)的發(fā)展和普遍使用,數(shù)據(jù)挖掘成為迫切需要研究的重要

課題。

數(shù)據(jù)挖掘涉及多個(gè)學(xué)科方向,主要包括:數(shù)據(jù)庫(kù)、統(tǒng)計(jì)學(xué)和人工智能等。數(shù)據(jù)挖掘可按數(shù)據(jù)庫(kù)類型、挖掘?qū)ο蟆⑼诰蛉蝿?wù)、挖掘方法與技術(shù)以及應(yīng)用等幾方面進(jìn)行分類。按數(shù)據(jù)庫(kù)類型分類:關(guān)系數(shù)據(jù)挖掘、模糊數(shù)據(jù)挖掘、歷史數(shù)據(jù)挖掘、空間數(shù)據(jù)挖掘等多種不同數(shù)據(jù)庫(kù)的數(shù)據(jù)挖掘類型。按數(shù)據(jù)挖掘?qū)ο蠓诸悾何谋緮?shù)據(jù)挖掘、多媒體數(shù)據(jù)挖掘、Web數(shù)據(jù)挖掘。按數(shù)據(jù)挖掘的任務(wù)有:關(guān)聯(lián)分析、時(shí)序模式、聚類、分類、偏差檢測(cè)、預(yù)測(cè)等。按數(shù)據(jù)挖掘方法和技術(shù)分類:歸納學(xué)習(xí)類、仿生物技術(shù)類、公式發(fā)現(xiàn)類、統(tǒng)計(jì)分析類、模糊數(shù)學(xué)類、可視化技術(shù)類。

二、數(shù)據(jù)挖掘的主要任務(wù)

(一)數(shù)據(jù)總結(jié)

數(shù)據(jù)總結(jié)目的是對(duì)數(shù)據(jù)進(jìn)行濃縮,給出它的總體綜合描述。通過對(duì)數(shù)據(jù)的總結(jié),數(shù)據(jù)挖掘能夠?qū)?shù)據(jù)庫(kù)中的有關(guān)數(shù)據(jù)從較低的個(gè)體層次抽象總結(jié)到較高的總體層次上,從而實(shí)現(xiàn)對(duì)原始基本數(shù)據(jù)的總體把握。

(二)分類

分類的主要功能是學(xué)會(huì)一個(gè)分類函數(shù)或分類模型(也常常稱作分類器),該模型能夠根據(jù)數(shù)據(jù)的屬性將數(shù)據(jù)分派到不同的組中。即:分析數(shù)據(jù)的各種屬性,并找出數(shù)據(jù)的屬性模型,確定哪些數(shù)據(jù)屬于哪些組。這樣我們就可以利用該模型來分析已有數(shù)據(jù),并預(yù)測(cè)新數(shù)據(jù)將屬于哪一個(gè)組。

(三)關(guān)聯(lián)分析

數(shù)據(jù)庫(kù)中的數(shù)據(jù)一般都存在著關(guān)聯(lián)關(guān)系,也就是說,兩個(gè)或多個(gè)變量的取值之間存在某種規(guī)律性。這種關(guān)聯(lián)關(guān)系有簡(jiǎn)單關(guān)聯(lián)和時(shí)序關(guān)聯(lián)兩種。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫(kù)中隱藏的關(guān)聯(lián)網(wǎng),描述一組數(shù)據(jù)項(xiàng)目的密切度或關(guān)系。有時(shí)并不知道數(shù)據(jù)庫(kù)中數(shù)據(jù)的關(guān)聯(lián)是否存在精確的關(guān)聯(lián)函數(shù),,即使知道也是不確定的,因此關(guān)聯(lián)分析生成的規(guī)則帶有置信度,置信度級(jí)別度量了關(guān)聯(lián)規(guī)則的強(qiáng)度。

(四)聚類

當(dāng)要分析的數(shù)據(jù)缺乏描述信息,或者是無法組織成任何分類模式時(shí),可以采用聚類分析。聚類分析是按照某種相近程度度量方法,將用戶數(shù)據(jù)分成一系列有意義的子集合。每一個(gè)集合中的數(shù)據(jù)性質(zhì)相近,不同集合之間的數(shù)據(jù)性質(zhì)相差較大。

統(tǒng)計(jì)方法中的聚類分析是實(shí)現(xiàn)聚類的一種手段,它主要研究基于幾何距離的聚類。人工智能中的聚類是基于概念描述的。概念描述就是對(duì)某類對(duì)象的內(nèi)涵進(jìn)行描述,并概括這類對(duì)象的有關(guān)特征。概念描述分為特征性描述和區(qū)別性描述,前者描述某類對(duì)象的共同特征,后者描述不同類對(duì)象之間的區(qū)別。

三、數(shù)據(jù)挖據(jù)的應(yīng)用

數(shù)據(jù)挖掘技術(shù)源于商業(yè)的直接需求,因此它在各種商業(yè)領(lǐng)域都存在廣泛的使用價(jià)值。現(xiàn)在已經(jīng)應(yīng)用數(shù)據(jù)挖掘技術(shù)的領(lǐng)域都是信息量大、環(huán)境復(fù)雜、需要知識(shí)幫助進(jìn)行管理和決策的領(lǐng)域。下面介紹一些目前比較活躍的應(yīng)用方向:

(一)在金融數(shù)據(jù)分析中的應(yīng)用

多數(shù)銀行和金融機(jī)構(gòu)都提供了豐富多樣的儲(chǔ)蓄,信用,投資,保險(xiǎn)等服務(wù)。他們產(chǎn)生的金融數(shù)據(jù)通常比較完整、可靠,這對(duì)系統(tǒng)化的數(shù)據(jù)分析和數(shù)據(jù)挖掘相當(dāng)有利。在具體的應(yīng)用中,采用多維數(shù)據(jù)分析來分析這些數(shù)據(jù)的一般特性,觀察金融市場(chǎng)的變化趨勢(shì);通過特征選擇和屬性相關(guān)性計(jì)算,識(shí)別關(guān)鍵因素,進(jìn)行貸款償付預(yù)測(cè)和客戶信用分析;利用分類和聚集的方法對(duì)用戶群體進(jìn)行識(shí)別和目標(biāo)市場(chǎng)分析;使用數(shù)據(jù)可視化、鏈接分析、分類、聚類分析、孤立點(diǎn)分析、序列模式分析等工具偵破洗黑錢和其他金融犯罪行為。

(二)在電力業(yè)的應(yīng)用

在電力行業(yè)中,數(shù)據(jù)挖掘技術(shù)主要用于指導(dǎo)設(shè)備更新、業(yè)績(jī)?cè)u(píng)估、指導(dǎo)電力企業(yè)的建設(shè)規(guī)劃、指導(dǎo)電力的生產(chǎn)和購(gòu)買、指導(dǎo)電力的調(diào)度等。數(shù)據(jù)挖掘在電力企業(yè)的其它方面也有巨大的用處,比如說指導(dǎo)項(xiàng)目管理、安全管理、資源管理、投資組合管理、活動(dòng)分析、銷售預(yù)測(cè)、收入預(yù)測(cè)、需求預(yù)測(cè)、理賠分析等。

(三)在零售業(yè)中的應(yīng)用

零售業(yè)是數(shù)據(jù)挖掘的主要應(yīng)用領(lǐng)域,這是因?yàn)榱闶蹣I(yè)積累了大量的銷售數(shù)據(jù),如顧客購(gòu)買史記錄、貨物進(jìn)出、消費(fèi)與服務(wù)記錄以及流行的電子商務(wù)等等都為數(shù)據(jù)挖掘提供了豐富的數(shù)據(jù)資源。零售數(shù)據(jù)挖掘有助于劃分顧客群體,使用交互式詢問技術(shù)、分類技術(shù)和預(yù)測(cè)技術(shù),更精確地挑選潛在的顧客;識(shí)別顧客購(gòu)買行為,發(fā)現(xiàn)顧客購(gòu)買模式和趨勢(shì),進(jìn)行關(guān)聯(lián)分析,以便更好地進(jìn)行貨架擺設(shè);改進(jìn)服務(wù)質(zhì)量,獲得更好的顧客忠誠(chéng)度和滿意程度;提高貨品的銷量比率,設(shè)計(jì)更好的貨品運(yùn)輸與分銷策略,減少商業(yè)成本;尋找描述性的模式,以便更好地進(jìn)行市場(chǎng)分析等等。

(四)在醫(yī)學(xué)上的應(yīng)用

近年來,生物醫(yī)學(xué)研究有了迅猛地發(fā)展,從新藥的開發(fā)到癌癥治療的突破,到通過大規(guī)模序列模式和基因功能的發(fā)現(xiàn),進(jìn)行人類基因的識(shí)別與研究。在人類基因研究領(lǐng)域具有挑戰(zhàn)性的問題是從中找出導(dǎo)致各種疾病的特定基因序列模式。由于數(shù)據(jù)挖掘中已經(jīng)有許多有意義的序列模式分析和相似檢索技術(shù),因此數(shù)據(jù)挖掘成為DNA分析中的強(qiáng)有力工具。基因序列的相關(guān)分析,遺傳研究中的路徑分析等。近期DNA分析的研究成果已經(jīng)促成了對(duì)許多疾病和殘疾基因成因的發(fā)現(xiàn),以及對(duì)疾病診斷、預(yù)防和治療的新藥物、新方法的發(fā)現(xiàn)。

(五)在高校和科研單位以及其他領(lǐng)域的應(yīng)用

主要是用于海量信息數(shù)據(jù)的抽取,提供給教研和科研人員有價(jià)值的數(shù)據(jù)。比如在數(shù)字圖書館方面可以引入數(shù)據(jù)挖掘技術(shù)。同時(shí)還可以應(yīng)用的電子商務(wù)等等眾多領(lǐng)域。

參考文獻(xiàn)

篇2

一、旅游業(yè)數(shù)據(jù)挖掘國(guó)內(nèi)外研究現(xiàn)狀

隨著我國(guó)的旅游業(yè)的迅猛發(fā)展,旅游產(chǎn)業(yè)正邁向國(guó)際化的軌道,傳統(tǒng)旅游業(yè)積累的海量數(shù)據(jù),沒有被有效利用,資源被極大浪費(fèi)。將數(shù)據(jù)挖掘引入到旅游產(chǎn)業(yè)是大勢(shì)所趨。

當(dāng)前數(shù)據(jù)挖掘在旅游信息化建設(shè)中的應(yīng)用與研究情況主要集中在高校理論界的研究, 大多數(shù)研究?jī)H僅是學(xué)術(shù)研究,真正運(yùn)用到旅游行業(yè)的文章多是從某個(gè)具體的方面出發(fā),針對(duì)個(gè)別應(yīng)用進(jìn)行數(shù)據(jù)挖掘的融合。筆者主要研究決策樹方法在旅游信息化建設(shè)中的應(yīng)用。目前,決策樹算法有CLS算法、ID3算法、C4.5算法、CART算法、SLIQ算法、Z統(tǒng)計(jì)算法、并行決策樹算法和SPRINT算法等。不同算法在執(zhí)行效率、輸出結(jié)果、可擴(kuò)容性、可理解性、預(yù)測(cè)的準(zhǔn)確性等方面各不相同。總的來說,這么多決策樹算法各有優(yōu)缺點(diǎn),真正將數(shù)據(jù)挖掘運(yùn)用到整個(gè)旅游信息化建設(shè)中還有很多問題需要解決。

二、旅游業(yè)數(shù)據(jù)挖掘算法選擇

數(shù)據(jù)挖掘中常用的基本分類算法有決策樹、貝葉斯、基于規(guī)則的算法等等。

其中,決策樹是目前主流的分類技術(shù),己經(jīng)成功的應(yīng)用于更多行業(yè)的數(shù)據(jù)分析。在關(guān)聯(lián)規(guī)則挖掘研究中,最重要的是Apriori算法,這個(gè)算法后來成為絕大多數(shù)關(guān)聯(lián)規(guī)則分類的基礎(chǔ)。聚類算法也是數(shù)據(jù)挖掘技術(shù)中極為重要的組成部分。與分類技術(shù)不同的是,聚類不要求對(duì)數(shù)據(jù)進(jìn)行事先標(biāo)定,就數(shù)據(jù)挖掘功能而言,聚類能夠可以針對(duì)數(shù)據(jù)的相異度來分析評(píng)估數(shù)據(jù),可以作為其他對(duì)發(fā)現(xiàn)的簇運(yùn)行的數(shù)據(jù)挖掘算法的預(yù)處理步驟。

各種算法分類模型建立有所不同,但原理是大致相同的。筆者考慮決策樹算法結(jié)構(gòu)簡(jiǎn)單,便于理解,且很擅長(zhǎng)處理非數(shù)值型數(shù)據(jù),建模效率高,分類速度快,特別適合大規(guī)模的數(shù)據(jù)處理的優(yōu)點(diǎn),結(jié)合旅游產(chǎn)業(yè)數(shù)據(jù)特點(diǎn),故作重點(diǎn)分析。

三、旅游業(yè)數(shù)據(jù)挖掘系統(tǒng)需求分析

旅游業(yè)數(shù)據(jù)挖掘系統(tǒng)的基本特點(diǎn)如下:統(tǒng)計(jì)旅游興趣;購(gòu)物消費(fèi)趨向;推薦其感興趣的旅游景點(diǎn);在后臺(tái)管理中,通過決策樹算法對(duì)游客數(shù)量、平均年齡、景點(diǎn)收費(fèi)、游客來自地區(qū)等進(jìn)行分析總結(jié),為旅游消費(fèi)者和旅游管理者提供服務(wù):為消費(fèi)者提供吃住行購(gòu)?qiáng)蕵诽鞖飧鞣矫嫘畔⒉樵儭C(jī)票、車船票、酒店、景區(qū)門票、餐飲等方面的預(yù)定與現(xiàn)金支付、第三方支付、消費(fèi)者評(píng)價(jià)、在線咨詢等方面的便利、快捷服務(wù)。為管理者提供推薦、游客管理、線路管理、景點(diǎn)管理、特色服務(wù)管理、機(jī)票管理、在線咨詢管理、旅游客戶關(guān)系管理等服務(wù),提高整體服務(wù)效率和水平。

四、旅游業(yè)數(shù)據(jù)挖掘系統(tǒng)的實(shí)現(xiàn)

旅游業(yè)信息管理系統(tǒng)包括游客信息管理與游客信息分析兩個(gè)子模塊。根據(jù)系統(tǒng)日常運(yùn)行出現(xiàn)的問題及時(shí)對(duì)系統(tǒng)進(jìn)行維護(hù),如添加或者刪除某個(gè)模塊功能,系統(tǒng)整體運(yùn)行速度的更近等。系統(tǒng)運(yùn)用數(shù)據(jù)庫(kù)層、持久化層、業(yè)務(wù)邏輯層、表示層四層體系結(jié)構(gòu), 主要利用ID3算法達(dá)到旅游數(shù)據(jù)信息的快速、準(zhǔn)確分類。考慮了游客與酒店之間的關(guān)系、游客與旅游路線之間的關(guān)系、游客與旅游景點(diǎn)之間的關(guān)系、游客與機(jī)票、車票之間的關(guān)系、管理員與游客之間的關(guān)系、邏輯結(jié)構(gòu)設(shè)計(jì)。程序之間的獨(dú)立性增加,易于擴(kuò)展, 規(guī)范化得到保證的同時(shí)提高了系統(tǒng)的安全性。

詳細(xì)功能設(shè)計(jì)包括:用戶登錄、用戶查詢、預(yù)定及支付、后臺(tái)管理、旅游客戶管理和數(shù)據(jù)分析等方面。本系統(tǒng)中主要運(yùn)用Java語言就行邏輯上的處理。系統(tǒng)主要使用 Struts2和Hibernate這兩個(gè)框架來進(jìn)行整個(gè)系統(tǒng)的搭建。其中Struts2主要處理業(yè)務(wù)邏輯,而Hibernate主要是處理數(shù)據(jù)存儲(chǔ)、查詢等操作。系統(tǒng)采用Tomcat服務(wù)器。系統(tǒng)模塊需要實(shí)現(xiàn)酒店推薦實(shí)現(xiàn)、景點(diǎn)推薦實(shí)現(xiàn)、天氣預(yù)報(bào)實(shí)現(xiàn)、旅游線路實(shí)現(xiàn)、特產(chǎn)推薦、數(shù)據(jù)分析展現(xiàn)功能、報(bào)表數(shù)據(jù)獲取、景區(qū)客流量變化分析實(shí)現(xiàn)等。需要進(jìn)行后臺(tái)信息管理等功能測(cè)試以及時(shí)間測(cè)試、數(shù)據(jù)測(cè)試等性能測(cè)試。

篇3

中圖分類號(hào):TP399 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9599 (2012) 19-0000-02

數(shù)據(jù)挖掘技術(shù)是計(jì)算機(jī)領(lǐng)域和人工智能領(lǐng)域的關(guān)鍵技術(shù)。數(shù)據(jù)挖掘技術(shù)可以將大量的數(shù)據(jù)轉(zhuǎn)換為有用的知識(shí)和信息,因此引起了信息產(chǎn)業(yè)界的廣泛關(guān)注。近年來,在作為信息和知識(shí)的集散地和發(fā)源地的高校圖書館,數(shù)據(jù)挖掘技術(shù)的應(yīng)用更為廣泛。

1 數(shù)據(jù)挖掘概述

數(shù)據(jù)挖掘(Data Mining),就是從存放在數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)或其他信息庫(kù)中的大量數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解的模式的過程。在人工智能領(lǐng)域,習(xí)慣上又稱為數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Database,KDD),也有人把數(shù)據(jù)挖掘視為數(shù)據(jù)庫(kù)中知識(shí)發(fā)現(xiàn)過程的一個(gè)基本步驟[1]。作為數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)的一種先進(jìn)技術(shù),數(shù)據(jù)挖掘通過總結(jié)要查詢的內(nèi)容的模式,對(duì)其間存在的規(guī)律進(jìn)行搜索,輔助決策者對(duì)當(dāng)前數(shù)據(jù)及歷史數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)其中隱藏的模式和關(guān)系,進(jìn)而對(duì)未來可能發(fā)生的事情進(jìn)行預(yù)測(cè)。因此,數(shù)據(jù)挖掘技術(shù)在高校圖書館中有著廣泛的應(yīng)用。

2 數(shù)據(jù)挖掘技術(shù)在高校圖書館的應(yīng)用

2.1 提高圖書館的決策能力

由于數(shù)據(jù)挖掘技術(shù)能夠從眾多的數(shù)據(jù)中發(fā)現(xiàn)有用的知識(shí)和信息,因此被廣泛應(yīng)用在圖書館的管理中,領(lǐng)導(dǎo)通過對(duì)挖掘出的有用信息進(jìn)行分析,可以提高決策的準(zhǔn)確性和可行性。比如,通過數(shù)據(jù)挖掘技術(shù)可以對(duì)圖書館的圖書借閱情況進(jìn)行挖掘和分析,分析每類讀者的借閱行為特征,發(fā)現(xiàn)借閱規(guī)律,為圖書館的管理提供可行的合理的建議[2]。數(shù)據(jù)挖掘技術(shù)可以將圖書館管理系統(tǒng)中的內(nèi)部數(shù)據(jù)和外部數(shù)據(jù)結(jié)合起來進(jìn)行分析,為領(lǐng)導(dǎo)提供靈活的、隨時(shí)可用的決策信息。數(shù)據(jù)挖掘技術(shù)可以從歷史數(shù)據(jù)中找出某種規(guī)律,發(fā)現(xiàn)某種潛在的模式,以此預(yù)測(cè)未來,提供決策信息[3]。

2.2 輔助圖書館的圖書采購(gòu)

此外,通過對(duì)數(shù)據(jù)挖掘技術(shù)的結(jié)果進(jìn)行分析和總結(jié),可以提供各種預(yù)測(cè)性信息和分析報(bào)告,可以科學(xué)合理的指導(dǎo)圖書館采購(gòu)圖書,從而降低圖書采購(gòu)人員的主觀因素帶來的影響,可以科學(xué)的、準(zhǔn)確的和全面的提高決策的能力,提升決策的水平。數(shù)據(jù)挖掘技術(shù)應(yīng)用于圖書采購(gòu)的過程包括原始數(shù)據(jù)的收集、預(yù)處理、數(shù)據(jù)變換、數(shù)據(jù)挖掘、結(jié)果分析和采購(gòu)計(jì)劃的制訂五個(gè)步驟[4]。

1.原始數(shù)據(jù)的收集。這一過程是基礎(chǔ),可以為下面幾個(gè)環(huán)節(jié)提供一定的數(shù)據(jù)源,提供的數(shù)據(jù)源可以用在后期的數(shù)據(jù)挖掘中。在實(shí)踐應(yīng)用中,這一環(huán)節(jié)主要收集圖書館辦公自動(dòng)化系統(tǒng)數(shù)據(jù)庫(kù)里的相關(guān)業(yè)務(wù)數(shù)據(jù),主要包括以下內(nèi)容:①讀者基本信息數(shù)據(jù)。比如讀者的姓名、性別、所在院系、借閱證號(hào)等。②流通借閱數(shù)據(jù)。利用數(shù)據(jù)挖掘技術(shù)獲得的這部分信息,可以反映圖書館的文獻(xiàn)利用情況,通過分析、統(tǒng)計(jì)和總結(jié)這些數(shù)據(jù),有助于掌握讀者的需求和書刊的使用情況,進(jìn)行提供一定的預(yù)測(cè)信息。③文獻(xiàn)信息檢索數(shù)據(jù),這些數(shù)據(jù)的主要功能在于如實(shí)地向數(shù)據(jù)挖掘人員反饋用戶的實(shí)際需求和借閱傾向,并挖掘讀者需求數(shù)據(jù)。④圖書館所藏的圖書數(shù)據(jù):主要包括書的題名、作者、出版社、出版日期、索書號(hào)、館藏位置、購(gòu)入日期等數(shù)據(jù)。

2.原始數(shù)據(jù)的預(yù)處理。這一環(huán)節(jié)就是在數(shù)據(jù)挖掘前對(duì)一些有問題的數(shù)據(jù)進(jìn)行處理,這些數(shù)據(jù)大多數(shù)是不完整的、不一致的或有噪聲的,這些數(shù)據(jù)是圖書館自動(dòng)化系統(tǒng)數(shù)據(jù)庫(kù)數(shù)據(jù)中的一部分。在數(shù)據(jù)挖掘前處理這些問題數(shù)據(jù)是非常有必要的,可以從根本上提高數(shù)據(jù)挖掘的效率和所獲知識(shí)的質(zhì)量。

3.數(shù)據(jù)變換。這一過程就是對(duì)前面兩個(gè)環(huán)節(jié)所獲得的有效數(shù)據(jù)進(jìn)行總結(jié)、分析、聚集和歸納,使數(shù)據(jù)更適合于挖掘,滿足不同的數(shù)據(jù)挖掘的需求。

4.數(shù)據(jù)挖掘。數(shù)據(jù)挖掘過程的主要工作就是設(shè)計(jì)選擇一種合理的算法,使當(dāng)前的數(shù)據(jù)情況和挖掘的目標(biāo)相匹配,使其一致,比如遺傳算法等。通過分析讀者基本信息數(shù)據(jù)和流通借閱數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,某類讀者和某類圖書之間的關(guān)聯(lián)度會(huì)更加清晰的被數(shù)據(jù)挖掘人員所理解。

5.結(jié)果分析和采購(gòu)計(jì)劃制訂。一般情況下,數(shù)據(jù)挖掘所獲得的結(jié)果并不是可視化的,需要通過一些工具比如可視化工具和知識(shí)表示技術(shù)對(duì)其評(píng)估和解釋。通過數(shù)據(jù)挖掘,可以獲得檢索頻率和借閱頻次較高的圖書信息。借助這些信息,可以對(duì)各類文獻(xiàn)的利用率和需求狀況進(jìn)行科學(xué)合理的分析,從而輔助采購(gòu)人員科學(xué)地篩選文獻(xiàn)種類。

2.3 提升圖書館的信息服務(wù)水平

圖書館的信息服務(wù)一般是被動(dòng)服務(wù),也就是圖書館員定期向用戶提供一些資料,比如課題資料、項(xiàng)目資料等;除此之外,圖書館員還要逐一解答用戶的信息請(qǐng)求。由于當(dāng)前的科技發(fā)展日新月異,知識(shí)更新速度快,而這種被動(dòng)服務(wù)模式反應(yīng)較慢, 不能滿足現(xiàn)實(shí)發(fā)展的需要。數(shù)據(jù)挖掘技術(shù)的廣泛應(yīng)用,使圖書館由被動(dòng)服務(wù)轉(zhuǎn)為主動(dòng)服務(wù),使傳統(tǒng)圖書館轉(zhuǎn)變?yōu)橹鲃?dòng)性、智能型的信息服務(wù)機(jī)構(gòu)。

3 數(shù)據(jù)挖掘技術(shù)對(duì)高校圖書館帶來的挑戰(zhàn)

(1)從異構(gòu)數(shù)據(jù)源中挖掘信息。筆者認(rèn)為,從異構(gòu)數(shù)據(jù)源中挖掘信息也就是從多個(gè)不同的相關(guān)的數(shù)據(jù)源系統(tǒng)的集合中挖掘相關(guān)的信息并對(duì)其分析綜合,從而產(chǎn)生有用的信息和知識(shí)。在當(dāng)今的網(wǎng)絡(luò)時(shí)代,信息技術(shù)日新月異,新技術(shù)層出不窮,這就要求圖書館的專業(yè)技術(shù)人員能夠駕馭新興技術(shù),能夠從被各種網(wǎng)絡(luò)連接起來的具有不同語義的多種數(shù)據(jù)源構(gòu)成的分布式異構(gòu)數(shù)據(jù)庫(kù)中挖掘相關(guān)信息。

(2)數(shù)據(jù)挖掘結(jié)果的不同形式表示。由于當(dāng)前圖書館通過數(shù)據(jù)挖掘技術(shù)獲得的數(shù)據(jù)具有不確定性,所以數(shù)據(jù)挖掘的結(jié)果會(huì)有多種類型,其表示形式也不同。圖書館的用戶也許會(huì)要求挖掘出不同知識(shí),這就需要圖書館工作人員從一個(gè)大規(guī)模的數(shù)據(jù)集中挖掘出不同的知識(shí),并從不同的角度來審視,并以不同的形式表示挖掘的結(jié)果[5]。

(3)在不同的抽象層次上進(jìn)行交互式挖掘。在數(shù)據(jù)挖掘之前,很難從一個(gè)大規(guī)模的數(shù)據(jù)庫(kù)中預(yù)測(cè)出能挖掘出什么信息,因此,應(yīng)該以一個(gè)搜索過程來處理復(fù)雜的數(shù)據(jù)挖掘查詢,對(duì)于必要的中間結(jié)果務(wù)必保留,以供進(jìn)一步挖掘使用。在挖掘過程中,用戶通過不斷地修改其查詢請(qǐng)求,對(duì)挖掘目標(biāo)進(jìn)行動(dòng)態(tài)調(diào)整,能使挖掘過程得到有效地推進(jìn)。因此,系統(tǒng)需要對(duì)挖掘的中間結(jié)果以不同的角度進(jìn)行觀察,并提供用戶觀察數(shù)據(jù)的靈活性。

4 結(jié)語

數(shù)據(jù)挖掘技術(shù)在高校圖書館的應(yīng)用范圍很廣,除了上述應(yīng)用外,在學(xué)科管理、館藏資源建設(shè)、信息咨詢、圖書館的現(xiàn)代化建設(shè)與管理等方面都有廣泛的應(yīng)用。通過對(duì)高校圖書館各種數(shù)據(jù)、信息的挖掘,可以揭示隱藏在期間的各種重要關(guān)系,圖書館員應(yīng)該學(xué)習(xí)這方面的新技術(shù)、新發(fā)展,為圖書館的發(fā)展做出更大的貢獻(xiàn)。

參考文獻(xiàn):

[1]邱曉輝.知識(shí)發(fā)現(xiàn)與數(shù)據(jù)挖掘分析[J].情報(bào)探索,2011,(1).

[2]張煒,洪霞.基于讀者利用挖掘的圖書館決策與應(yīng)用分析[J].現(xiàn)代情報(bào),2009,29(7).

篇4

0引言

近幾年,隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展和對(duì)人們工作生活的不斷滲透,隨著移動(dòng)互聯(lián)、物聯(lián)網(wǎng)、云計(jì)算、智慧工程等新興信息技術(shù)的出現(xiàn)和普及,數(shù)據(jù)在人們的生活中呈爆炸式增長(zhǎng),人們開始進(jìn)入大數(shù)據(jù)時(shí)代。由于海量數(shù)據(jù)中記錄了企業(yè)的發(fā)展、運(yùn)營(yíng)以及人們生活和行為的點(diǎn)點(diǎn)滴滴,所以,挖掘海量數(shù)據(jù)背后存在的模式、規(guī)律和趨勢(shì),并結(jié)合各行各業(yè)進(jìn)行創(chuàng)新應(yīng)用,已經(jīng)成為這個(gè)時(shí)代的重要課題。我國(guó)電子商務(wù)經(jīng)過近20年的發(fā)展和數(shù)據(jù)累積,已經(jīng)從用戶為王、銷售為王進(jìn)入到數(shù)據(jù)為王的階段,如何針對(duì)用戶消費(fèi)行為的分析,提升電子商務(wù)的運(yùn)營(yíng)效率,促進(jìn)精準(zhǔn)營(yíng)銷的開展,增加客戶黏性,從而實(shí)現(xiàn)電子商務(wù)的智能化發(fā)展,是當(dāng)前電子商務(wù)發(fā)展的重中之重。因此,在大數(shù)據(jù)背景下,為適應(yīng)行業(yè)發(fā)展需求,國(guó)內(nèi)外很多高校,尤其是應(yīng)用型本科院校,在電子商務(wù)專業(yè)本科生中陸續(xù)開設(shè)大數(shù)據(jù)分析與挖掘系列的課程,其中作為大數(shù)據(jù)研究與應(yīng)用的重要支撐技術(shù)的數(shù)據(jù)挖掘,是其中一門重要課程。

1電子商務(wù)專業(yè)開設(shè)數(shù)據(jù)挖掘課程的必要性

1.1行業(yè)發(fā)展的必然要求

進(jìn)入大數(shù)據(jù)時(shí)代,“互聯(lián)網(wǎng)+”技術(shù)與傳統(tǒng)行業(yè)深度融合,電子商務(wù)數(shù)據(jù)已覆蓋了從用戶、商家、第三方、物流等一系列商務(wù)環(huán)節(jié)。因此,充分利用大數(shù)據(jù),有效分析和挖掘大數(shù)據(jù)的價(jià)值和規(guī)律,已成為推動(dòng)電子商務(wù)深化發(fā)展的重要引擎。首先,數(shù)據(jù)挖掘技術(shù)是電子商務(wù)智能化的基礎(chǔ)。由于電子商務(wù)的活動(dòng)從開始就具備了信息電子化的先天優(yōu)勢(shì),所以,用戶在電子商務(wù)網(wǎng)站上發(fā)生的所有行為信息都被日志記錄,包括用戶對(duì)產(chǎn)品的搜索、瀏覽、在購(gòu)物車加入或取出商品、收藏產(chǎn)品、對(duì)商品的討論、評(píng)價(jià)、分享等。對(duì)這些用戶行為信息進(jìn)行收集和分析,可以挖掘用戶的興趣特征和潛在需求,實(shí)現(xiàn)對(duì)用戶的個(gè)性化推薦。其次,數(shù)據(jù)挖掘技術(shù)支撐電子商務(wù)的精細(xì)化營(yíng)銷的實(shí)現(xiàn)。通過網(wǎng)絡(luò)爬蟲收集用戶在消費(fèi)過程種對(duì)商品的興趣、偏好、評(píng)價(jià)等數(shù)據(jù),并進(jìn)行分析挖掘,可以更好地對(duì)用戶進(jìn)行細(xì)分,針對(duì)性地制定營(yíng)銷策略,更準(zhǔn)確地把握用戶態(tài)度和對(duì)產(chǎn)品的情感傾向,及時(shí)控制營(yíng)銷中的不良影響,從而提升用戶體驗(yàn)和用戶黏性。第三,數(shù)據(jù)挖掘技術(shù)推動(dòng)電商物流的優(yōu)化。通過對(duì)電商物流數(shù)據(jù)的分析和挖掘,可以預(yù)測(cè)市場(chǎng)需求變化的規(guī)律,幫助企業(yè)合理地進(jìn)行庫(kù)存管理和控制,優(yōu)化配送路線,進(jìn)行物流中心選址策略分析等。可見,對(duì)于電子商務(wù)專業(yè)大學(xué)生開設(shè)數(shù)據(jù)挖掘課程是行業(yè)發(fā)展的必然需求。

1.2專業(yè)人才培養(yǎng)的迫切需求

電子商務(wù)是利用信息和通信技術(shù),通過Internet在個(gè)人、組織和企業(yè)之間進(jìn)行商務(wù)活動(dòng)和處理商務(wù)關(guān)系的一種活動(dòng)。隨著云計(jì)算、物聯(lián)網(wǎng)及移動(dòng)互聯(lián)等新興信息技術(shù)的迅速發(fā)展,大量傳感器和監(jiān)控設(shè)備不間斷的數(shù)據(jù)采集和行業(yè)數(shù)據(jù)的持續(xù)積累,使大數(shù)據(jù)成為時(shí)代的鮮明特點(diǎn)。教育部電子商務(wù)專業(yè)教學(xué)指導(dǎo)委員會(huì)王偉軍教授等人對(duì)138個(gè)電子商務(wù)專業(yè)本科人才的市場(chǎng)招聘需求進(jìn)行研究發(fā)現(xiàn),網(wǎng)絡(luò)營(yíng)銷與數(shù)據(jù)分析是當(dāng)前電子商務(wù)專業(yè)的主要能力需求,而目前我國(guó)開設(shè)電子商務(wù)專業(yè)的高校中開設(shè)數(shù)據(jù)挖掘及其相關(guān)課程的只有14所。因此,該類別人才缺口目前較為嚴(yán)重,市場(chǎng)需求量較大。為了適應(yīng)時(shí)展需求,高校在人才培養(yǎng)時(shí)既要注重電子商務(wù)運(yùn)營(yíng)管理能力的培養(yǎng),同時(shí)更要注意商務(wù)數(shù)據(jù)分析與挖掘能力培養(yǎng)。培養(yǎng)同時(shí)具備這兩種能力,并且可以將兩種能力有效結(jié)合起來的應(yīng)用型人才,是當(dāng)前高校電子商務(wù)專業(yè)發(fā)展的趨勢(shì)和方向。總之,在當(dāng)前的電子商務(wù)活動(dòng)中,商務(wù)管理是核心,數(shù)據(jù)分析與挖掘是手段。在大數(shù)據(jù)背景下,要提升電子商務(wù)的管理效率,實(shí)現(xiàn)電子商務(wù)的智能化發(fā)展,必須應(yīng)用好數(shù)據(jù)挖掘這把利器。因此,在電子商務(wù)專業(yè)開設(shè)數(shù)據(jù)挖掘課程,是行業(yè)發(fā)展的必然要求,也是專業(yè)發(fā)展的迫切要求。

2電子商務(wù)專業(yè)數(shù)據(jù)挖掘課程教學(xué)思路設(shè)計(jì)

數(shù)據(jù)挖掘是一門交叉學(xué)科,涉及統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫(kù)、機(jī)器學(xué)習(xí)、高性能計(jì)算等多門學(xué)科相關(guān)內(nèi)容,要求學(xué)生具有較為扎實(shí)的基礎(chǔ)知識(shí)。由于課程難度較大,早期高校都把該課程作為研究生的專業(yè)課程。為適應(yīng)市場(chǎng)需求和行業(yè)發(fā)展,近年來,也有些高校將此課作為本科生高年級(jí)選修課開設(shè)。從該課程的傳統(tǒng)教學(xué)上來看,由于學(xué)生理論基礎(chǔ)不夠扎實(shí),課程教學(xué)又多側(cè)重算法的分析與實(shí)現(xiàn),導(dǎo)致該課程存在教學(xué)難度大、理論教學(xué)過多、學(xué)習(xí)興趣難以提高等問題。考慮到傳統(tǒng)教學(xué)的問題以及電子商務(wù)專業(yè)培養(yǎng)應(yīng)用型本科人才的實(shí)際情況,筆者認(rèn)為該課程在教學(xué)過程中應(yīng)“輕算法,重應(yīng)用”,以啟發(fā)學(xué)生數(shù)據(jù)思維為主,以理解算法思路為主(忽略細(xì)節(jié)實(shí)現(xiàn)),以合理構(gòu)建數(shù)據(jù)挖掘模型、正確解讀數(shù)據(jù)挖掘結(jié)果為主。在組織教學(xué)時(shí),采用基于場(chǎng)景的啟發(fā)式教學(xué)方式。該課程在講授每個(gè)數(shù)據(jù)挖掘方法時(shí),都通過一個(gè)電子商務(wù)問題進(jìn)行導(dǎo)入;通過本節(jié)所授方法,形成解決問題的思路;最后通過專門數(shù)據(jù)挖掘軟件進(jìn)行方法的應(yīng)用,通過對(duì)挖掘結(jié)果的解讀分析,為導(dǎo)入問題的決策分析提供依據(jù)。通過這種由淺入深,由易到難的方式,引起學(xué)生學(xué)習(xí)興趣,激發(fā)學(xué)生主動(dòng)思考,真正成為課堂的主體。實(shí)踐環(huán)節(jié)是學(xué)生理論聯(lián)系實(shí)際的關(guān)鍵步驟,選用合適的數(shù)據(jù)挖掘軟件工具非常重要,對(duì)于電子商務(wù)專業(yè)的學(xué)生,數(shù)據(jù)挖掘重在問題的建模和方法的應(yīng)用,所以,該課程選擇的數(shù)據(jù)挖掘工具是IBM公司的SPSSModeler。SPSSModeler擁有豐富的數(shù)據(jù)挖掘算法,本課程涉及到的分類、聚類、關(guān)聯(lián)分析、時(shí)序分析、社會(huì)網(wǎng)絡(luò)分析挖掘等主要數(shù)據(jù)挖掘功能均可實(shí)現(xiàn),而且其操作簡(jiǎn)單易用,分析結(jié)果直觀易懂,可以使用戶方便快捷地實(shí)現(xiàn)數(shù)據(jù)挖掘。學(xué)生通過對(duì)算法基本思路的了解,針對(duì)實(shí)驗(yàn)問題設(shè)計(jì)數(shù)據(jù)挖掘方案,并通過數(shù)據(jù)挖掘軟件進(jìn)行算法的應(yīng)用和結(jié)果的分析,理論和時(shí)間的順利銜接,進(jìn)一步加深學(xué)生對(duì)數(shù)據(jù)挖掘方法的認(rèn)識(shí)和理解。

3電子商務(wù)專業(yè)數(shù)據(jù)挖掘課程教學(xué)內(nèi)容設(shè)計(jì)

數(shù)據(jù)挖掘課程主要講解數(shù)據(jù)挖掘的基本概念、主要方法和技術(shù)、應(yīng)用情況及發(fā)展趨勢(shì),目的在于啟發(fā)學(xué)生的數(shù)據(jù)思維,提升學(xué)生數(shù)據(jù)分析與挖掘的能力,深入理解電子商務(wù)數(shù)據(jù)在電子商務(wù)中的重要地位和作用,實(shí)現(xiàn)商務(wù)管理和數(shù)據(jù)挖掘的有機(jī)結(jié)合。由于數(shù)據(jù)挖掘課程理論性和應(yīng)用性均較強(qiáng),反映在教學(xué)要求上,既要重視理論學(xué)習(xí),又要重視實(shí)踐環(huán)節(jié)。具體來說,就是一方面通過理論教學(xué)使學(xué)生對(duì)理論內(nèi)容有較深入的理解和領(lǐng)悟;另一方面結(jié)合實(shí)踐教學(xué),鼓勵(lì)學(xué)生多動(dòng)手,多思考,綜合運(yùn)用所學(xué)知識(shí)分析和解決實(shí)際問題。

3.1理論教學(xué)設(shè)計(jì)

針對(duì)大數(shù)據(jù)時(shí)代的數(shù)據(jù)特點(diǎn)和應(yīng)用特點(diǎn),在數(shù)據(jù)挖掘課程的理論教學(xué)設(shè)計(jì)時(shí),其內(nèi)容不僅包括傳統(tǒng)的基礎(chǔ)性的分類、聚類、關(guān)聯(lián)分析、時(shí)序分析等數(shù)據(jù)挖掘方法,還注重根據(jù)電子商務(wù)行業(yè)特點(diǎn)進(jìn)行知識(shí)的拓展介紹,比如在將關(guān)聯(lián)分析的時(shí)候,除了傳統(tǒng)的購(gòu)物籃分析,還增加了序列模式分析內(nèi)容;比如在結(jié)合社會(huì)化電子商務(wù)的發(fā)展,對(duì)社會(huì)網(wǎng)絡(luò)分析、文本挖掘等前沿?cái)?shù)據(jù)挖掘知識(shí)也進(jìn)行了一定的拓展介紹。這些拓展內(nèi)容,不但豐富了學(xué)生的知識(shí)體系,也為部分學(xué)生的課下深度擴(kuò)展指明了方向。我校電子商務(wù)專業(yè)的數(shù)據(jù)挖掘課程總學(xué)時(shí)為48學(xué)時(shí),其中理論教學(xué)32學(xué)時(shí),主要內(nèi)容及其學(xué)時(shí)分配如表1所示。表1數(shù)據(jù)挖掘課程理論教學(xué)安排序號(hào)章節(jié)標(biāo)題內(nèi)容提要學(xué)時(shí)1數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘基本概念與功能;基本流程與步驟;基本方法與應(yīng)用;拓展:數(shù)據(jù)庫(kù),數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘的關(guān)系22數(shù)據(jù)預(yù)處理數(shù)據(jù)清洗;數(shù)據(jù)的集成與轉(zhuǎn)換23分類分析決策樹分類;貝葉斯分類;分類特點(diǎn)及結(jié)果分析64聚類分析K-means聚類;兩步聚類;聚類特點(diǎn)與結(jié)果分析65關(guān)聯(lián)分析頻繁項(xiàng)集;關(guān)聯(lián)規(guī)則挖掘;關(guān)聯(lián)分析效果評(píng)價(jià);拓展:序列模式分析86時(shí)序分析移動(dòng)平均模型;指數(shù)平滑模型;拓展:ARIMA模型67數(shù)據(jù)挖掘發(fā)展趨勢(shì)社會(huì)網(wǎng)絡(luò)分析;文本挖掘;Web挖掘2理論教學(xué)在組織時(shí),基本上以“課堂引例-問題分析-算法思路講解-課后練習(xí)”的方式展開。通過實(shí)例分析,給學(xué)生介紹各種算法的基本思想和相關(guān)概念,引起學(xué)生學(xué)習(xí)興趣。在講授算法時(shí),通過具體的簡(jiǎn)單數(shù)據(jù)演算實(shí)例來分析數(shù)據(jù)挖掘的過程和結(jié)果,使學(xué)生在實(shí)際案例中明白數(shù)據(jù)挖掘算法在處理數(shù)據(jù)過程中的作用和意義。雖然該課程開設(shè)在電子商務(wù)專業(yè)的第六學(xué)期,但是,由于數(shù)據(jù)挖掘課程本身需要多個(gè)學(xué)科的基礎(chǔ)知識(shí),在目前的大學(xué)課程體系內(nèi),難以在有限的時(shí)間內(nèi)開設(shè)全部先修課程。因此,在理論講解時(shí),對(duì)涉及到學(xué)生比較生疏的知識(shí)點(diǎn),應(yīng)根據(jù)學(xué)生的知識(shí)水平,予以補(bǔ)充說明。例如,在講決策樹分類時(shí),對(duì)于信息論中信息熵基本概念和計(jì)算方法,可以結(jié)合實(shí)際數(shù)據(jù)集合,進(jìn)行講解和計(jì)算。

3.2實(shí)驗(yàn)教學(xué)設(shè)計(jì)

數(shù)據(jù)挖掘是一門緊密結(jié)合實(shí)際應(yīng)用的課程,具有較強(qiáng)的實(shí)踐性。實(shí)踐教學(xué)環(huán)節(jié)中,首先教師講解實(shí)驗(yàn)步驟,然后安排學(xué)生進(jìn)行實(shí)驗(yàn),并對(duì)實(shí)驗(yàn)結(jié)果做詳細(xì)分析與評(píng)價(jià)。每個(gè)實(shí)驗(yàn)要求學(xué)生完成以下幾方面的內(nèi)容:(1)根據(jù)實(shí)驗(yàn)問題設(shè)計(jì)數(shù)據(jù)挖掘方案和實(shí)施流程;(2)進(jìn)行數(shù)據(jù)預(yù)處理,并構(gòu)建數(shù)據(jù)挖掘模型;(3)解讀數(shù)據(jù)挖掘結(jié)果,并聯(lián)系實(shí)驗(yàn)問題進(jìn)行具體分析;(4)實(shí)驗(yàn)拓展與總結(jié)。在實(shí)驗(yàn)拓展和總結(jié)部分,可以設(shè)計(jì)一些開放性的題目,比如在進(jìn)行關(guān)聯(lián)分析時(shí),可以設(shè)計(jì)這樣的問題“如果支持度閾值設(shè)置時(shí)降低十個(gè)百分點(diǎn),頻繁項(xiàng)集會(huì)有哪些變化?關(guān)聯(lián)規(guī)則的準(zhǔn)確性和適用性會(huì)有哪些方面的變化?”。在實(shí)驗(yàn)環(huán)境下,學(xué)生可以通過對(duì)比實(shí)驗(yàn),比較容易得到結(jié)果,而在總結(jié)這些變化規(guī)律時(shí),又可以強(qiáng)化和鞏固對(duì)關(guān)聯(lián)規(guī)則、頻繁項(xiàng)集、支持度、置信度等這些概念和指標(biāo)意義的理解,從而更好的應(yīng)用在以后的工作實(shí)踐中。結(jié)合電子商務(wù)活動(dòng)特點(diǎn)以及數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用,該課程的實(shí)驗(yàn)是16學(xué)時(shí)。在實(shí)驗(yàn)設(shè)計(jì)時(shí),共設(shè)計(jì)了五個(gè)單人實(shí)驗(yàn)和一個(gè)綜合性多人實(shí)驗(yàn).由于使用數(shù)據(jù)挖掘技術(shù)處理實(shí)際問題時(shí),很多時(shí)候需要綜合運(yùn)用一些數(shù)據(jù)挖掘方法,其設(shè)計(jì)方案不止一種,分析結(jié)果也不一定完全一致。為激發(fā)學(xué)生的主觀能動(dòng)性,本課程在最后需要每個(gè)小組共同完成一個(gè)綜合性的數(shù)據(jù)挖掘作業(yè)。研究表明,對(duì)于本科生來說,指導(dǎo)教師給出一些具體的題目,如大學(xué)生消費(fèi)狀況預(yù)測(cè)、校園共享單車滿意度分析等,這些熱點(diǎn)問題更容易激發(fā)學(xué)生的學(xué)習(xí)興趣。綜合作業(yè)從數(shù)據(jù)挖掘方案的設(shè)計(jì)、數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)建模、結(jié)果分析以及報(bào)告撰寫全部由小組成員協(xié)作完成,通過這樣一個(gè)完整的分析問題、解決問題的過程,不但可以鍛煉學(xué)生綜合應(yīng)用知識(shí)的能力,也可以鍛煉學(xué)生的溝通寫作能力。在綜合性作業(yè)完成的過程中,教師需要給予一定的指導(dǎo),例如教師可以介紹問卷星等網(wǎng)絡(luò)調(diào)查平臺(tái)或網(wǎng)絡(luò)爬蟲等工具幫助學(xué)生進(jìn)行原始數(shù)據(jù)的采集;通過對(duì)數(shù)據(jù)挖掘方案的點(diǎn)評(píng),幫助學(xué)生更合理的選取數(shù)據(jù)分析指標(biāo),設(shè)計(jì)數(shù)據(jù)挖掘方案;通過報(bào)告撰寫指導(dǎo),幫助學(xué)生規(guī)范化的總結(jié)實(shí)驗(yàn)分析結(jié)果。

4結(jié)論

大數(shù)據(jù)時(shí)代的電子商務(wù)活動(dòng)中,對(duì)電子商務(wù)人才的數(shù)據(jù)挖掘和分析能力非常迫切,在電子商務(wù)專業(yè)中開設(shè)數(shù)據(jù)挖掘課程是行業(yè)發(fā)展和專業(yè)發(fā)展的必然要求。在電子商務(wù)專業(yè)開設(shè)數(shù)據(jù)挖掘課程既有別于研究生也有別于計(jì)算機(jī)等理工科專業(yè),“輕算法,重應(yīng)用”,以提升學(xué)生主動(dòng)學(xué)習(xí)興趣為導(dǎo)向,采用基于場(chǎng)景的啟發(fā)式教學(xué)方法更合適。本文從教學(xué)思路、教學(xué)方法、教學(xué)內(nèi)容等方面進(jìn)行了思考和探索,經(jīng)課程開設(shè)兩年來的教學(xué)實(shí)踐證明,學(xué)生在學(xué)習(xí)上的主觀能動(dòng)性得到了一定的體現(xiàn),理論和實(shí)踐相結(jié)合的能力得到了鍛煉。激發(fā)學(xué)生學(xué)習(xí)興趣,培養(yǎng)學(xué)生的主動(dòng)性思維,是當(dāng)前教學(xué)中的重要課題,在電商行業(yè)不斷發(fā)展的過程中,如何更好的將最新行業(yè)問題融入教學(xué)過程,實(shí)現(xiàn)理論和實(shí)踐的有機(jī)結(jié)合,需要我們進(jìn)一步深入思考和探索。

參考文獻(xiàn)

[1]馮然,陳欣.論數(shù)據(jù)分析類課程在電子商務(wù)專業(yè)設(shè)置中的重要性[J].河南教育,2015,(2).

[2]黃嵐.?dāng)?shù)據(jù)挖掘課程實(shí)踐教學(xué)資源庫(kù)建設(shè)[J].計(jì)算機(jī)教育,2014,(12).

[3]薛薇.基于SPSSModeler的數(shù)據(jù)挖掘(2版)[M].中國(guó)人民大學(xué)出版社,2014.

[4]李海林.大數(shù)據(jù)環(huán)境下的數(shù)據(jù)挖掘課程教學(xué)探索[J].計(jì)算機(jī)時(shí)代,2014,(2).

篇5

中圖分類號(hào):G4

文獻(xiàn)標(biāo)識(shí)碼:A

doi:10.19311/ki.1672-3198.2016.29.119

隨著高校教學(xué)信息化的不斷進(jìn)步,教學(xué)管理過程中積累了大量的數(shù)據(jù)。但這些數(shù)據(jù)只是簡(jiǎn)單的業(yè)務(wù)統(tǒng)計(jì),并未進(jìn)行整理和分析。教學(xué)評(píng)價(jià)是教學(xué)質(zhì)量監(jiān)控體系的重要內(nèi)容之一,如何把握其內(nèi)涵以及最終的目的,是教學(xué)實(shí)踐過程中的難點(diǎn)之一。充分應(yīng)用數(shù)據(jù)挖掘技術(shù)能夠?qū)虒W(xué)評(píng)價(jià)過程中的大量數(shù)據(jù)進(jìn)行加工處理,從而為教學(xué)管理人員提供正確的決策,促進(jìn)教學(xué)質(zhì)量的提升。教學(xué)評(píng)價(jià)的科學(xué)性對(duì)于教學(xué)質(zhì)量的提高具有重要意義,因此利用數(shù)據(jù)挖掘技術(shù)對(duì)教學(xué)評(píng)價(jià)的數(shù)據(jù)進(jìn)行分析,能夠有效提高高職院校的教學(xué)質(zhì)量。

1 高職院校教學(xué)評(píng)價(jià)現(xiàn)狀

高職院校教學(xué)評(píng)價(jià)主要是教務(wù)處對(duì)每個(gè)學(xué)期教師的教學(xué)質(zhì)量進(jìn)行評(píng)估,一方面教務(wù)處將評(píng)價(jià)表發(fā)放給學(xué)生或是網(wǎng)絡(luò)評(píng)價(jià),學(xué)生根據(jù)教學(xué)質(zhì)量評(píng)價(jià)表中的內(nèi)容給教師評(píng)分;另一方面教學(xué)督導(dǎo)和同行聽課后給出相應(yīng)的評(píng)價(jià),最終形成教師的教學(xué)評(píng)價(jià)最后得分。教務(wù)處將教師的得分進(jìn)行排名,并確定考核的等級(jí)。這種傳統(tǒng)的教學(xué)評(píng)價(jià)對(duì)于教學(xué)質(zhì)量的提高具有一定的作用,但是仍然存在諸多弊端,影響評(píng)價(jià)的準(zhǔn)確性。近年來高職院校越來越重視對(duì)教學(xué)的評(píng)價(jià),但教學(xué)評(píng)價(jià)缺乏一定的科學(xué)性。

1.1 對(duì)教學(xué)評(píng)價(jià)的認(rèn)識(shí)模糊

近年來,高職院校雖然越來越重視對(duì)教學(xué)的評(píng)價(jià),但是對(duì)教學(xué)評(píng)價(jià)的意義、教學(xué)評(píng)價(jià)在教學(xué)管理中的作用認(rèn)識(shí)仍比較模糊。當(dāng)前部分高職院校的教學(xué)評(píng)價(jià)還停留在初級(jí)階段,沒有意識(shí)到科學(xué)的教學(xué)評(píng)價(jià)在教學(xué)管理中的重要性,因此教學(xué)評(píng)價(jià)指標(biāo)的科學(xué)性有待進(jìn)一步完善。

1.2 教學(xué)評(píng)價(jià)理論薄弱

很多教學(xué)管理者對(duì)教學(xué)評(píng)價(jià)的理論知識(shí)比較薄弱,同時(shí)高職院校與專業(yè)的研究機(jī)構(gòu)缺乏足夠的合作,致使教學(xué)評(píng)價(jià)理論缺乏系統(tǒng)性,教學(xué)評(píng)價(jià)理論難以發(fā)揮應(yīng)有的作用。很多高職院校教學(xué)評(píng)價(jià)工作人員并未接受過專業(yè)的評(píng)價(jià)理論培訓(xùn),導(dǎo)致教學(xué)評(píng)價(jià)只是停留在表面,難以向深層次推進(jìn)。

1.3 教學(xué)評(píng)價(jià)手段比較落后

高職院校目前采用的教學(xué)評(píng)價(jià)手段比較單一,評(píng)價(jià)技術(shù)相對(duì)落后。雖然很多院校開始采用模糊數(shù)學(xué)的方法進(jìn)行評(píng)價(jià),也取得了長(zhǎng)足的進(jìn)步,但是教學(xué)評(píng)價(jià)還是沿用現(xiàn)成的技術(shù),并沒有根據(jù)自身的特點(diǎn)進(jìn)行創(chuàng)新和改進(jìn)。

2 數(shù)據(jù)挖掘的分類與算法

2.1 數(shù)據(jù)挖掘技術(shù)的分類

2.1.1 根據(jù)任務(wù)分類

根據(jù)數(shù)據(jù)挖掘技術(shù)的任務(wù)進(jìn)行分類,主要包括分類模型數(shù)據(jù)挖掘、總結(jié)、聚類、關(guān)聯(lián)規(guī)則、序列發(fā)現(xiàn)以及依賴模型和異常發(fā)現(xiàn)等。

2.1.2 根據(jù)方法分類

根據(jù)數(shù)據(jù)挖掘技術(shù)的方法進(jìn)行分類,主要分為分類算法、關(guān)聯(lián)規(guī)則算法、最近距離算法和支撐向量機(jī)算法。

決策樹分類法是應(yīng)用最為廣泛的算法,采用自上而下的歸納方法來總結(jié)數(shù)據(jù)規(guī)律,決策樹的數(shù)據(jù)總結(jié)清晰明了,并且每個(gè)節(jié)點(diǎn)都使用信息增益度量來選擇測(cè)試屬性。簡(jiǎn)單講,這種方法就是以樹形結(jié)構(gòu)來體現(xiàn)大數(shù)據(jù)的特點(diǎn)和挖掘結(jié)果。決策樹具有多種算法,較早的如Quinlan在1986年提出的ID3算法和Leo-Breiman所提出的CART算法。決策樹算法將數(shù)據(jù)有原則的進(jìn)行分類,剔除無用或者用處不大的信息,從而實(shí)現(xiàn)大數(shù)據(jù)整理的高效性,在預(yù)測(cè)模型中應(yīng)用廣泛。所謂關(guān)聯(lián)規(guī)則算法是通過數(shù)據(jù)之間的關(guān)聯(lián)性建立一張關(guān)系網(wǎng),從而找到解決某一問題的重要數(shù)據(jù)和條件,也就是通過對(duì)某種現(xiàn)象的檢測(cè)來獲得結(jié)果。關(guān)聯(lián)規(guī)則算法使大數(shù)據(jù)清晰化,能夠顯示有用結(jié)果,減少統(tǒng)計(jì)時(shí)間。同時(shí),該方法支持間接的數(shù)據(jù)挖掘和對(duì)變長(zhǎng)數(shù)據(jù)進(jìn)行處理,它計(jì)算的消耗量是可以預(yù)見的。最近距離法(KNN)的原理是以空間中的某個(gè)向量為樣本,與其相鄰的空間內(nèi)與其相似的向量的統(tǒng)計(jì)就可以用相同的方法來統(tǒng)一。該方法的優(yōu)勢(shì)在于避免了其它方法的樣本不平衡狀態(tài)。由于該方法主要是依靠周邊鄰近的樣本,樣本數(shù)量有限,不能通過由判別類域的方法來確定類別,所以常用于樣本之間重疊或交叉較多的空間。支撐向量法是建立在統(tǒng)計(jì)學(xué)理論的基礎(chǔ)上的,靠機(jī)器來完成,是現(xiàn)代智能化統(tǒng)計(jì)的雛形。其原理在于將給定的有限的數(shù)理訓(xùn)練樣本進(jìn)行準(zhǔn)確無誤的折衷,從而提高的推廣能力。

2.2 數(shù)據(jù)挖掘的過程

數(shù)據(jù)挖掘其實(shí)就是不斷的反饋,其重要包括數(shù)據(jù)準(zhǔn)備階段、數(shù)據(jù)挖掘階段以及評(píng)估和表示階段。

2.2.1 數(shù)據(jù)準(zhǔn)備階段

數(shù)據(jù)挖掘技術(shù)應(yīng)用的前提是準(zhǔn)備數(shù)據(jù),教師教學(xué)質(zhì)量評(píng)價(jià)的所有數(shù)據(jù)均來自于系統(tǒng)數(shù)據(jù)庫(kù),所需數(shù)據(jù)主要有學(xué)生評(píng)價(jià)數(shù)據(jù)、同行評(píng)價(jià)數(shù)據(jù)、教師自評(píng)數(shù)據(jù)和專家評(píng)價(jià)數(shù)據(jù)等,這些數(shù)據(jù)的獲取可以直接提取數(shù)據(jù)庫(kù)表的內(nèi)容。另外,還要綜合調(diào)查問卷的數(shù)據(jù)。數(shù)據(jù)準(zhǔn)備完成后,需要對(duì)全部數(shù)據(jù)進(jìn)行預(yù)處理,使其滿足數(shù)據(jù)挖掘格式。

2.2.2 數(shù)據(jù)挖掘階段

依據(jù)數(shù)據(jù)的具體性質(zhì),選擇合適的處理技術(shù),常用的技術(shù)有聚類分析、歸納技術(shù)、關(guān)聯(lián)技術(shù)以及神經(jīng)元網(wǎng)絡(luò)等技術(shù),常用的算法有BP算法、ID3算法等。然后使用選擇的技術(shù)和算法對(duì)數(shù)據(jù)進(jìn)行挖掘。

2.2.3 評(píng)估和表示階段

將教學(xué)評(píng)價(jià)的原始數(shù)據(jù),利用數(shù)據(jù)挖掘技術(shù)轉(zhuǎn)換為更加容易理解、關(guān)系明確的形式,采用統(tǒng)計(jì)學(xué)方法評(píng)價(jià)數(shù)據(jù)分析的結(jié)果,進(jìn)而獲得最佳的模式,同時(shí)還要預(yù)測(cè)可能發(fā)生的多種情況,為決策者提供多個(gè)方案。

3 數(shù)據(jù)挖掘技術(shù)在高職院校教學(xué)評(píng)價(jià)中的應(yīng)用

教學(xué)評(píng)價(jià)的任務(wù)就是通過科學(xué)的手段,構(gòu)建數(shù)據(jù)挖掘的模型,并將模型應(yīng)用到高職院校的教學(xué)管理中。教學(xué)評(píng)價(jià)模型要盡量降低人為因素的干擾,重新調(diào)整教學(xué)評(píng)價(jià)中的屬性權(quán)重。決策樹算法在商業(yè)領(lǐng)域應(yīng)用范圍較廣,并且成效明顯,但是目前在教學(xué)評(píng)價(jià)中的應(yīng)用還比較少,我們主要對(duì)決策樹算法的應(yīng)用進(jìn)行分析,構(gòu)建決策樹模型,將其具體應(yīng)用到高職院校的教學(xué)評(píng)價(jià)中。決策樹模型能夠在海量的數(shù)據(jù)中分析出可能影響學(xué)生、同行、專家評(píng)價(jià)結(jié)果的重要因素,能夠建立教師的教學(xué)行為和教學(xué)質(zhì)量之間的關(guān)系,進(jìn)而發(fā)現(xiàn)相應(yīng)的規(guī)律,為以后的教學(xué)評(píng)價(jià)服務(wù)。

3.1 數(shù)據(jù)挖掘技術(shù)在教學(xué)業(yè)績(jī)?cè)u(píng)價(jià)中的應(yīng)用

高職院校對(duì)于教學(xué)質(zhì)量的評(píng)價(jià)一直缺乏科學(xué)的評(píng)價(jià)方法,因此教學(xué)評(píng)價(jià)的結(jié)果缺乏合理性,教學(xué)評(píng)價(jià)的效果較差。數(shù)據(jù)挖掘技術(shù)的應(yīng)用,能夠構(gòu)建科學(xué)的、合理的教學(xué)質(zhì)量評(píng)價(jià)體系,并由專門的部門負(fù)責(zé)測(cè)評(píng),這樣教師教學(xué)質(zhì)量的評(píng)定就有了準(zhǔn)確性,進(jìn)而可以將教學(xué)等級(jí)作為評(píng)價(jià)的硬性指標(biāo),教師的晉級(jí)就有了理論依據(jù)。我們將其具體的應(yīng)用分析如下:

(1)在成績(jī)方面,多數(shù)高職院校是以期末成績(jī)和平時(shí)成績(jī)來評(píng)價(jià)學(xué)生,獎(jiǎng)勵(lì)結(jié)果多以獎(jiǎng)學(xué)金的形式出現(xiàn)。采用傳統(tǒng)的方式進(jìn)行評(píng)價(jià),只能單方面的靠成績(jī)的數(shù)字來評(píng)價(jià)學(xué)生,而應(yīng)用數(shù)據(jù)挖掘技術(shù)可以挖掘成績(jī)背后的影響因素,實(shí)現(xiàn)對(duì)比分析和全面分析。從而對(duì)學(xué)生的學(xué)習(xí)成績(jī)做出正確的評(píng)價(jià),并且在教學(xué)環(huán)節(jié)中采用必要對(duì)策。(2)在考試試題的出題中,數(shù)據(jù)挖掘技術(shù)能夠剖析學(xué)生的特點(diǎn),從而針對(duì)性的出題,幫助學(xué)生發(fā)現(xiàn)學(xué)習(xí)中存在的問題。(3)教學(xué)評(píng)價(jià)。這是我們研究的重點(diǎn),在這一過程中,教學(xué)評(píng)價(jià)源于教師,但是評(píng)價(jià)對(duì)象卻是學(xué)生。在傳統(tǒng)的評(píng)價(jià)中,我們往往忽視了對(duì)學(xué)生這一主體的作用,使用數(shù)據(jù)挖掘技術(shù)之后,評(píng)價(jià)的主體為學(xué)生,結(jié)合多種因素進(jìn)行評(píng)價(jià),從而根據(jù)學(xué)生的需求進(jìn)行教學(xué)方法與課程設(shè)置的改革。使學(xué)生的學(xué)習(xí)過程循序漸進(jìn),更容易進(jìn)入角色,提高學(xué)生學(xué)習(xí)的自信心。對(duì)影響學(xué)生的學(xué)習(xí)因素每個(gè)學(xué)期都要進(jìn)行分析,利用管理系統(tǒng)并結(jié)合數(shù)據(jù)挖掘技術(shù),就能更自如地完成教學(xué)改革,促進(jìn)教學(xué)質(zhì)量的提高。

3.2 數(shù)據(jù)挖掘技術(shù)在教學(xué)診斷中的應(yīng)用

教學(xué)評(píng)價(jià)能夠使教師明確自身教學(xué)目標(biāo)的合理性,教學(xué)方法和教學(xué)手段選擇是否科學(xué)合理,教學(xué)內(nèi)容的重點(diǎn)和難點(diǎn)是否清晰,進(jìn)而根據(jù)實(shí)際情況合理調(diào)整自身的教學(xué)策略,不斷改進(jìn)與完善教學(xué)方法。數(shù)據(jù)挖掘的結(jié)果可以使教師有針對(duì)性的解決教學(xué)中的問題,教學(xué)評(píng)價(jià)不僅僅要為教師的教學(xué)狀況進(jìn)行判斷,同時(shí)對(duì)于教學(xué)改革的方向也提出了明確的要求,其能夠引導(dǎo)教師樹立科學(xué)的教學(xué)觀和正確的質(zhì)量觀,使教師可以清楚自身的不足和今后的努力方向,督促教師不斷轉(zhuǎn)變教學(xué)思想,對(duì)教學(xué)的過程進(jìn)行改革,發(fā)揮教師自身的主觀能動(dòng)性和創(chuàng)新精神,最終實(shí)現(xiàn)有效的教學(xué)改革。

3.3 數(shù)據(jù)挖掘技術(shù)在教學(xué)管理中的應(yīng)用

教師教學(xué)質(zhì)量的評(píng)價(jià)主要由教學(xué)主管部門完成,因此教學(xué)主管部門要利用數(shù)據(jù)挖掘技術(shù)科學(xué)的收集數(shù)據(jù),并選擇合適的算法進(jìn)行分析和處理,通過數(shù)據(jù)庫(kù)資料分析出提升教學(xué)質(zhì)量的關(guān)鍵因素,然后將這些因素反饋給高職院校管理層。教學(xué)管理人員根據(jù)數(shù)據(jù)挖掘分析的結(jié)果可以及時(shí)制定正確的改進(jìn)措施,進(jìn)而發(fā)揮教學(xué)管理的功能。教學(xué)評(píng)價(jià)結(jié)果對(duì)其他教師具有良好的借鑒作用,有利于不斷提高教學(xué)質(zhì)量。

4 總結(jié)

教學(xué)評(píng)價(jià)是高職院校教學(xué)管理的重要組成部分,對(duì)我國(guó)高職院校教學(xué)質(zhì)量的提高具有十分重要的作用。數(shù)據(jù)挖掘技術(shù)是信息化發(fā)展的產(chǎn)物,它能夠處理海量的數(shù)據(jù)信息,提取出信息之間的關(guān)聯(lián),發(fā)現(xiàn)相應(yīng)的規(guī)律,以此來服務(wù)于教學(xué)評(píng)價(jià)。數(shù)據(jù)挖掘技術(shù)通過不同的算法,可以找出影響教學(xué)質(zhì)量的因素,進(jìn)而使決策者可以指定正確的決策,提升高職院校的教學(xué)質(zhì)量。因此高職院校在教學(xué)評(píng)價(jià)工作中,要加大數(shù)據(jù)挖掘技術(shù)的應(yīng)用,使教學(xué)評(píng)價(jià)能夠更好的為提升教學(xué)質(zhì)量服務(wù)。

參考文獻(xiàn)

[1]董琳.數(shù)據(jù)挖掘技術(shù)在高職院教學(xué)評(píng)價(jià)中的應(yīng)用研究[J].電腦知識(shí)與技術(shù),2013,(4).

[2]江敏,徐艷.數(shù)據(jù)挖掘技術(shù)在高校教學(xué)管理中的應(yīng)用[J].電腦知識(shí)與技術(shù),2012,(8).

[3]呂慎敏.基于數(shù)據(jù)挖掘的高校教學(xué)管理決策支持系統(tǒng)研究[D].濟(jì)南:山東師范大學(xué),2012,(6).

篇6

關(guān)鍵字:數(shù)據(jù)挖掘;XML;電子商務(wù)

數(shù)據(jù)挖掘技術(shù)是數(shù)據(jù)庫(kù)應(yīng)用研究較為活躍的領(lǐng)域之一,因?yàn)槠洮F(xiàn)實(shí)意義,使得數(shù)據(jù)挖掘的技術(shù)研究和應(yīng)用有了很大的發(fā)展,在國(guó)內(nèi)外科研領(lǐng)域都備受關(guān)注。特別是在電子商務(wù)領(lǐng)域數(shù)據(jù)挖掘技術(shù)有著巨大的使用價(jià)值。隨著電子商務(wù)市場(chǎng)的日臻成熟,第三方電子商務(wù)平臺(tái)上眾多的網(wǎng)店之間的競(jìng)爭(zhēng)正日益激烈,網(wǎng)店開展網(wǎng)絡(luò)營(yíng)銷的成本日益增加。每個(gè)網(wǎng)店企業(yè)通過一定時(shí)間的經(jīng)營(yíng)都會(huì)收集到眾多的客戶數(shù)據(jù),如何通過龐大的客戶訪問數(shù)據(jù)挖掘出潛在的客戶需求的金礦,使網(wǎng)店經(jīng)營(yíng)企業(yè)快速有效的通過現(xiàn)有客戶數(shù)據(jù)掌握市場(chǎng)的變化的規(guī)律和趨勢(shì),已經(jīng)成為網(wǎng)店經(jīng)營(yíng)管理者急需解決的問題。本文將探討一種網(wǎng)店客戶數(shù)據(jù)挖掘系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)的方法。

1、網(wǎng)店客戶購(gòu)買數(shù)據(jù)挖掘系統(tǒng)的設(shè)計(jì)

1.1 客戶購(gòu)買數(shù)據(jù)挖掘系統(tǒng)的實(shí)現(xiàn)原理

對(duì)客戶數(shù)據(jù)進(jìn)行挖掘的關(guān)鍵要點(diǎn)就是把現(xiàn)有的網(wǎng)店訪問日志經(jīng)過數(shù)據(jù)預(yù)處理轉(zhuǎn)換成滿足XML文件格式要求的結(jié)構(gòu)化數(shù)據(jù),然后使用DBMS工具將結(jié)構(gòu)化的XML文件轉(zhuǎn)換成關(guān)系型數(shù)據(jù)庫(kù),最后運(yùn)用數(shù)據(jù)挖掘的方法從數(shù)據(jù)庫(kù)抽取能夠反映客戶消費(fèi)和購(gòu)買行為的數(shù)據(jù)。具體工作過程如下:

1)確定數(shù)據(jù)來源(主要是顧客購(gòu)買記錄)

數(shù)據(jù)挖掘離不開海量的數(shù)據(jù),每一個(gè)網(wǎng)店在經(jīng)營(yíng)一段時(shí)間以后都會(huì)記錄大量的客戶購(gòu)買記錄,這些客戶購(gòu)買記錄當(dāng)中就蘊(yùn)藏著大量的信息,這些信息我們進(jìn)行數(shù)據(jù)挖掘的數(shù)據(jù)來源。

2)進(jìn)行數(shù)據(jù)篩選

客戶購(gòu)買記錄中蘊(yùn)藏大量的信息不可能全部為數(shù)據(jù)挖掘的對(duì)象,從數(shù)據(jù)源中提取需要的數(shù)據(jù),將無用的數(shù)據(jù)和干擾信息從數(shù)據(jù)源中剝離,為進(jìn)一步的工作做準(zhǔn)備。

3)數(shù)據(jù)格式轉(zhuǎn)換

將進(jìn)一步篩選過的有挖掘價(jià)值的非格式化數(shù)據(jù)數(shù)據(jù)轉(zhuǎn)換為XML格式的文件并存儲(chǔ)。

4)導(dǎo)入數(shù)據(jù)庫(kù)

將表示客戶訪問數(shù)據(jù)的XML格式文件使用數(shù)據(jù)庫(kù)管理工具進(jìn)一步轉(zhuǎn)換成可以存儲(chǔ)于數(shù)據(jù)庫(kù)的關(guān)系型數(shù)據(jù)庫(kù)文件。[1]

5)進(jìn)行數(shù)據(jù)挖掘

應(yīng)用數(shù)據(jù)挖掘的相關(guān)算法,對(duì)存儲(chǔ)在關(guān)系型數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行挖掘,發(fā)現(xiàn)海量數(shù)據(jù)中隱藏的客戶行為模式和消費(fèi)趨勢(shì)。

6)對(duì)數(shù)據(jù)挖掘的結(jié)果進(jìn)行甄別

通過數(shù)據(jù)挖掘總結(jié)出的一些模式有時(shí)可能脫離客戶真實(shí)行為模式的實(shí)際,因此在最后一步需要為對(duì)數(shù)據(jù)挖掘總結(jié)出的規(guī)則進(jìn)行甄別,這個(gè)工作目前還需要有經(jīng)驗(yàn)的專家人工完成,今后考慮結(jié)合人工智能的技術(shù)加以解決。

1.2 網(wǎng)店客戶購(gòu)買數(shù)據(jù)挖掘系統(tǒng)模型

在上述系統(tǒng)設(shè)計(jì)的基礎(chǔ)之上,我們提出了網(wǎng)店客戶購(gòu)買數(shù)據(jù)挖掘系統(tǒng)的模型,該模型由三個(gè)層次組成,其邏輯架構(gòu)如圖一所示。

2、系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

2.1 系統(tǒng)開發(fā)與運(yùn)行環(huán)境

硬件環(huán)境:CPUIntelI3380M/RAM2G/硬盤320G軟件配置:

操作系統(tǒng):Windows7SP1

開發(fā)工具:Microsoft.NET2005/VisualC#

數(shù)據(jù)庫(kù)管理系統(tǒng):MSSQLServer2008

輔助軟件:spssClementine11.1;SQLServer2008AnalysisServices(SSAS)

2.2 主要技術(shù)與系統(tǒng)實(shí)現(xiàn)

通過對(duì)上述對(duì)客戶購(gòu)買數(shù)據(jù)挖掘系統(tǒng)模型的分析可知,該系統(tǒng)主要由用戶接口模塊、數(shù)據(jù)清洗模塊、數(shù)據(jù)格式轉(zhuǎn)換模塊、數(shù)據(jù)庫(kù)生成模塊和數(shù)據(jù)挖掘引擎模塊等組成。

1)用戶接口模塊

本系統(tǒng)最終目的還是為為客戶的決策提供支持,因此友好的界面設(shè)計(jì)是用戶與系統(tǒng)交互的基礎(chǔ)。簡(jiǎn)潔而易于理解的界面有利于提高用戶對(duì)系統(tǒng)的使用效率。

2)數(shù)據(jù)預(yù)處理模塊

客戶訪問數(shù)據(jù)進(jìn)入數(shù)據(jù)預(yù)處理模塊進(jìn)行清洗,去除無關(guān)的信息,剝離出對(duì)數(shù)據(jù)挖掘有價(jià)值的數(shù)據(jù)。數(shù)據(jù)預(yù)處理模塊對(duì)原始訪問數(shù)據(jù)進(jìn)行分析,將用戶購(gòu)買數(shù)據(jù)記錄逐條的分割成十個(gè)字段,分別為:u_id(訪問者編號(hào)),u_date(到訪日期),u_time(到訪時(shí)間),u_orderid(訂單編號(hào)),u_product(客戶購(gòu)買的商品),u_bowser(使用的瀏覽器類型),page(首次到訪頁(yè)面),place(客戶所在地區(qū)),payment(支付方式),logistic(物流方式),同時(shí)刪除訪問數(shù)據(jù)中與以上字段不相干的數(shù)據(jù)。然后將經(jīng)過預(yù)處理的數(shù)據(jù)存入中間文件。

3)XML轉(zhuǎn)換模塊

該模塊程序使用.NET的相關(guān)的方法編寫,主要功能將預(yù)處理過的客戶購(gòu)買數(shù)據(jù)轉(zhuǎn)換成標(biāo)準(zhǔn)化XML格式的數(shù)據(jù)文件進(jìn)行存儲(chǔ)。該程序的主要實(shí)現(xiàn)原理是對(duì)經(jīng)過預(yù)處理的中間文件中的數(shù)據(jù)記錄逐個(gè)分割并存入數(shù)組,然后將數(shù)組的內(nèi)容按照XML的格式寫入文件,完成轉(zhuǎn)換。

4)數(shù)據(jù)庫(kù)導(dǎo)入模塊

利用.NET的相關(guān)方法并結(jié)合數(shù)據(jù)庫(kù)管理工具建立支持?jǐn)?shù)據(jù)挖掘的客戶購(gòu)買數(shù)據(jù)庫(kù),編寫相關(guān)程序?qū)⒁呀?jīng)轉(zhuǎn)換成XML格式的客戶訪問數(shù)據(jù)逐條的導(dǎo)入到數(shù)據(jù)庫(kù)并形成日志數(shù)據(jù)表方便進(jìn)行后續(xù)的數(shù)據(jù)挖掘。

5)數(shù)據(jù)挖掘引擎模塊

數(shù)據(jù)挖掘引擎是實(shí)現(xiàn)客戶購(gòu)買數(shù)據(jù)挖掘系統(tǒng)的實(shí)現(xiàn)關(guān)鍵。優(yōu)秀的數(shù)據(jù)挖掘算法不僅可以使數(shù)據(jù)挖掘的結(jié)果更加準(zhǔn)確,也可以提高數(shù)據(jù)挖掘的效率。本系統(tǒng)主要用到的算法是該模塊利用數(shù)據(jù)挖掘算法對(duì)數(shù)據(jù)進(jìn)行挖掘,主要包括算法的優(yōu)化、日志數(shù)據(jù)表的刪除操作以及挖掘結(jié)果集的保存與刪除操作等。這里主要用到的算法是K-Means算法。主要是利用該算法發(fā)現(xiàn)最相似的客戶聚類,通過對(duì)聚類的分析來得出網(wǎng)店眾多的顧客一般的購(gòu)買行為模式,從而可以適當(dāng)?shù)卣{(diào)整網(wǎng)站營(yíng)銷的策略中的來提高網(wǎng)絡(luò)營(yíng)銷的效果,進(jìn)而增加銷售量。[2]

3、小結(jié)

本文主要討論了一種基于XML技術(shù)的網(wǎng)店客戶訪問數(shù)據(jù)挖掘系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)方法。通該系統(tǒng)可以幫助網(wǎng)店經(jīng)營(yíng)企業(yè)對(duì)大量的客戶訪問數(shù)據(jù)進(jìn)行分析,從中發(fā)現(xiàn)市場(chǎng)的變化規(guī)律和客戶的行為模式,使企業(yè)的網(wǎng)絡(luò)營(yíng)銷工作更有針對(duì)性,同時(shí)也更富有成效。

參考文獻(xiàn):

篇7

中圖分類號(hào)TP311.13 文獻(xiàn)標(biāo)識(shí)碼A 文章編號(hào) 1674-6708(2010)33-0257-02

1 數(shù)據(jù)挖掘的概念

隨著計(jì)算機(jī)技術(shù)的高速發(fā)展,互聯(lián)網(wǎng)技術(shù)的風(fēng)靡,獲得相關(guān)資料已經(jīng)是很方便了。但是人們也積累了大量的數(shù)據(jù)信息,面對(duì)這些龐大的數(shù)據(jù),如何從中提取有用的信息成為當(dāng)務(wù)之急,為此,數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生。數(shù)據(jù)挖掘(Data Mining)是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中提取隱含在其中的,人們事先不知道的,但又是潛在有用的信息和知識(shí)的過程。數(shù)據(jù)挖掘是發(fā)現(xiàn)知識(shí)的關(guān)鍵步驟。

2 數(shù)據(jù)挖掘的作用

2.1 關(guān)聯(lián)分析

關(guān)聯(lián)是反映兩個(gè)或者兩個(gè)以上事件之間存在某種依賴或聯(lián)系規(guī)律性。關(guān)聯(lián)規(guī)則挖掘是由Rakesh Apwal提出來的。在數(shù)據(jù)庫(kù)中,如果存在一項(xiàng)或多項(xiàng)之間的關(guān)聯(lián),則其中一項(xiàng)屬性值能夠依據(jù)其他屬性值進(jìn)行推測(cè)。關(guān)聯(lián)分為簡(jiǎn)單關(guān)聯(lián)、時(shí)序關(guān)聯(lián)和因果關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫(kù)中所有頻繁項(xiàng)目集,這是數(shù)據(jù)挖掘中最成熟的技術(shù)之一。例如:每天購(gòu)買洗發(fā)水的人也有可能購(gòu)買肥皂,比重有多大。

2.2 聚類分析

聚類分析是把數(shù)據(jù)按照所選樣本的關(guān)聯(lián)相似性劃分成若干小組,同一小組中的數(shù)據(jù)具有較高的相似度,不同組中的數(shù)據(jù)則相異,即同組中的相似性盡可能大,而組別間的相似性盡可能小。聚類事先不知道組別數(shù)和各組的相似特性。聚類分析可以發(fā)現(xiàn)數(shù)據(jù)的分布模式,以及可能的數(shù)據(jù)屬性之間的相互關(guān)系。例如:將學(xué)生分為成績(jī)優(yōu)秀的學(xué)生,成績(jī)中等的學(xué)生,成績(jī)差的學(xué)生。

2.3 分類

分類就是按照以前數(shù)據(jù)庫(kù)中的數(shù)據(jù),分析它們的屬性、特征,找出一個(gè)類別的概念描述,并利用這種描述構(gòu)造模型,每個(gè)類別都代表了本類數(shù)據(jù)的整體信息,一般用規(guī)則或決策樹模式表示。分類事先知道類別數(shù)和各類的典型特征。例如:學(xué)校根據(jù)以前的數(shù)據(jù)將教師分成了不同的類別,現(xiàn)在就可以根據(jù)這些來區(qū)分新教師,以采取不同的待遇分配方案。

2.4 預(yù)測(cè)

預(yù)測(cè)是利用歷史和當(dāng)前的數(shù)據(jù)找出變化規(guī)律,推測(cè)未來數(shù)據(jù)的種類及特征。預(yù)測(cè)是以時(shí)間為關(guān)鍵屬性的關(guān)聯(lián)規(guī)則。例如:對(duì)未來經(jīng)濟(jì)形勢(shì)的判斷。

2.5 偏差分析

數(shù)據(jù)庫(kù)中的數(shù)據(jù)存在很多異常情況,偏差是對(duì)差異和極端情況的描述,發(fā)現(xiàn)數(shù)據(jù)庫(kù)中數(shù)據(jù)偏離常規(guī)的異常現(xiàn)象,揭示內(nèi)在原因。例如:在本次數(shù)學(xué)測(cè)試中有30%的同學(xué)不及格,教師為了提高教學(xué)質(zhì)量,就要找出這30%不及格同學(xué)的內(nèi)在因素,提高及格率。

3 數(shù)據(jù)挖掘的流程

3.1 定義目標(biāo)

為了避免數(shù)據(jù)挖掘的盲目性,首先就必須清晰地定義出業(yè)務(wù)問題,確定數(shù)據(jù)挖掘的目標(biāo)。挖掘的目標(biāo)明確了,但結(jié)果是不可預(yù)測(cè)的。

3.2 數(shù)據(jù)準(zhǔn)備

1)數(shù)據(jù)選擇。在大型數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)目標(biāo)中搜索有關(guān)的內(nèi)、外部數(shù)據(jù)信息,提取適用于數(shù)據(jù)挖掘的數(shù)據(jù);

2)數(shù)據(jù)預(yù)處理。研究數(shù)據(jù)信息,進(jìn)行數(shù)據(jù)的加工、集成等,去除重復(fù)的數(shù)據(jù)信息,選擇要進(jìn)行數(shù)據(jù)挖掘的數(shù)據(jù),并定義數(shù)據(jù)類型;

3)數(shù)據(jù)轉(zhuǎn)換。數(shù)據(jù)轉(zhuǎn)換決定數(shù)據(jù)挖掘能否成功,數(shù)據(jù)轉(zhuǎn)換就是將數(shù)據(jù)轉(zhuǎn)換成一個(gè)針對(duì)挖掘算法的模型。

3.3 數(shù)據(jù)挖掘

根據(jù)數(shù)據(jù)功能的類型和數(shù)據(jù)的特點(diǎn)完善和選擇合適的挖掘算法,對(duì)所得到的經(jīng)過轉(zhuǎn)換的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘。

3.4 結(jié)果分析

解釋和評(píng)估數(shù)據(jù)挖掘的結(jié)果,最終轉(zhuǎn)換成用戶能夠理解的知識(shí)。

3.5 知識(shí)的同化

將分析所得到的知識(shí)集成到業(yè)務(wù)信息系統(tǒng)的組織結(jié)構(gòu)中去。

4 數(shù)據(jù)挖掘的應(yīng)用

4.1 數(shù)據(jù)挖掘技術(shù)在市場(chǎng)營(yíng)銷中的應(yīng)用

數(shù)據(jù)挖掘技術(shù)普遍應(yīng)用于市場(chǎng)營(yíng)銷中,假定“以往消費(fèi)者的行為是未來消費(fèi)者的消費(fèi)理念的直接解釋”,以市場(chǎng)營(yíng)銷學(xué)的市場(chǎng)細(xì)化原理為基礎(chǔ)。通過收集、整理消費(fèi)者以往的消費(fèi)信息為數(shù)據(jù)信息,總結(jié)消費(fèi)者的特點(diǎn)及興趣愛好,根據(jù)不同的屬性分類,推測(cè)出類似消費(fèi)群體的消費(fèi)行為,對(duì)不同類的消費(fèi)群體進(jìn)行定向營(yíng)銷,這樣降低了營(yíng)銷的盲目性,節(jié)省了營(yíng)銷成本,提高了營(yíng)銷效率,為企業(yè)創(chuàng)造出更多的利潤(rùn)。

在經(jīng)濟(jì)發(fā)達(dá)國(guó)家和地區(qū),許多企業(yè)都利用數(shù)據(jù)挖掘技術(shù)對(duì)數(shù)據(jù)信息進(jìn)行加工處理,針對(duì)不同的消費(fèi)群體,發(fā)出不同的營(yíng)銷材料,以突出自己的競(jìng)爭(zhēng)優(yōu)勢(shì),擴(kuò)大產(chǎn)品的營(yíng)業(yè)額。

4.2 數(shù)據(jù)挖掘技術(shù)在商業(yè)銀行中的應(yīng)用

數(shù)據(jù)挖掘技術(shù)廣泛應(yīng)用于金融界,金融事務(wù)搜索大量的數(shù)據(jù)信息,對(duì)這些數(shù)據(jù)進(jìn)行加工處理,發(fā)現(xiàn)其特征,從而發(fā)現(xiàn)不同類別客戶的特點(diǎn),評(píng)估其信譽(yù),推測(cè)其需求。商業(yè)銀行所作業(yè)務(wù)的利潤(rùn)與風(fēng)險(xiǎn)是并存的,為了保證最大利潤(rùn)和最小風(fēng)險(xiǎn),必須對(duì)客戶的賬戶進(jìn)行科學(xué)精確的分析歸納。

美國(guó)銀行使用數(shù)據(jù)挖掘技術(shù)工具,根據(jù)不同消費(fèi)者的特點(diǎn)制定不同的產(chǎn)品,增強(qiáng)其競(jìng)爭(zhēng)優(yōu)勢(shì)。

4.3 數(shù)據(jù)挖掘技術(shù)在醫(yī)學(xué)上的應(yīng)用

數(shù)據(jù)挖掘技術(shù)在醫(yī)學(xué)上的應(yīng)用相當(dāng)廣泛,可以利用數(shù)據(jù)挖掘技術(shù)手段來提高從藥物的生產(chǎn)制造到醫(yī)療診斷等的效率和效益。在藥物生產(chǎn)方面,通過對(duì)藥物分子結(jié)構(gòu)的分析,可以確定是什么成分對(duì)病患的治療發(fā)揮了作用,從而推測(cè)出該藥對(duì)什么病有治療作用;在醫(yī)療診斷方面,通過對(duì)基因的分析處理,可以確診是什么發(fā)生了病變,屬于哪種病毒等。

4.4 數(shù)據(jù)挖掘技術(shù)在欺詐甄別中的應(yīng)用

銀行或者商業(yè)上經(jīng)常發(fā)生欺詐行為,給銀行和商業(yè)單位帶來了不可估量的損失。通過數(shù)據(jù)挖掘可以對(duì)這種欺詐行為進(jìn)行預(yù)測(cè),總結(jié)各種詐騙的行為特征,提醒廣大人們注意。

5 結(jié)論

數(shù)據(jù)挖掘技術(shù)是一個(gè)全新的研究領(lǐng)域,每年都有新的數(shù)據(jù)挖掘方法和模型產(chǎn)生,隨著數(shù)據(jù)庫(kù)等技術(shù)的發(fā)展,數(shù)據(jù)挖掘技術(shù)的應(yīng)用領(lǐng)域?qū)?huì)更加廣泛和深入。盡管如此,數(shù)據(jù)挖掘技仍然存在許多問題需要解決,尤其是超大規(guī)模數(shù)據(jù)挖掘的效率有待提高。

參考文獻(xiàn)

篇8

關(guān)鍵詞:數(shù)據(jù)挖掘技術(shù);反洗錢程序;應(yīng)用

Key words: data mining technology;anti-money laundering procedures;application

中圖分類號(hào):TP39 文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1006-4311(2010)21-0031-01

1反洗錢基本程序

1.1 定義目前關(guān)于洗錢的定義有很多種,國(guó)際上并沒有一個(gè)統(tǒng)一的定義。但洗錢的本質(zhì)就是利用資產(chǎn)、資金轉(zhuǎn)換(轉(zhuǎn)移)過程中所造成的信息缺失、信息隱蔽、信息不完整、信息不真實(shí)、信息復(fù)雜而使犯罪所得收益的原始來源和性質(zhì)無法識(shí)別或追溯,從而掩蓋和隱瞞其真實(shí)信息。

1.2 基本程序我國(guó)的反洗錢基本程序分為采集、監(jiān)測(cè)分析和移交三個(gè)步驟:第一步,大額和可疑交易報(bào)告的收集。第二步,大額和可疑交易報(bào)告的分析和甄別。第三步,可疑交易線索移送。

1.3 反洗錢工作的主要問題①巨量數(shù)據(jù)報(bào)表和高誤報(bào)率。②預(yù)設(shè)標(biāo)準(zhǔn)易于被洗錢分子規(guī)避。③無法自動(dòng)適應(yīng)洗錢形勢(shì)變化。

2數(shù)據(jù)挖掘技術(shù)

2.1 數(shù)據(jù)挖掘定義數(shù)據(jù)挖掘(Date Mining),是指從大量的、不完全的、模糊的、隨機(jī)數(shù)據(jù)中揭示出隱含的、先前未知的、并有潛在價(jià)值的信息和知識(shí)的過程。數(shù)據(jù)挖掘融合了數(shù)據(jù)庫(kù)、人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)等多個(gè)領(lǐng)域的理論和技術(shù),是幫助發(fā)現(xiàn)隱藏在數(shù)據(jù)中知識(shí)和信息的有力工具。

2.2 數(shù)據(jù)挖掘任務(wù)①數(shù)據(jù)總結(jié)。②分類。③關(guān)聯(lián)分析。④聚類。

2.3 數(shù)據(jù)挖掘流程引入數(shù)據(jù)挖掘技術(shù)應(yīng)用于反洗錢系統(tǒng)中,完成從大量數(shù)據(jù)中自動(dòng)提取出模型的過程。在建立攻擊檢測(cè)系統(tǒng)過程中消除人為因素和特定因素,為其開發(fā)一個(gè)更加系統(tǒng)化的方法,即開發(fā)一套能從各種審計(jì)數(shù)據(jù)中產(chǎn)生攻擊檢測(cè)模型的自動(dòng)工具。我們應(yīng)用關(guān)聯(lián)分析和序列模式分析等算法,發(fā)現(xiàn)特征之間的關(guān)聯(lián)和與時(shí)序有關(guān)的聯(lián)系,從而完成對(duì)用戶數(shù)據(jù)的收集與特征選擇過程。

2.4 常用的數(shù)據(jù)挖掘算法①?zèng)Q策樹。首先,通過一批已知的訓(xùn)練數(shù)據(jù)建立一棵決策樹;然后,利用建好的決策樹對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè)。決策樹的建立過程可以看成是數(shù)據(jù)規(guī)則的生成過程,因而可以認(rèn)為,決策樹實(shí)現(xiàn)了數(shù)據(jù)規(guī)則的可視化,其輸出結(jié)果也容易理解。在反洗錢領(lǐng)域,決策樹算法可以按照事前已經(jīng)制定的決策模式對(duì)各種報(bào)告數(shù)據(jù)進(jìn)行分類,最終以一種類似樹狀的決策結(jié)構(gòu)顯示出來,為分析者提供一個(gè)推力框架,幫助其摸清整個(gè)洗錢活動(dòng)的過程并了解某一具體的洗錢操作在整個(gè)洗錢鏈條中的作用。決策樹方法精確度較高,容易理解,效率也比較高,因而比較常用。②神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)系統(tǒng)由一系列類似于人腦神經(jīng)元的處理單元組成,這些單元被稱為節(jié)點(diǎn)。節(jié)點(diǎn)通過網(wǎng)絡(luò)彼此互連,如果有數(shù)據(jù)輸入,他們可以進(jìn)行確定數(shù)據(jù)模式的工作。神經(jīng)元網(wǎng)絡(luò)可以通過本身所包含的無數(shù)個(gè)神經(jīng)元持續(xù)不斷地對(duì)報(bào)告數(shù)據(jù)進(jìn)行反復(fù)計(jì)算,對(duì)某項(xiàng)資金流動(dòng)是否牽涉洗錢活動(dòng)進(jìn)行認(rèn)定,自動(dòng)發(fā)現(xiàn)洗錢線索,并能通過自動(dòng)學(xué)習(xí)制定出最為有利的反洗錢整體分析方案,提高數(shù)據(jù)分析效率。③相關(guān)規(guī)則。這是一種簡(jiǎn)單卻實(shí)用的關(guān)聯(lián)分析規(guī)則,它描述了一個(gè)事務(wù)中某些屬性同時(shí)出現(xiàn)的規(guī)律和模式,依據(jù)一定的可信度、支持度、期望可信度、作用度建立相關(guān)規(guī)則。④K-nearest鄰居。鄰居就是彼此距離很緊的數(shù)據(jù)。該方法認(rèn)為相鄰數(shù)據(jù)必然有相同的屬性或行為。因此,可以通過K個(gè)鄰居的平均數(shù)據(jù)來預(yù)測(cè)該特定數(shù)據(jù)的某個(gè)屬性后行為。⑤遺傳算法。在反洗錢領(lǐng)域,遺傳算法可以在發(fā)現(xiàn)可疑洗錢活動(dòng)后沿最優(yōu)路徑追蹤洗錢的各步操作,幫助分析人員總結(jié)大額可疑交易數(shù)據(jù)中所隱藏的洗錢疑點(diǎn)或疑點(diǎn)組合的發(fā)現(xiàn)規(guī)律,保證分析時(shí)能夠發(fā)現(xiàn)某項(xiàng)洗錢活動(dòng)的最重要線索,方便后期調(diào)查工作的順利開展。⑥聯(lián)機(jī)分析處理。其典型的應(yīng)用有對(duì)銀行信用卡風(fēng)險(xiǎn)的分析與預(yù)測(cè)、市場(chǎng)營(yíng)銷策略制定等,主要是進(jìn)行大量查詢操作。

3數(shù)據(jù)挖掘技術(shù)在反洗錢系統(tǒng)中的應(yīng)用

3.1 系統(tǒng)的整體設(shè)計(jì)反洗錢系統(tǒng)本身應(yīng)用的特殊性,要求它具有準(zhǔn)確性、全局性、可擴(kuò)展性、可伸縮性以及環(huán)境適應(yīng)性。到目前為止,研究人員已經(jīng)提出實(shí)現(xiàn)了許多方法,但沒有一種模型能夠滿足完全檢測(cè)的要求。由于系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)都取決于設(shè)計(jì)人員自身的知識(shí)儲(chǔ)備和其對(duì)已知反洗錢形式的了解程度,因而系統(tǒng)的效率和環(huán)境性都受到了限制。

基于數(shù)據(jù)挖掘技術(shù)的智能反洗錢系統(tǒng)的核心就是從事件序列數(shù)據(jù)(訓(xùn)練數(shù)據(jù))中挖掘正常和異常行為規(guī)則,構(gòu)建規(guī)則庫(kù),在此基礎(chǔ)上,再根據(jù)發(fā)現(xiàn)的證據(jù)進(jìn)行反洗錢識(shí)別。

我們采用數(shù)據(jù)挖掘方法實(shí)現(xiàn)整個(gè)過程,并將它劃分為三個(gè)過程。

①特征提取。②規(guī)則發(fā)現(xiàn),對(duì)不同類型的數(shù)據(jù),采用不同的數(shù)據(jù)挖掘算法發(fā)現(xiàn)其中的規(guī)則。③建立好規(guī)則庫(kù)后,對(duì)每一次發(fā)現(xiàn)的證據(jù),就可以根據(jù)規(guī)則來判斷是否屬于反洗錢行為。

3.2 基于數(shù)據(jù)挖掘的智能反洗錢模型的設(shè)計(jì)根據(jù)上面介紹的體系結(jié)構(gòu)、數(shù)據(jù)挖掘方法和智能檢測(cè)體系,我們?cè)O(shè)計(jì)了一種基于數(shù)據(jù)挖掘的智能反洗錢系統(tǒng)。其系統(tǒng)結(jié)構(gòu)包括如下組件:數(shù)據(jù)處理、審計(jì)數(shù)據(jù)庫(kù)、數(shù)據(jù)挖掘引擎、特征提取器、數(shù)據(jù)挖掘引擎、規(guī)則庫(kù)、數(shù)據(jù)檢測(cè)引擎和決策響應(yīng)中心。

自適應(yīng)數(shù)據(jù)挖掘反洗錢系統(tǒng)的工作原理如下:①活動(dòng)監(jiān)測(cè)Agent采集來自外部網(wǎng)絡(luò)環(huán)境的各種數(shù)據(jù),并把這些數(shù)據(jù)傳送給協(xié)同Agent,協(xié)同Agent對(duì)從活動(dòng)監(jiān)測(cè)Agent來的數(shù)據(jù)進(jìn)行過濾、格式轉(zhuǎn)換等預(yù)處理,然后將數(shù)據(jù)存入審計(jì)數(shù)據(jù)庫(kù)中;②審計(jì)數(shù)據(jù)庫(kù)組件存儲(chǔ)數(shù)據(jù),并利用數(shù)據(jù)庫(kù)查詢技術(shù)產(chǎn)生訓(xùn)練數(shù)據(jù)集,同時(shí)特征提取器采用數(shù)據(jù)挖掘技術(shù)對(duì)當(dāng)前用戶行為進(jìn)行分析,從中提取出當(dāng)前用戶行為特征;③數(shù)據(jù)挖掘引擎利用數(shù)據(jù)挖掘技術(shù)對(duì)審計(jì)數(shù)據(jù)庫(kù)中的數(shù)據(jù)和提取出的特征進(jìn)行學(xué)習(xí),從中提取出有關(guān)行為特征和規(guī)則,建立異常模式和正常行為輪廓,從而建立檢測(cè)模型,并存入規(guī)則庫(kù)中;④數(shù)據(jù)檢測(cè)引擎接受來自特征提取器的數(shù)據(jù)特征和數(shù)據(jù)挖掘引擎建造的模型與來自規(guī)則庫(kù)中的正常規(guī)則進(jìn)行分析,將分析結(jié)果送給決策中心;⑤決策中心分析判斷結(jié)果以決定是否報(bào)警或更新規(guī)則庫(kù)。

來自多個(gè)地方的數(shù)據(jù),主要通過如下方式進(jìn)行處理和轉(zhuǎn)換。

篇9

(一)數(shù)據(jù)挖掘技術(shù)的概念

數(shù)據(jù)挖掘技術(shù)是從許多的、不完全的、相對(duì)模糊的、存在噪聲的、任意的實(shí)際數(shù)據(jù)當(dāng)中,找出其中隱藏的、人們?cè)炔涣私獾摹⒌质菍?shí)際存在的、有用的信息和知識(shí)的過程[1]。數(shù)據(jù)挖掘所得信息具有先前未知、有效和實(shí)用三個(gè)特征。決策者對(duì)挖掘所得信息進(jìn)行分析,從中提取出隱藏的關(guān)系和模式,來對(duì)未來發(fā)生的行為進(jìn)行預(yù)測(cè)。

(二)數(shù)據(jù)挖掘技術(shù)的運(yùn)用

在使用數(shù)據(jù)挖掘技術(shù)的過程中,數(shù)學(xué)方法經(jīng)常被用到,但在一些特殊的時(shí)候,也會(huì)用到非數(shù)學(xué)的方法。另外,使用數(shù)據(jù)挖掘技術(shù)過程中,除了上面提到的方法外,還可以用演繹的方法和歸納的方法收集數(shù)據(jù)。在使用數(shù)據(jù)挖掘技術(shù)過程中,利用對(duì)相關(guān)數(shù)據(jù)進(jìn)行挖掘、收集和分析得出相應(yīng)的結(jié)果,并且這個(gè)結(jié)果在某些情況下,恰好能被用在管理信息、優(yōu)化查詢、過程控制、決策支持及數(shù)據(jù)維護(hù)等方面[2]。然而,由于數(shù)據(jù)挖掘技術(shù)特性,其在使用的過程中,涉及學(xué)科比較廣,并且還涉及數(shù)據(jù)庫(kù)、數(shù)理統(tǒng)計(jì)、人工智能、并行計(jì)算、機(jī)器學(xué)習(xí)、可視化等許多領(lǐng)域。數(shù)據(jù)挖掘技術(shù)中,常用到的有規(guī)則歸納、決策數(shù)、人工神經(jīng)網(wǎng)絡(luò)、遺傳算法,以及可視化等技術(shù)。

二、數(shù)據(jù)挖掘技術(shù)的形式

數(shù)據(jù)挖掘分為描述型與預(yù)測(cè)型兩種形式。描述型是對(duì)數(shù)據(jù)中存在的規(guī)則進(jìn)行描述,并且依據(jù)數(shù)據(jù)具有微觀性的特點(diǎn)找出其表征的、普遍性強(qiáng)的、概念層次較高的、比較宏觀的知識(shí),并對(duì)數(shù)據(jù)進(jìn)行概括總結(jié)和抽象來描述出同一類事物的相同屬性。預(yù)測(cè)型是分析和處理現(xiàn)有的數(shù)據(jù),來獲得某類事物中某些屬性的內(nèi)容,或者是預(yù)測(cè)出某類事物將來形成的規(guī)律等。在使用這兩種挖掘技術(shù)時(shí),經(jīng)常用到的方法有分類方法、關(guān)聯(lián)方法和粗糙集方法。

(一)分類

在運(yùn)用計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)的過程中,分類是挖掘技術(shù)里的重點(diǎn)部分。數(shù)據(jù)收集的好壞,以及收集的數(shù)據(jù)的屬性分析都是由分類決定的。因此,分類在運(yùn)用挖掘技術(shù)的過程中具有非常重要的作用。分類是對(duì)數(shù)據(jù)庫(kù)屬性進(jìn)行分析,把元組劃分成不同種類的過程。并且在其劃分過程中,根據(jù)數(shù)據(jù)形成的訓(xùn)練集,來集中對(duì)部分?jǐn)?shù)據(jù)進(jìn)行處理劃分。然后,再對(duì)余下的部分?jǐn)?shù)據(jù)做測(cè)試,在測(cè)試滿足要求以后,遵守對(duì)應(yīng)的規(guī)則對(duì)其分類。在實(shí)際分類過程中,比較有代表性的分類過程是:明確分類的范圍、找出目標(biāo)屬性、組成訓(xùn)練集、研究屬性、算法選取、分類計(jì)算、結(jié)果顯示、選出測(cè)試集、分類規(guī)則驗(yàn)證、輸出分類規(guī)則等[2]。

(二)相關(guān)規(guī)則

相關(guān)規(guī)則是數(shù)據(jù)挖掘技術(shù)中,比較簡(jiǎn)單實(shí)用的關(guān)聯(lián)分析規(guī)則。它可以準(zhǔn)確地將相關(guān)數(shù)據(jù)進(jìn)行描述,并且能夠?qū)?shù)據(jù)進(jìn)行嚴(yán)格分析。在相關(guān)規(guī)則使用過程中,主要是對(duì)具體事物進(jìn)行描寫,并按照相同屬性進(jìn)行結(jié)合,然后對(duì)其進(jìn)行總結(jié)概括,找出其共同屬性和模式。一般會(huì)將關(guān)聯(lián)規(guī)則直接應(yīng)用到數(shù)據(jù)庫(kù)中,統(tǒng)一地記錄下每個(gè)事物得出的數(shù)據(jù),不但可以正確地記錄數(shù)據(jù),同時(shí)消減了數(shù)據(jù)的搜索空間,使得整個(gè)運(yùn)行系統(tǒng)得到改善和提高。

(三)粗糙集

數(shù)據(jù)挖掘技術(shù)中的粗糙集是被用作對(duì)不精確和不確定性知識(shí)進(jìn)行研究的一種數(shù)學(xué)工具,在系統(tǒng)整個(gè)使用中占的優(yōu)勢(shì)比較大[3]。首先,在使用粗糙集方法時(shí),相應(yīng)的信息不需要了解,并且在運(yùn)算的時(shí)候,算法比較簡(jiǎn)單且容易控制,得到大量的計(jì)算機(jī)用戶的喜愛。其次,在運(yùn)行粗糙集的過程中,能從數(shù)據(jù)中發(fā)現(xiàn)異常,排除知識(shí)發(fā)現(xiàn)過程中的噪聲干擾,同時(shí)還能將這類數(shù)據(jù)的規(guī)律在最短時(shí)間內(nèi)找出,并利用表格對(duì)其進(jìn)行歸納總結(jié),將其變成決策表,為使用者的查詢提供方便。最后,在客觀世界,應(yīng)用有些規(guī)則的過程中也會(huì)出現(xiàn)不確定性。應(yīng)用數(shù)據(jù)庫(kù)的時(shí)候會(huì)產(chǎn)生許多不確定性的信息,而這些不確定性都得依賴粗糙集對(duì)其進(jìn)行處理,這樣就使得數(shù)據(jù)挖掘的效率得到大大提高。

三、挖掘技術(shù)在檔案管理中應(yīng)用的意義

記錄歷史資料的重要工具就是檔案,它直接反映了檔案管理人員的智慧和成果[3]。由于計(jì)算機(jī)網(wǎng)絡(luò)的迅速發(fā)展,在管理檔案信息的實(shí)際應(yīng)用中,引入挖掘技術(shù)可以使檔案的管理水平得到提高,并且改革了檔案信息管理的模式。因此,數(shù)據(jù)挖掘技術(shù)應(yīng)用在檔案信息管理中是具有非常重要意義的。

(一)提高檔案信息管理的安全性

檔案信息是記載一些比較寶貴的資料,由此可知其價(jià)值的表現(xiàn)就是檔案信息的實(shí)體。對(duì)檔案管理者來講,保存有歷史意義的檔案信息的時(shí)間應(yīng)越長(zhǎng)越好。保存得越長(zhǎng)遠(yuǎn),越體現(xiàn)了檔案信息的價(jià)值。其使用價(jià)值相對(duì)應(yīng)地增大了,被使用的頻率也相應(yīng)地增加,使保管工作非常困難,使用次數(shù)越頻繁,就越容易縮短檔案信息的壽命。同時(shí),保密性是檔案信息管理的另一項(xiàng)重要工作,萬一檔案信息外漏,不僅相關(guān)人員的隱私權(quán)受到侵犯,還有可能對(duì)其以后生活造成消極負(fù)面的影響,造成了檔案保管與使用之間存在矛盾[4]。將數(shù)據(jù)挖掘技術(shù)運(yùn)用到檔案管理中,可以很好地避免這種情況的發(fā)生,從而保護(hù)檔案信息實(shí)體和內(nèi)容的安全。

(二)加快檔案管理的效率,降低檔案管理的成本

檔案管理工作中引用數(shù)據(jù)挖掘技術(shù),能夠有效改變以往傳統(tǒng)的檔案管理模式。使得檔案管理人員的工作效率和檔案信息管理水平得到提高。引入數(shù)據(jù)挖掘技術(shù),工作人員的管理時(shí)間被大量節(jié)省,處理檔案信息的速度得到提高。同時(shí),還可以加快檔案鑒定工作的發(fā)展。檔案管理工作中的一個(gè)重要環(huán)節(jié)就是檔案的鑒定,傳統(tǒng)的檔案鑒定工作是由檔案管理人員憑借多年經(jīng)驗(yàn)來實(shí)現(xiàn)的,具有主觀性。數(shù)據(jù)挖掘技術(shù)的運(yùn)用,可以防止在鑒定檔案工作中因檔案管理人員的主觀性而造成有價(jià)值的檔案丟棄,為檔案管理工作提供了比較有效的定量化方法,使檔案的鑒定工作有據(jù)可依。

四、數(shù)據(jù)挖掘技術(shù)在檔案信息管理系統(tǒng)中的運(yùn)用

隨著計(jì)算機(jī)信息化的迅猛發(fā)展,檔案管理工作也需要進(jìn)一步的完善。過去的檔案管理方式已經(jīng)不能適應(yīng)當(dāng)代社會(huì)的需要,很多數(shù)據(jù)信息無法有效地使用。要想有效地利用現(xiàn)有的檔案數(shù)據(jù),使其價(jià)值得到充分發(fā)揮,使用數(shù)據(jù)挖掘技術(shù)把那些隱含的信息挖掘出來,對(duì)其總結(jié)和使用是非常有必要的。檔案信息管理中使用數(shù)據(jù)挖掘技術(shù),能讓挖掘出的知識(shí)信息得到發(fā)揮,并且能使檔案數(shù)據(jù)信息價(jià)值被充分地利用。檔案管理中應(yīng)用數(shù)據(jù)挖掘技術(shù)的方法有以下幾種:

(一)檔案分類法

檔案分類法是按照不同的種類把許多檔案進(jìn)行整理的方法。把檔案中屬性相似的放在同一個(gè)類別中,把那些檔案屬性不同的放在不同的類別當(dāng)中。在檔案進(jìn)行分類的過程中,數(shù)據(jù)挖掘技術(shù)能夠詳細(xì)地劃分這些檔案的類別,幫助管理員進(jìn)行檔案歸類,檔案的檢索效率和速度得到有效提高。

(二)檔案收集法

檔案收集法是先分析數(shù)據(jù)庫(kù)中的數(shù)據(jù),并通過對(duì)這些數(shù)據(jù)做詳細(xì)的描述建立模型。然后用這些模型和所有的測(cè)試樣本進(jìn)行對(duì)比,一旦經(jīng)測(cè)試后有一個(gè)模型與樣本相符合,就可以依據(jù)這個(gè)模型對(duì)管理對(duì)象進(jìn)行分類。

篇10

中圖分類號(hào):TP311.13 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-7712 (2013) 24-0000-01

隨著通信市場(chǎng)競(jìng)爭(zhēng)日趨激烈,電信客戶的通信需求和消費(fèi)理念都發(fā)生了顯著的變化。為滿足客戶的應(yīng)用需求、提升市場(chǎng)競(jìng)爭(zhēng)力,就必須將當(dāng)代通信服務(wù)由以產(chǎn)品為導(dǎo)向以客戶需求為導(dǎo)向轉(zhuǎn)變,通過建立客戶數(shù)據(jù)庫(kù),對(duì)客戶的類別屬性、消費(fèi)類型以及消費(fèi)傾向等進(jìn)行分析。數(shù)據(jù)挖掘技術(shù)是一種大數(shù)據(jù)環(huán)境下的數(shù)據(jù)分析方法,其可以在海量數(shù)據(jù)中建立一種內(nèi)在的聯(lián)系,基于該聯(lián)系對(duì)客戶進(jìn)行細(xì)分,協(xié)助企業(yè)制定更具價(jià)值的認(rèn)知體系和決策規(guī)則。

一、電信客戶細(xì)分特點(diǎn)

客戶細(xì)分包括客戶描述與劃分兩部分內(nèi)容。前者主要是提取可用于描述客戶的特征和屬性,以便于可應(yīng)用該描述內(nèi)容對(duì)客戶行為模式進(jìn)行預(yù)測(cè)和評(píng)估。后者主要是對(duì)經(jīng)過特征化后的客戶進(jìn)行類別劃分,使具有共同類別與特點(diǎn)的用戶歸入同一類別,以便于增強(qiáng)服務(wù)和營(yíng)銷的針對(duì)性與有效性。對(duì)客戶進(jìn)行細(xì)分可以調(diào)整資源分配結(jié)構(gòu),滿足商業(yè)目的,對(duì)不同類型的客戶指定不同的營(yíng)銷策略。

電信市場(chǎng)是典型的以客戶為中心的消費(fèi)市場(chǎng),對(duì)該市場(chǎng)客戶進(jìn)行細(xì)分可以提升企業(yè)爭(zhēng)取新客戶、保留老客戶、維護(hù)現(xiàn)有客戶價(jià)值、拓展企業(yè)市場(chǎng)份額與經(jīng)濟(jì)效益的目的。

總結(jié)來看,電信客戶細(xì)分中需要從以下幾方面特征出發(fā):一是電信客戶消費(fèi)具有持續(xù)性,為維系客戶關(guān)系,就需要以該特征為著力點(diǎn);二是電信客戶消費(fèi)層次和類別更為明顯,如電信企業(yè)的客戶分為具有較強(qiáng)穩(wěn)定消費(fèi)能力的集團(tuán)用戶和消費(fèi)能力差別較大的個(gè)人用戶;三是客戶自身特點(diǎn)占據(jù)的權(quán)重較大,如客戶的消費(fèi)習(xí)慣、個(gè)人價(jià)值、品牌忠誠(chéng)度、人際關(guān)系等。

二、數(shù)據(jù)挖掘技術(shù)及其在電信客戶細(xì)分中的應(yīng)用特點(diǎn)

數(shù)據(jù)挖掘技術(shù)本質(zhì)是借助大量的知識(shí)體系和數(shù)據(jù)分析技術(shù)對(duì)海量、無序的數(shù)據(jù)信息進(jìn)行整合與關(guān)聯(lián)建立,從中提取可有效反映數(shù)據(jù)內(nèi)部規(guī)律和模式,并依照所總結(jié)出來的規(guī)律與模式對(duì)未來的發(fā)展情況進(jìn)行預(yù)測(cè)與評(píng)估,幫助決策者制定更有效的執(zhí)行策略。

傳統(tǒng)的電信客戶細(xì)分方法主要使用資料調(diào)查或客戶價(jià)值分析等兩種,前者具有較少的細(xì)分維度,調(diào)查結(jié)果更易理解和應(yīng)用,但是受調(diào)查樣本數(shù)量的限制,其結(jié)果的可靠性和有效性有待進(jìn)一步確認(rèn);后者操作簡(jiǎn)單,對(duì)于高價(jià)值電信客戶細(xì)分具有良好的應(yīng)用效果,但是在體現(xiàn)不同客戶、不同業(yè)務(wù)、不同消費(fèi)結(jié)構(gòu)差異性等方面存在一定的缺陷。

在電信客戶細(xì)分中應(yīng)用數(shù)據(jù)挖掘技術(shù)可以有效利用企業(yè)發(fā)展過程中產(chǎn)生的大量數(shù)據(jù)進(jìn)行多維度、多層面、多角度的客戶細(xì)分,并為細(xì)分結(jié)果提供高可靠性的理論支持。特別是數(shù)據(jù)挖掘技術(shù)中的聚類分析方法可以將客戶群按照電信企業(yè)最為關(guān)注的消費(fèi)行為和消費(fèi)價(jià)值進(jìn)行細(xì)分,體現(xiàn)出不同客戶屬性之間的差異性,協(xié)助制定更加完備的營(yíng)銷策略。基于數(shù)據(jù)挖掘的電信客戶細(xì)分可以分為戰(zhàn)略細(xì)分和策略細(xì)分兩類。前者主要是對(duì)客戶特征進(jìn)行分析與研究,從中查找適當(dāng)?shù)臓I(yíng)銷機(jī)會(huì);后者主要是對(duì)營(yíng)銷活動(dòng)進(jìn)行分析與研究,為其選取最佳的目標(biāo)人群。

三、基于數(shù)據(jù)挖掘的客戶細(xì)分模型分析

(一)細(xì)分模型設(shè)計(jì)

細(xì)分模型應(yīng)該包括三部分內(nèi)容,即客戶部分、市場(chǎng)部分、營(yíng)銷部分。

客戶部分可進(jìn)一步細(xì)化為客戶分類和客戶分析兩類。客戶細(xì)分中應(yīng)該從客戶消費(fèi)習(xí)慣、消費(fèi)種類、消費(fèi)頻度、消費(fèi)結(jié)構(gòu)、消費(fèi)模式等建立模型,以便于電信企業(yè)依照這些特征對(duì)已有客戶的收益率、新客戶的定位、現(xiàn)存客戶與流失客戶特征等進(jìn)行定義。客戶分析模型則需要包括客戶的行為、關(guān)系、價(jià)值屬性、利潤(rùn)率、忠誠(chéng)度以及業(yè)務(wù)量等內(nèi)容,通過這些內(nèi)容,電信企業(yè)可以對(duì)現(xiàn)有的營(yíng)銷進(jìn)行效果分析。

市場(chǎng)部分主要體現(xiàn)為市場(chǎng)預(yù)測(cè)與市場(chǎng)總結(jié)等內(nèi)容。建立可靠、客觀的市場(chǎng)模型可以幫助企業(yè)制定更精準(zhǔn)、分類更清晰、目標(biāo)性更強(qiáng)的市場(chǎng)策略,并依照所架構(gòu)的市場(chǎng)模型對(duì)用戶行為進(jìn)行解釋,對(duì)未來用戶的行為趨向進(jìn)行預(yù)測(cè)。

營(yíng)銷部分可進(jìn)一步細(xì)化為輔助營(yíng)銷、定向服務(wù)以及價(jià)格定位三部分。輔助營(yíng)銷模型可以針對(duì)特定的客戶群使用特定的手段進(jìn)行分析與研究,進(jìn)而開拓更具針對(duì)性的銷售渠道和宣傳策略,充分滿足客戶的消費(fèi)需求,在維持現(xiàn)有客戶關(guān)系的基礎(chǔ)上提升客戶價(jià)值,拓展客戶量。定向服務(wù)則是充分聽取客戶的消費(fèi)需求,制定差異化服務(wù)策略,提供全方位、高質(zhì)量定制服務(wù)。價(jià)格定位則是對(duì)客戶的價(jià)格敏感度建立模型并深入分析。

(二)電信客戶細(xì)分中的數(shù)據(jù)挖掘技術(shù)

目前,電信客戶細(xì)分中所使用的數(shù)據(jù)挖掘技術(shù)主要分為分類、聚類以及統(tǒng)計(jì)分析三類。

分類可以依照預(yù)先制定的規(guī)則制定清晰的分類標(biāo)準(zhǔn),并依照該標(biāo)準(zhǔn)對(duì)客戶進(jìn)行歸類,生成預(yù)測(cè)模型。分類可以有效反映同類客戶中的同屬性知識(shí)特征和不同客戶中的差異性知識(shí)特征,其具有非常強(qiáng)的預(yù)測(cè)性、指導(dǎo)性和方向性。常用的分類數(shù)據(jù)挖掘算法有神經(jīng)網(wǎng)絡(luò)法、決策樹法、貝葉斯法以及示例學(xué)習(xí)法等。

聚類則是在海量的數(shù)據(jù)中對(duì)客戶屬性進(jìn)行歸納與總結(jié),將分析對(duì)象依照共同的特征分為多個(gè)簇,然后再在簇中進(jìn)行特征提取,生成聚類標(biāo)準(zhǔn),依照該標(biāo)準(zhǔn)對(duì)不同用戶進(jìn)行分類、對(duì)不同簇進(jìn)行更新。該技術(shù)無需指導(dǎo)和事先規(guī)則的制定。常用的聚類數(shù)據(jù)挖掘算法有神經(jīng)網(wǎng)絡(luò)法、模糊聚類法、統(tǒng)計(jì)聚類法等。

統(tǒng)計(jì)分析則是直接對(duì)客戶進(jìn)行分群或輔助其他數(shù)據(jù)挖掘技術(shù)共同實(shí)現(xiàn)電信客戶細(xì)分。其以一定的方法從數(shù)據(jù)庫(kù)中提取樣本,并對(duì)這些樣本進(jìn)行行為、地域、年齡、需求等進(jìn)行差異性分析,輔助其他數(shù)據(jù)分析與處理技術(shù)即可實(shí)現(xiàn)客戶的細(xì)分。常用的統(tǒng)計(jì)分析方法有交叉分析、相關(guān)分析、顯著性分析、因子分析等。

參考文獻(xiàn):

[1]蔡寧.基于數(shù)據(jù)挖掘的電信客戶細(xì)分研究[D].江西理工大學(xué),2008.

篇11

二、旅游業(yè)數(shù)據(jù)挖掘算法選擇

數(shù)據(jù)挖掘中常用的基本分類算法有決策樹、貝葉斯、基于規(guī)則的算法等等。其中,決策樹是目前主流的分類技術(shù),己經(jīng)成功的應(yīng)用于更多行業(yè)的數(shù)據(jù)分析。在關(guān)聯(lián)規(guī)則挖掘研究中,最重要的是Apriori算法,這個(gè)算法后來成為絕大多數(shù)關(guān)聯(lián)規(guī)則分類的基礎(chǔ)。聚類算法也是數(shù)據(jù)挖掘技術(shù)中極為重要的組成部分。與分類技術(shù)不同的是,聚類不要求對(duì)數(shù)據(jù)進(jìn)行事先標(biāo)定,就數(shù)據(jù)挖掘功能而言,聚類能夠可以針對(duì)數(shù)據(jù)的相異度來分析評(píng)估數(shù)據(jù),可以作為其他對(duì)發(fā)現(xiàn)的簇運(yùn)行的數(shù)據(jù)挖掘算法的預(yù)處理步驟。各種算法分類模型建立有所不同,但原理是大致相同的。筆者考慮決策樹算法結(jié)構(gòu)簡(jiǎn)單,便于理解,且很擅長(zhǎng)處理非數(shù)值型數(shù)據(jù),建模效率高,分類速度快,特別適合大規(guī)模的數(shù)據(jù)處理的優(yōu)點(diǎn),結(jié)合旅游產(chǎn)業(yè)數(shù)據(jù)特點(diǎn),故作重點(diǎn)分析。

三、旅游業(yè)數(shù)據(jù)挖掘系統(tǒng)需求分析

旅游業(yè)數(shù)據(jù)挖掘系統(tǒng)的基本特點(diǎn)如下:統(tǒng)計(jì)旅游興趣;購(gòu)物消費(fèi)趨向;推薦其感興趣的旅游景點(diǎn);在后臺(tái)管理中,通過決策樹算法對(duì)游客數(shù)量、平均年齡、景點(diǎn)收費(fèi)、游客來自地區(qū)等進(jìn)行分析總結(jié),為旅游消費(fèi)者和旅游管理者提供服務(wù):為消費(fèi)者提供吃住行購(gòu)?qiáng)蕵诽鞖飧鞣矫嫘畔⒉樵儭C(jī)票、車船票、酒店、景區(qū)門票、餐飲等方面的預(yù)定與現(xiàn)金支付、第三方支付、消費(fèi)者評(píng)價(jià)、在線咨詢等方面的便利、快捷服務(wù)。為管理者提供推薦、游客管理、線路管理、景點(diǎn)管理、特色服務(wù)管理、機(jī)票管理、在線咨詢管理、旅游客戶關(guān)系管理等服務(wù),提高整體服務(wù)效率和水平。

四、旅游業(yè)數(shù)據(jù)挖掘系統(tǒng)的實(shí)現(xiàn)

旅游業(yè)信息管理系統(tǒng)包括游客信息管理與游客信息分析兩個(gè)子模塊。根據(jù)系統(tǒng)日常運(yùn)行出現(xiàn)的問題及時(shí)對(duì)系統(tǒng)進(jìn)行維護(hù),如添加或者刪除某個(gè)模塊功能,系統(tǒng)整體運(yùn)行速度的更近等。系統(tǒng)運(yùn)用數(shù)據(jù)庫(kù)層、持久化層、業(yè)務(wù)邏輯層、表示層四層體系結(jié)構(gòu),主要利用ID3算法達(dá)到旅游數(shù)據(jù)信息的快速、準(zhǔn)確分類。考慮了游客與酒店之間的關(guān)系、游客與旅游路線之間的關(guān)系、游客與旅游景點(diǎn)之間的關(guān)系、游客與機(jī)票、車票之間的關(guān)系、管理員與游客之間的關(guān)系、邏輯結(jié)構(gòu)設(shè)計(jì)。程序之間的獨(dú)立性增加,易于擴(kuò)展,規(guī)范化得到保證的同時(shí)提高了系統(tǒng)的安全性。詳細(xì)功能設(shè)計(jì)包括:用戶登錄、用戶查詢、預(yù)定及支付、后臺(tái)管理、旅游客戶管理和數(shù)據(jù)分析等方面。本系統(tǒng)中主要運(yùn)用Java語言就行邏輯上的處理。系統(tǒng)主要使用Struts2和Hibernate這兩個(gè)框架來進(jìn)行整個(gè)系統(tǒng)的搭建。其中Struts2主要處理業(yè)務(wù)邏輯,而Hibernate主要是處理數(shù)據(jù)存儲(chǔ)、查詢等操作。系統(tǒng)采用Tomcat服務(wù)器。系統(tǒng)模塊需要實(shí)現(xiàn)酒店推薦實(shí)現(xiàn)、景點(diǎn)推薦實(shí)現(xiàn)、天氣預(yù)報(bào)實(shí)現(xiàn)、旅游線路實(shí)現(xiàn)、特產(chǎn)推薦、數(shù)據(jù)分析展現(xiàn)功能、報(bào)表數(shù)據(jù)獲取、景區(qū)客流量變化分析實(shí)現(xiàn)等。需要進(jìn)行后臺(tái)信息管理等功能測(cè)試以及時(shí)間測(cè)試、數(shù)據(jù)測(cè)試等性能測(cè)試。

主站蜘蛛池模板: 国产视频福利在线 | 成人久久久精品国产乱码一区二区 | a级毛毛片| 国产精品国产精品国产专区不蜜 | 99re在线免费视频 | 国产一二三在线 | 日韩在线不卡视频 | 日韩欧美精品一区 | 精品久久久久久亚洲综合网 | 久久九九99 | 欧美二区在线观看 | 成人网在线 | 国产不卡在线播放 | 99麻豆久久久国产精品免费 | 精品视频网站 | 夜夜春精品视频高清69式 | 嫩草影视在线观看 | 中文二区| 国产99精品视频 | 毛片网页| 国产乱码精品一区二区三区不卡 | 日本h视频 | 日韩欧美在线精品 | 国产区在线看 | 欧美一区二区在线视频 | 国产综合精品一区二区三区 | 欧美午夜精品一区二区三区电影 | 国产黄色av | 成年人视频免费在线观看 | 成年人黄网站 | 亚洲 欧美 激情 另类 校园 | 中文字幕视频一区 | 在线中文字幕av | 中文字幕亚洲一区 | 亚洲欧洲免费视频 | 毛片免费在线观看 | 欧美高清v | 成人国产精品免费观看视频 | 美女h网站 | 98色花堂最新地址网址 | 国产一级免费视频 |