首頁 > 優(yōu)秀范文 > 數(shù)據(jù)分析分析技術(shù)
時間:2023-05-26 08:59:55
序論:速發(fā)表網(wǎng)結(jié)合其深厚的文秘經(jīng)驗,特別為您篩選了11篇數(shù)據(jù)分析分析技術(shù)范文。如果您需要更多原創(chuàng)資料,歡迎隨時與我們的客服老師聯(lián)系,希望您能從中汲取靈感和知識!
在生物信息學(xué)的成果的理論基礎(chǔ)之上,通過統(tǒng)計的方法查找未知的生物化學(xué)功能的疾病基因的位置。這個方法預(yù)先通過患病家族連鎖分析,再推斷包含這些基因的染色體區(qū)域片段,然后檢查該區(qū)域來尋找基因[1]。
數(shù)據(jù)挖掘在DNA數(shù)據(jù)分析的發(fā)展?fàn)顩r
現(xiàn)今所采用的是分子生物學(xué)與微電子技術(shù)相結(jié)合的核酸分析檢測技術(shù)[2]。DNA芯片技術(shù)的基本原理是將cDNA或寡核昔酸探針以105~106位點/cm2>/sup>的密度結(jié)合在固相支持物(即芯片)上,每個位點上的cDNA或寡核昔酸探針的順序是已知的,將該探針與熒光標(biāo)記的待測樣品DNA,RNA或cDNA在芯片上進行雜交,然后用激光共聚焦顯微鏡對芯片進行掃描,并配合計算機系統(tǒng)對雜交信號做出比較和檢測,從而迅速得出所需的信息。
基因數(shù)據(jù)挖掘常用的方法:①核酸與蛋白質(zhì)比較的預(yù)測分析:蛋白質(zhì)序列之間或核酸序列之間的兩兩比對,通過比較兩個序列之間的相似區(qū)域和保守性位點,尋找二者可能的分子進化關(guān)系。進一步的比對是將多個蛋白質(zhì)或核酸同時進行比較,尋找這些有進化關(guān)系的序列之間共同的保守區(qū)域、位點和profile,從而探索導(dǎo)致它們產(chǎn)生共同功能的序列模式。此外,還可以把蛋白質(zhì)序列與核酸序列相比來探索核酸序列可能的表達框架;把蛋白質(zhì)序列與具有三維結(jié)構(gòu)信息的蛋白質(zhì)相比,從而獲得蛋白質(zhì)折疊類型的信息。②針對核酸序列的預(yù)測方法:針對核酸序列的預(yù)測就是在核酸序列中尋找基因,找出基因的位置和功能位點的位置,以及標(biāo)記已知的序列模式等過程。在此過程中,確認(rèn)一段DNA序列是一個基因需要有多個證據(jù)的支持。一般而言,在重復(fù)片段頻繁出現(xiàn)的區(qū)域里,基因編碼區(qū)和調(diào)控區(qū)不太可能出現(xiàn);如果某段DN段的假想產(chǎn)物與某個已知的蛋白質(zhì)或其他基因的產(chǎn)物具有較高序列相似性的話,那么這個DN段就非常可能屬于外顯子片段;在一段DNA序列上出現(xiàn)統(tǒng)計上的規(guī)律性,即所謂的“密碼子偏好性”,也是說明這段DNA是蛋白質(zhì)編碼區(qū)的有力證據(jù);其他的證據(jù)包括與“模板”序列的模式相匹配、簡單序列模式如TATA Box等相匹配等。
案例分析
疾病是由于基因的片段內(nèi)的某個位置存在或發(fā)生改變而引起的,也就是發(fā)生突變。能否找出其中不同的地方,進而對其不同之處加以改變,使之成為正常基因?這都需要數(shù)據(jù)挖掘技術(shù)的支持。對基因的數(shù)據(jù)挖掘,就是對這些突變位置的尋找,并且找出該位置與所有者身患的疾病之間的關(guān)系。
方法的選擇:筆者在設(shè)計中選用單純的DNA序列進行比較,基因在計算機的表示和存儲時,可以使用一條很長的字符串來表示基因的某一條序列,使用文件的形式進行對基因工作者的提取成果創(chuàng)建一級數(shù)據(jù)庫,使用文件修整的方法進行數(shù)據(jù)的清洗,以滿足數(shù)據(jù)在二級數(shù)據(jù)庫中的一致性。同時在文件比較過程中,生成某兩個數(shù)據(jù)文件的差異狀況,保存在二級數(shù)據(jù)庫庫中,進一步的操作是對差異的位置的某個類型所占的比例。最后通過事先的對患者患病信息的統(tǒng)計得到的某種疾病在群中所占的比例,與其相比較,如果這兩個比例相等,則可以認(rèn)為這個位置的某個類型引起疾病的發(fā)生。從醫(yī)學(xué)院得到一些基因片段文件信息和患者(所有者)患病情況。
系統(tǒng)的實現(xiàn):基因片段在計算機中以文件形式存儲,用文件名標(biāo)識其所有者(源體)。片段起始地址和長度信息和所有患者患病情況保存在本機數(shù)據(jù)庫中。在程序測試過程中,將片段復(fù)制成40份,對其中部分文件的序列進行稍作修改,對所有患者的患病狀況進行稍作修改,以創(chuàng)造測試環(huán)境。顯示在與基因數(shù)據(jù)挖掘軟件同在一根目錄下的序列文件的集合。
其中一個文件所存儲的基因信息,見圖1。
啟動統(tǒng)計程序界面,單擊清空數(shù)據(jù)庫中的臨時用表數(shù)據(jù),將數(shù)據(jù)庫中有可能的雜音信息去掉。并對其中的所有文件進行統(tǒng)計前片段剪切,使所有片段的起始地址和長度都相同,避免發(fā)生序列移位。
沒有進行片段剪切之前,瀏覽文件所存的片段信息,片段剪切完成之后,設(shè)置進行比較操作的甲、乙組的文件添加,因為本次測試只檢驗片段中的一塊區(qū)域(文件中片段的所有信息),所以在起始序號那里添加為0,終止序號那里添加為175。這樣則可以保證統(tǒng)計文件的所有信息都被統(tǒng)計。
單擊結(jié)果顯示按鈕,可以見到程序以表格和條形圖標(biāo)方式。可以看到1、3、5、12、14、16、18、13、31、34、87、94、139、166位置的條形段較高。說明在這些接受統(tǒng)計的片段中,在上面提到的位置處存在的差異較大,與某遺傳疾病的關(guān)聯(lián)的可能性就越大。
如果用戶想要在初步統(tǒng)計結(jié)果的基礎(chǔ)上,按照數(shù)據(jù)庫中所有者的疾病狀況進行詳細(xì)統(tǒng)計的話,單擊菜單欄的詳細(xì)統(tǒng)計按鈕,選擇按疾病詳細(xì)統(tǒng)計,則將彈出窗口。
選擇弱視,輸入,則在文本框中顯示與其關(guān)聯(lián)的位置為1、3、5、12、14、16、18、13、31、34、87、94、139、166。
由此,用戶可以根據(jù)本系統(tǒng)所給出的預(yù)測對弱視遺傳疾病與序列中的特定位置,選擇適當(dāng)算法進行進一步的計算及檢驗,證明預(yù)測結(jié)果是否符合關(guān)聯(lián)理論。數(shù)據(jù)挖掘方法體系中的智能聚類的相關(guān)技術(shù)則可較好的解決類別數(shù)判定、結(jié)果驗證等問題。
結(jié) 論
對于生物信息或基因的數(shù)據(jù)挖掘和通常的數(shù)據(jù)挖掘相比,無論在數(shù)據(jù)的復(fù)雜程度、數(shù)據(jù)量還有分析和建立模型的算法而言,都要復(fù)雜得多。從分析算法上講,需要一些新的和好的算法;但技術(shù)和軟件還遠(yuǎn)沒有達到成熟的地步,因此需要不斷探索及研究。
參考文獻
1 引言
隨著電信網(wǎng)絡(luò)的不斷演進,全省數(shù)據(jù)網(wǎng)、交換網(wǎng)、接入網(wǎng)設(shè)備單月產(chǎn)生告警原始日志近億條。以上告警通過網(wǎng)元網(wǎng)管、專業(yè)綜合網(wǎng)管、智能網(wǎng)管系統(tǒng)[1]三層收斂,監(jiān)控人員每月需處理影響業(yè)務(wù)或網(wǎng)絡(luò)質(zhì)量的告警事件為20萬條,但一些對網(wǎng)絡(luò)可能造成隱患的告警信息被過濾掉。如何從海量告警數(shù)據(jù)中獲取與網(wǎng)絡(luò)性能指標(biāo)、運維效率相關(guān)的有價值的數(shù)據(jù),對于傳統(tǒng)的關(guān)系型數(shù)據(jù)庫架構(gòu)而言,似乎是一個不可能完成的任務(wù)。
在一般告警量情況下,ORACLE數(shù)據(jù)處理能力基本可以滿足分析需求,但當(dāng)告警分析量上升到億級,如果采用傳統(tǒng)的數(shù)據(jù)存儲和計算方式,一方面數(shù)據(jù)量過大,表的管理、維護開銷過大,要做到每個字段建索引,存儲浪費巨大;另一方面計算分析過程耗時過長,無法滿足實時和準(zhǔn)實時分析需求。因此必須采用新的技術(shù)架構(gòu)來分析處理海量告警信息,支撐主動維護工作顯得尤為必要,為此我們引入了大數(shù)據(jù)技術(shù)。
2 分析目標(biāo)
(1)數(shù)據(jù)源:電信運營商網(wǎng)絡(luò)設(shè)備告警日志數(shù)據(jù),每天50 G。
(2)數(shù)據(jù)分析目標(biāo):完成高頻翻轉(zhuǎn)類(瞬斷)告警分析;完成自定義網(wǎng)元、自定義告警等可定制告警分析;完成被過濾掉的告警分析、TOPN告警分析;核心設(shè)備和重要業(yè)務(wù)監(jiān)控。
(3)分析平臺硬件配置:云計算平臺分配8臺虛擬機,每臺虛機配置CPU16核;內(nèi)存32 G;硬盤2 T。
3 制定方案
進入大數(shù)據(jù)時代,行業(yè)內(nèi)涌現(xiàn)了大量的數(shù)據(jù)挖掘技術(shù),數(shù)據(jù)處理和分析更高效、更有價值。Google、Facebook等公司提供可行的思路是通過類似Hadoop[2]的分布式計算、MapReduce[3]、Spark[4]算法等構(gòu)造而成的新型架構(gòu),挖掘有價值信息。
Hadoop是Apache基金會用JAVA語言開發(fā)的分布式框架,通過利用計算機集群對大規(guī)模數(shù)據(jù)進行分布式計算分析。Hadoop框架最重要的兩個核心是HDFS和MapReduce,HDFS用于分布式存儲,MapReduce則實現(xiàn)分布式任務(wù)計算。
一個HDFS集群包含元數(shù)據(jù)節(jié)點(NameNode)、若干數(shù)據(jù)節(jié)點(DataNode)和客戶端(Client)。NameNode管理HDFS的文件系統(tǒng),DataNode存儲數(shù)據(jù)塊文件。HDFS將一個文件劃分成若干個數(shù)據(jù)塊,這些數(shù)據(jù)塊存儲DataNode節(jié)點上。
MapReduce是Google公司提出的針對大數(shù)據(jù)的編程模型。核心思想是將計算過程分解成Map(映射)和Reduce(歸約)兩個過程,也就是將一個大的計算任務(wù)拆分為多個小任務(wù),MapReduce框架化繁為簡,輕松地解決了數(shù)據(jù)分布式存儲的計算問題,讓不熟悉并行編程的程序員也能輕松寫出分布式計算程序。MapReduce最大的不足則在于Map和Reduce都是以進程為單位調(diào)度、運行、結(jié)束的,磁盤I/O開銷大、效率低,無法滿足實時計算需求。
Spark是由加州伯克利大學(xué)AMP實驗室開發(fā)的類Hadoop MapReduce的分布式并行計算框架,主要特點是彈性分布式數(shù)據(jù)集RDD[5],中間輸出結(jié)果可以保存在內(nèi)存中,節(jié)省了大量的磁盤I/O操作。Spark除擁有Hadoop MapReduce所具有的優(yōu)點外,還支持多次迭代計算,特別適合流計算和圖計算。
基于成本、效率、復(fù)雜性等因素,我們選擇了HDFS+Spark實現(xiàn)對告警數(shù)據(jù)的挖掘分析。
4 分析平臺設(shè)計
4.1 Hadoop集群搭建
基于CentOS-6.5系統(tǒng)環(huán)境搭建Hadoop集群,配置如表1所示。
4.2 Spark參數(shù)設(shè)置[6]
Spark參數(shù)設(shè)置如表2所示。
4.3 數(shù)據(jù)采集層
數(shù)據(jù)采集:由于需采集的告警設(shè)備種類繁多,故采取分布式的告警采集,數(shù)據(jù)網(wǎng)設(shè)備、交換網(wǎng)設(shè)備、接入網(wǎng)設(shè)備分別通過IP綜合網(wǎng)管、天元綜合網(wǎng)管、PON綜合網(wǎng)管進行采集,采集周期5分鐘一次。采集機先將采集到的告警日志文件,通過FTP接口上傳到智能網(wǎng)管系統(tǒng)文件服務(wù)器上,再對文件進行校驗,通過Sqoop推送到Hadoop集群上。
4.4 邏輯處理層
(1)建立高頻翻轉(zhuǎn)告警監(jiān)控工作流程
先將海量告警進行初步刪選,通過數(shù)量、位置和時間三個維度的分析,得出高頻翻轉(zhuǎn)類告警清單列表,最后由專業(yè)工程師甄別確認(rèn),對某類告警進行重點關(guān)注和監(jiān)控。
(2)差異化定制方案
按組網(wǎng)架構(gòu)細(xì)分,針對核心重要節(jié)點的所有告警均納入實時監(jiān)控方案;
按業(yè)務(wù)網(wǎng)絡(luò)細(xì)分,針對不同業(yè)務(wù)網(wǎng)絡(luò)設(shè)計個性化的監(jiān)控方案;
按客戶業(yè)務(wù)細(xì)分,針對客戶數(shù)字出租電路設(shè)計個性化的監(jiān)控方案。
4.5 數(shù)據(jù)分析層
Spark讀取Hive[7]表的告警數(shù)據(jù),然后在Spark引擎中進行SQL統(tǒng)計分析。Spark SQL模K在進行分析時,將外部告警數(shù)據(jù)源轉(zhuǎn)化為DataFrame[8],并像操作RDD或者將其注冊為臨時表的方式處理和分析這些數(shù)據(jù)。一旦將DataFrame注冊成臨時表,就可以使用類SQL的方式操作查詢分析告警數(shù)據(jù)。表3是利用Spark SQL對告警工單做的一個簡單分析:
5 平臺實踐應(yīng)用
探索運維數(shù)據(jù)分析的新方法,利用大數(shù)據(jù)分析技術(shù),分析可能影響業(yè)務(wù)/設(shè)備整體性能的設(shè)備告警,結(jié)合網(wǎng)絡(luò)性能數(shù)據(jù),找到網(wǎng)絡(luò)隱患,實現(xiàn)主動維護的工作目標(biāo)。
5.1 高頻翻轉(zhuǎn)類告警監(jiān)控
首先制定了高頻翻轉(zhuǎn)類告警分析規(guī)則,將連續(xù)7天每天原始告警發(fā)生24次以上定義為高頻翻轉(zhuǎn)類告警,并基于大數(shù)據(jù)平臺開發(fā)了相應(yīng)的分析腳本,目前已實現(xiàn)全專業(yè)所有告警類型的分析。表4是全省高頻翻轉(zhuǎn)類TOP10排名。
5.2 核心設(shè)備和重要業(yè)務(wù)監(jiān)控
目前以設(shè)備廠商或?qū)<医?jīng)驗評定告警監(jiān)控級別往往會與實際形成偏差,主要表現(xiàn)在以下幾個方面:監(jiān)控級別的差異化設(shè)定基于已知的告警類型,一旦網(wǎng)絡(luò)重大故障上報未知的告警類型就無法在第一時間有效監(jiān)控到;同一類型的故障告警出現(xiàn)在不同網(wǎng)絡(luò)層面可能影響業(yè)務(wù)的程度是完全不同的;不同保障級別的客戶對故障告警監(jiān)控的實時性要求也是不同的。
通過大數(shù)據(jù)分析平臺對差異化監(jiān)控提供了靈活的定制手段,可根據(jù)告警關(guān)鍵字,分專業(yè)、地市、網(wǎng)管、機房、告警頻次等維度自主定制需要的告警數(shù)據(jù),實現(xiàn)日、周、月、某個時間區(qū)等統(tǒng)計分析。
應(yīng)用案例:省NOC通過大數(shù)據(jù)分析出一條編號為CTVPN80113的中國平安大客戶電路在一段時間內(nèi)頻繁產(chǎn)生線路劣化告警,但用戶未申告,省NOC隨即預(yù)警給政企支撐工程師,政支工程師與用戶溝通后,派維護人員至現(xiàn)場處理,發(fā)現(xiàn)線路接頭松動,緊急處理后告警消除、業(yè)務(wù)恢復(fù)。
5.3 被過濾告警分析
全省每天網(wǎng)絡(luò)告警數(shù)據(jù)300萬條~500萬條,其中99%都會根據(jù)告警過濾規(guī)則進行過濾篩選,把過濾后的告警呈現(xiàn)給網(wǎng)絡(luò)監(jiān)控人員。過濾規(guī)則的準(zhǔn)確性直接影響告警數(shù)據(jù)的質(zhì)量。一般來說告警過濾規(guī)則可以從具有豐富運維經(jīng)驗的網(wǎng)絡(luò)維護人員獲得,但是這個過程非常繁瑣,而且通過人工途徑獲得的告警過濾規(guī)則在不同的應(yīng)用環(huán)境可能存在差異,無法滿足網(wǎng)絡(luò)維護的整體需要。采用大數(shù)據(jù)技術(shù)對被過濾的告警進行分析可以很好地完善過濾規(guī)則,讓真正急迫需要處理的告警優(yōu)先呈現(xiàn)給維護人員及時處理,真正做到先于客戶發(fā)現(xiàn)故障。表5是動環(huán)專業(yè)被過濾的告警情況分布。
5.4 動環(huán)深放電分析
動環(huán)網(wǎng)管通過C接口采集蓄電池電壓數(shù)據(jù),在停電告警產(chǎn)生之后,電壓數(shù)據(jù)首次下降到45 V,表示該局站電池出現(xiàn)深放電現(xiàn)象,通過計算這一放電過程的持續(xù)時間,記為深放電時長,該時長可以初步反映電池的放電性能。一個局站每天產(chǎn)生幾十萬條電壓等動環(huán)實時數(shù)據(jù)。
在告警數(shù)據(jù)分析的基礎(chǔ)上,實現(xiàn)對蓄電池電壓變化數(shù)據(jù)的分析,提醒分公司關(guān)注那些深放電次數(shù)過多和放電時長過短的局站,核查蓄電池、油機配置、發(fā)電安排等,并進行整治。利用Spark SQL統(tǒng)計了一個月內(nèi)撫州、贛州、吉安三分公司幾十億條動環(huán)數(shù)據(jù),分析了其中深放電的情況如表6所示。
6 結(jié)論
本文利用HDFS+Spark技術(shù),實驗性地解決告警數(shù)據(jù)存儲和分析等相關(guān)問題:一是通過數(shù)據(jù)分析,從海量告警數(shù)據(jù)中發(fā)現(xiàn)潛在的網(wǎng)絡(luò)隱患;二是結(jié)合資源信息和不同專業(yè)的告警,最終為用戶提供綜合預(yù)警;三是轉(zhuǎn)變網(wǎng)絡(luò)監(jiān)控思路和方式,通過數(shù)據(jù)匯聚、數(shù)據(jù)相關(guān)性分析、數(shù)據(jù)可視化展示,提高了網(wǎng)絡(luò)監(jiān)控效率;最后還擴展到對動環(huán)實時數(shù)據(jù)、信令數(shù)據(jù)進行分析。
從實際運行效果來看,HDFS和Spark完全可以取代傳統(tǒng)的數(shù)據(jù)存儲和計算方式,滿足電信運營商主動運維的需求。
參考文獻:
[1] 中國電信股份有限公司. 中國電信智能網(wǎng)管技術(shù)規(guī)范-總體分冊[Z]. 2015.
[2] Tom white. Hadoop權(quán)威指南[M]. 4版. 南京: 東南大學(xué)出版社, 2015.
[3] RP Raji. MapReduce: Simplified Data Processing on Large Clusters[Z]. 2004.
[4] Spark. Apache Spark?[EB/OL]. [2016-11-27]. http:///.
[5] Matei Zaharia, Mosharaf Chowdhury, Tathagata Das, et al. Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing[J]. Usenix Conference on Networked Systems Design & Implementation, 2012,70(2): 141-146.
[6] S鵬. Apache Spark源碼剖析[M]. 北京: 電子工業(yè)出版社, 2015.
[7] Hive. Apache HiveTM[EB/OL]. [2016-11-27]. http:///.
[8] Holden Karau, Andy Konwinski, Patrick Wendell, et al. Learning Spark: Lightning-Fast Big Data Analysis[M]. Oreilly & Associates Inc, 2015.
中圖分類號:TP392 文獻標(biāo)識碼:A 文章編號:1007-9599 (2013) 02-0000-03
OLAP(On-Line Analytical Processing,即聯(lián)機分析處理)是一種多維數(shù)據(jù)庫技術(shù)。這種技術(shù)的設(shè)計目的是針對特定問題的實時數(shù)據(jù)訪問和分析,并且提供直觀易懂的查詢結(jié)果。還有一種處理技術(shù)OLTP(on-Line transaction processing,即聯(lián)機事務(wù)處理),與OLAP不同,OLTP是傳統(tǒng)的關(guān)系型數(shù)據(jù)庫的主要應(yīng)用,主要是基本的、日常的事務(wù)處理。
1 OLAP技術(shù)介紹
1.1 OLAP技術(shù)的發(fā)展背景
60年代,關(guān)系數(shù)據(jù)庫之父E.F.Codd提出了關(guān)系模型,促進了聯(lián)機事務(wù)處理(OLTP)的發(fā)展(數(shù)據(jù)以表格的形式而非文件方式存儲)。1993年,E.F.Codd提出了OLAP概念,認(rèn)為OLTP已不能滿足終端用戶對數(shù)據(jù)庫查詢分析的需要,SQL對大型數(shù)據(jù)庫進行的簡單查詢也不能滿足終端用戶分析的要求。用戶的決策分析需要對關(guān)系數(shù)據(jù)庫進行大量計算才能得到結(jié)果,而查詢的結(jié)果并不能滿足決策者提出的需求。因此,E.F.Codd提出了多維數(shù)據(jù)庫和多維分析的概念,即OLAP。OLAP技術(shù)正是為了滿足決策管理的需求而產(chǎn)生的。
1.2 OLAP特征
OLAP的技術(shù)核心是"維"(Dimension)這個概念。“維”是指一種視角,是一個判斷、說明、評價和確定一個事物的多方位、多角度、多層次的條件和概念。通過把一個實體的多項重要的屬性定義為多個維,使用戶能對不同維上的數(shù)據(jù)進行動態(tài)的多維快速訪問和分析。包括:在維之間、成員之間交叉組合分析;對連續(xù)時間段進行趨勢分析;將數(shù)據(jù)切片從不同切面比較數(shù)據(jù);向下鉆取到組合數(shù)據(jù)的更深層觀察細(xì)節(jié)數(shù)據(jù);向上上卷到細(xì)節(jié)數(shù)據(jù)的更高層觀察匯總數(shù)據(jù).因此OLAP也可以說是多維數(shù)據(jù)分析工具的集合。由此可以得出OLAP的四個特征:多維性、快速性、可分析性和信息性。
1.3 多維數(shù)據(jù)的概念及層次關(guān)系
關(guān)系數(shù)據(jù)庫是圍繞一條一條“記錄”而形成的。多維數(shù)據(jù)庫的技術(shù)核心是“維”,類似于數(shù)組。下面舉例說明:NBA(National Basketball Association)聯(lián)盟有三種收入來源(轉(zhuǎn)播、門票和廣告),下表是其中兩支NBA球隊(LAKERS,KINGS)的銷售收入,其中表1是關(guān)系表,表2是根據(jù)每支球隊的銷售來源轉(zhuǎn)化成的多維表。
通過上圖可以看出,表2中表達的數(shù)據(jù)關(guān)系更直觀。在多維數(shù)據(jù)庫中,通常將“球隊”定義成“組織”(Entity)維,將“收入來源”定義為“業(yè)務(wù)方向”(Business)維,銷售額定義為“科目”(Account)維。表2從組織維和業(yè)務(wù)方向維展示了銷售收入狀況。其中,“Entity”為維度,球隊名稱:LAKERS,KINGS為維度成員,即維值。“維”具有層級關(guān)系,如父子關(guān)系,兄弟關(guān)系等。如本例中,Entity和LAKERS的關(guān)系就是父子關(guān)系,LAKERS和KINGS的關(guān)系為兄弟關(guān)系。若在Entity和LAKERS之間定義了其他維值,如NBA、WEST(西部)和Pacific Division(太平洋賽區(qū)),即:Entity-NBA-WEST-Pacific Division-LAKERS,那“Entity”與“LAKERS”的層級關(guān)系就變成了祖輩與后代的關(guān)系。
1.4 多維數(shù)據(jù)分析的操作
OLAP的基本多維分析操作有鉆取(roll up和drill down)、切片(slice)和切塊(dice)、以及旋轉(zhuǎn)(pivot)、drill across、drill through等,對數(shù)據(jù)進行剖析,使用戶能從多個角度、多側(cè)面地觀察數(shù)據(jù)庫中的數(shù)據(jù),從而深入分析包含在數(shù)據(jù)中的信息。
鉆取是改變維的層次,變換分析的粒度。它包括向上鉆取(roll up)和向下鉆取(drill down)。roll up是在某一維上將低層次的細(xì)節(jié)數(shù)據(jù)概括到高層次的匯總數(shù)據(jù),或者減少維數(shù);而drill down則相反,它從匯總數(shù)據(jù)深入到細(xì)節(jié)數(shù)據(jù)進行觀察或增加新維。切片和切塊是在一部分維上選定值后,關(guān)心度量數(shù)據(jù)在剩余維上的分布。如果剩余的維只有兩個,則是切片;如果有三個,則是切塊。旋轉(zhuǎn)是變換維的方向,即在表格中重新安排維的放置(即行列互換)。
根據(jù)綜合性數(shù)據(jù)的組織方式的不同,目前常見的OLAP主要有基于多維數(shù)據(jù)庫的MOLAP及基于關(guān)系數(shù)據(jù)庫的ROLAP兩種。MOLAP是以多維的方式組織和存儲數(shù)據(jù),ROLAP則利用現(xiàn)有的關(guān)系數(shù)據(jù)庫技術(shù)來模擬多維數(shù)據(jù)。在數(shù)據(jù)倉庫應(yīng)用中,OLAP應(yīng)用一般是數(shù)據(jù)倉庫應(yīng)用的前端工具,同時OLAP工具還可以同數(shù)據(jù)挖掘工具、統(tǒng)計分析工具配合使用,增強決策分析功能。
2 OLAP技術(shù)在企業(yè)財務(wù)預(yù)算數(shù)據(jù)分析中的具體
下面以O(shè)RACLE公司的產(chǎn)品Hyperion系統(tǒng)為例,介紹OLAP技術(shù)在企業(yè)財務(wù)預(yù)算數(shù)據(jù)分析中的應(yīng)用。Hyperion系統(tǒng)是一種基于Web的OLAP解決方案,該產(chǎn)品分為三層架構(gòu),客戶端、應(yīng)用服務(wù)器和Essbase數(shù)據(jù)庫。用戶可以通過瀏覽器訪問應(yīng)用服務(wù)器,進行檢索和分析數(shù)據(jù);也可以通過Essbase Spreadsheet Add-in插件直接對數(shù)據(jù)庫進行操作,進行數(shù)據(jù)訪問和分析。Essbase Spreadsheet Add-in是一款軟件,可以與Microsoft Excel實現(xiàn)無縫連接。安裝該插件程序后,Excel應(yīng)用程序中將增加一個菜單項――Essbase。該菜單提供了可以對數(shù)據(jù)庫操作的命令,例如“連接”、“旋轉(zhuǎn)”、“放大”(向下鉆取)、“縮小”(向上鉆取)、“發(fā)送”等功能按鈕。用戶僅通過單擊鼠標(biāo)然后進行拖放就可以展開立體式、快速靈活的數(shù)據(jù)訪問和分析。
下面應(yīng)用前面總結(jié)的多維數(shù)據(jù)庫技術(shù)方法對一大型能源集團公司的預(yù)算數(shù)據(jù)進行數(shù)據(jù)分析,數(shù)據(jù)分析的前提是在執(zhí)行了業(yè)務(wù)規(guī)則(可以認(rèn)為是計算財務(wù)數(shù)據(jù)的勾稽關(guān)系的公式)。連接數(shù)據(jù)庫和應(yīng)用“Budget”后,搭建一張利潤表。如圖1:
下面從多角度組合分析該大型能源集團公司的利潤情況。比如我們想了解集團公司下屬各單位2012年的盈利狀況,只需要選中“集團公司”,然后雙擊,即可進行向下鉆取,獲取各單位的數(shù)據(jù),如圖2:
以上是從組織維的角度對數(shù)據(jù)進行了查詢,現(xiàn)在換一個角度,我們從年份和場景進行對比各下屬單位的盈利情況,通過對“2012年”和“預(yù)算”維值的拖拽,選擇“2012年”的兄弟級成員“2010年”和“2011年”,選擇“預(yù)算”的兄弟級成員“實際”,從而形成圖3:
對比2010年、2011年的預(yù)算數(shù)、實際數(shù)和2012年的預(yù)算數(shù)據(jù),經(jīng)分析發(fā)現(xiàn),從集團公司層面,集團公司2010年的實際利潤1480超過了預(yù)計利潤1450;2010年、2011年實際利潤和2012年預(yù)算數(shù)據(jù)對比,每年利潤成上升趨勢,說明公司經(jīng)營狀況良好。但是再仔細(xì)分析發(fā)現(xiàn),2010年實際利潤雖然達到了預(yù)期目標(biāo),但是有一家分公司的利潤為-10,這就會讓分析人員去進一步研究是什么原因造成了這種狀況,對“上海分公司”執(zhí)行“僅保留”操作,“2010年”、“預(yù)算”和“2011年”、“實際”執(zhí)行相同的操作,然后將“凈利潤”展開,將“上海分公司”進行“旋轉(zhuǎn)”操作,得到下圖4:
通過對圖4分析得出,上海分公司凈利潤的減少是由于營業(yè)總成本的增加和投資收益的減少造成的,經(jīng)過進一步分析,其中營業(yè)總成本的增加體現(xiàn)在人員管理費的增加和研究開發(fā)費的增加,因為今年上海分公司引進了一批技術(shù)人才進行新技術(shù)的開發(fā)研究,預(yù)計技術(shù)成熟后,即可投入到開發(fā)生產(chǎn)中,為公司盈利。投資收益虧損是由于當(dāng)時對投資的一個項目沒有進行很好的預(yù)估,造成了公司的虧損。通過一系列的分析,得出了結(jié)論,這能夠指導(dǎo)公司在將來制定更加合理的戰(zhàn)略決策。
3 總結(jié)
按照企業(yè)的業(yè)務(wù)目標(biāo),對大量的企業(yè)數(shù)據(jù)進行分析和探索、揭示隱藏其中的規(guī)律性,指導(dǎo)管理者決策,OLAP技術(shù)的靈活、高效的特點被體現(xiàn)的淋漓盡致,對于從大型多維數(shù)據(jù)庫在獲取數(shù)據(jù)也顯得輕而易舉,另外它還具有啟發(fā)性,引領(lǐng)分析者進行進一步的思考,做進一步的分析,直至得到明確的結(jié)果和結(jié)論。能夠更好的指導(dǎo)企業(yè)進行經(jīng)營決策管理,提高企業(yè)經(jīng)濟效益,提升企業(yè)的市場競爭力。
參考文獻:
[1]ERIK THOMSEN.OLAP解決方案:創(chuàng)建多維信息系統(tǒng)(第二版)[M].朱建秋.北京:電子工業(yè)出版社,2004.
[2]施伯樂,朱揚勇.數(shù)據(jù)庫與智能數(shù)據(jù)分析:技術(shù)、實踐與應(yīng)用[M].上海:復(fù)旦大學(xué)出版社,2003.
[3]姚家奕.多維數(shù)據(jù)分析原理與應(yīng)用實驗教程[M].北京:電子工業(yè)出版社,2007.
[4]姚家奕.多維數(shù)據(jù)分析原理與應(yīng)用[M].北京:清華大學(xué)出版社,2004.
[5]劉汝焯.審計數(shù)據(jù)的多維分析技術(shù)[M].北京:清華大學(xué)出版社,2006.
[6]陳安,陳寧,周龍驤.數(shù)據(jù)挖掘技術(shù)及應(yīng)用[M].北京:科學(xué)出版社,2006.
中圖分類號:TP311 文獻標(biāo)識碼:A 文章編號:1007-9416(2017)03-0104-02
1 綜述
1.1 簡介
在數(shù)字化時代,需要新一代系統(tǒng)架構(gòu)提升業(yè)務(wù)創(chuàng)新能力。在新一代系統(tǒng)架構(gòu)中,大數(shù)據(jù)是核心要素。業(yè)務(wù)應(yīng)用能否自主發(fā)現(xiàn)與自助獲得高質(zhì)量的大數(shù)據(jù),就成為業(yè)務(wù)創(chuàng)新成敗的關(guān)鍵。這就要在搭建大數(shù)據(jù)平臺時,就著手大數(shù)據(jù)治理相關(guān)建設(shè)。
1.2 需求和意義
從某種意義上說大數(shù)據(jù)治理架構(gòu)需要以元數(shù)據(jù)為核心、提高大數(shù)據(jù)質(zhì)量、透明化大數(shù)據(jù)資產(chǎn)、自助化數(shù)據(jù)開發(fā)、自動化數(shù)據(jù)、智能化數(shù)據(jù)安全,提升大數(shù)據(jù)平臺服務(wù)能力,讓大數(shù)據(jù)平臺變得易使用、易獲得、高質(zhì)量。
但是,目前很多技術(shù)解決方案存在諸多安全和效率隱患:業(yè)務(wù)系統(tǒng)多,監(jiān)管力度大;數(shù)據(jù)量龐大且呈碎片化分布,急需提升大數(shù)據(jù)質(zhì)量;數(shù)據(jù)格式不規(guī)范、難以在短時間內(nèi)找到所需數(shù)據(jù);數(shù)據(jù)在各階段的應(yīng)用角度不同,需要降低系統(tǒng)間的集成復(fù)雜度。
2 功能設(shè)計
2.1 總體架構(gòu)
本文講述的數(shù)據(jù)分析方法及實現(xiàn)技術(shù)是建立在Hadoop/Spark技術(shù)生態(tài)圈的基礎(chǔ)之上,以實現(xiàn)用戶集成處理、、清理、分析的一個統(tǒng)一的數(shù)據(jù)處理平臺;按數(shù)據(jù)類別分為線數(shù)據(jù)、歸檔數(shù)據(jù);按數(shù)據(jù)格式分為非結(jié)構(gòu)化數(shù)據(jù)、結(jié)構(gòu)化數(shù)據(jù);按數(shù)據(jù)模型分類為范式化模型數(shù)據(jù)、維度模型數(shù)據(jù);按數(shù)據(jù)采集頻度分為非實時數(shù)據(jù)、準(zhǔn)實時數(shù)據(jù)處理架構(gòu);并提供數(shù)據(jù)中心平臺與安全管理方案,為企業(yè)級用戶建立一個通用數(shù)據(jù)處理和分析中心。如圖1所示。
2.2 在線數(shù)據(jù)
在線數(shù)據(jù)在線通過接口去獲得的數(shù)據(jù),一般要求為秒級或速度更快。首先應(yīng)當(dāng)將數(shù)據(jù)進行區(qū)分:在線數(shù)據(jù)、或歸檔數(shù)據(jù)。本平臺中采用:Storm或Spark Streaming框架進行實現(xiàn)。Spark Streaming將數(shù)據(jù)切分成片段,變成小批量時間間隔處理,Spark抽象一個持續(xù)的數(shù)據(jù)流稱為DStream(離散流),一個DStream是RDD彈性分布式數(shù)據(jù)集的micro-batch微批次,RDD是分布式集合能夠并行地被任何函數(shù)操作,也可以通過一個滑動窗口的數(shù)據(jù)進行變換。
2.3 歸檔數(shù)據(jù)
歸檔數(shù)據(jù)是在線存儲周期超過數(shù)據(jù)生命周期規(guī)劃的數(shù)據(jù),處理的要求一般在分鐘級或速度更慢。通常歸檔數(shù)據(jù)的計算量、數(shù)據(jù)量、數(shù)據(jù)復(fù)雜度均超過試試數(shù)據(jù)處理。本平臺中采用:Hadoop、Spark技術(shù)生態(tài)體系內(nèi)的框架進行計算,這里不詳細(xì)闡述。
2.4 非結(jié)構(gòu)化數(shù)據(jù)
通常非結(jié)構(gòu)化的數(shù)據(jù)不一定具備字段,即使具備字段其長度也不固定,并且字段的又可是由可不可重復(fù)和重復(fù)的子字段組成,不僅可以包含結(jié)構(gòu)化數(shù)據(jù),更適合處理非結(jié)構(gòu)化數(shù)據(jù)。常見的非結(jié)構(gòu)化數(shù)據(jù)包括XML、文本、圖象、聲音、影音、各類應(yīng)用軟件產(chǎn)生的文件。
針對包含文字、數(shù)據(jù)的為結(jié)構(gòu)化數(shù)據(jù)應(yīng)當(dāng)先利用數(shù)據(jù)清洗、數(shù)據(jù)治理工具進行提取,這項工作目前仍依賴技術(shù)員進行操作,由于格式的復(fù)雜性所以難以使用自動化方式進行較為高效的批處理。在治理數(shù)據(jù)的過程中,需要根據(jù)情況對數(shù)據(jù)本身額外建立描述數(shù)據(jù)結(jié)構(gòu)的元數(shù)據(jù)、以及檢索數(shù)據(jù)的索引服務(wù),以便后續(xù)更佳深度利用數(shù)據(jù)。
2.5 結(jié)構(gòu)化數(shù)據(jù)
結(jié)構(gòu)化數(shù)據(jù)具備特定的數(shù)據(jù)結(jié)構(gòu),通常可以轉(zhuǎn)換后最終用二維的結(jié)構(gòu)的數(shù)據(jù),并且其字段的含義明確,是挖掘數(shù)據(jù)價值的主要對象。
本平臺中主要使用Hadoop Impala和Spark SQL來進行結(jié)構(gòu)化數(shù)據(jù)的處理。Impale底層采用C++實現(xiàn),而非Hadoop的基于Java的Map-Reduce機制,將性能提高了1-2個數(shù)量級。而Spark SQL提供很好的性能并且與Shark、Hive兼容。提供了對結(jié)構(gòu)化數(shù)據(jù)的簡便的narrow-waist操作,為高級的數(shù)據(jù)分析統(tǒng)一了SQL結(jié)構(gòu)化查詢語言與命令式語言的混合使用。
結(jié)構(gòu)化數(shù)據(jù)根據(jù)采集頻度可以繼續(xù)分類為:非實時數(shù)據(jù)、準(zhǔn)實時數(shù)據(jù)。
2.6 準(zhǔn)實時數(shù)據(jù)
通常準(zhǔn)實時數(shù)據(jù)是指數(shù)據(jù)存儲在平臺本身,但更新頻率接近于接口調(diào)用數(shù)據(jù)源的數(shù)據(jù)。適合用于支持?jǐn)?shù)據(jù)和信息的查詢,但數(shù)據(jù)的再處理度不高,具有計算并發(fā)度高、數(shù)據(jù)規(guī)模大、結(jié)果可靠性較高的特點。通常使用分布式數(shù)據(jù)處理提高數(shù)據(jù)規(guī)模、使用內(nèi)存數(shù)據(jù)進行計算過程緩沖和優(yōu)化。本平臺主要采用Spark SQL結(jié)合高速緩存Redis的技術(shù)來實現(xiàn)。Spark SQL作為大數(shù)據(jù)的基本查詢框架,Redis作為高速緩存去緩存數(shù)據(jù)熱區(qū),減小高并發(fā)下的系統(tǒng)負(fù)載。
2.7 非實時數(shù)據(jù)
非實時數(shù)據(jù)主要應(yīng)用于支持分析型應(yīng)用,時效性較低。通常用于數(shù)據(jù)的深度利用和挖掘,例如:因素分析、信息分類、語義網(wǎng)絡(luò)、圖計算、數(shù)值擬合等。
非實時數(shù)據(jù)根據(jù)數(shù)據(jù)模型可繼續(xù)分類為:范式化模型數(shù)據(jù)、維度模型數(shù)據(jù)。
2.8 范式化模型
范式化模型主要是針對關(guān)系型數(shù)據(jù)庫設(shè)計范式,通常稻菔遣捎玫諶范式3NF或更高范式。面向近源數(shù)據(jù)查詢、數(shù)據(jù)主題的整合。范式化模型數(shù)據(jù)的數(shù)據(jù)存儲區(qū),建議使用并行MPP數(shù)據(jù)庫集群,既具備關(guān)系型數(shù)據(jù)庫的優(yōu)點,又兼顧了大數(shù)據(jù)下的處理。
2.9 基于維度模型
維度模型數(shù)據(jù)主要應(yīng)用于業(yè)務(wù)系統(tǒng)的數(shù)據(jù)挖掘和分析。過去多維度數(shù)據(jù)處理主要依賴OLAP、BI等中間件技術(shù),而在大數(shù)據(jù)和開源框架的時代下,本技術(shù)平臺采用Hadoop Impala來進行實現(xiàn)。Impala并沒有使用MapReduce這種不太適合做SQL查詢的范式,而是參考了MPP并行數(shù)據(jù)庫的思想另起爐灶,省掉不必要的shuffle、sort等開銷,使運算得到優(yōu)化。
3 應(yīng)用效果
本系統(tǒng)在不同的業(yè)務(wù)領(lǐng)域上都可以應(yīng)用,以2016年在某銀行的應(yīng)用案例為例:該銀行已完成數(shù)據(jù)倉庫建設(shè),但眾多數(shù)據(jù)質(zhì)量問題嚴(yán)重影響了數(shù)據(jù)應(yīng)用的效果,以不同的數(shù)據(jù)存儲方式,以更高的要求去進行數(shù)據(jù)的統(tǒng)一管理。通過組織、制度、流程三個方面的實施,以元數(shù)據(jù)、數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)質(zhì)量平臺為支撐,實現(xiàn)了數(shù)據(jù)管控在50多個分支,60個局,1000余處的全面推廣,實現(xiàn)了全行的覆蓋;管理了120個系統(tǒng)和數(shù)據(jù)倉庫,顯著提升了新系統(tǒng)的快速接入能力;通過14個數(shù)據(jù)規(guī)范和流程明確了數(shù)據(jù)管控的分工;數(shù)據(jù)考核機制的實施,使其在數(shù)據(jù)質(zhì)量評比中名列前茅。
4 結(jié)語
本文介紹了大數(shù)據(jù)下數(shù)據(jù)分析方法及實現(xiàn)技術(shù)的大體設(shè)計和思路,從需求分析、總體架構(gòu)和數(shù)據(jù)處理以及數(shù)據(jù)分析這幾個方面來介紹。文章在最后介紹出了這種平臺的應(yīng)用效果。筆者相信這些思路和技術(shù)能夠在業(yè)務(wù)中能得到很好的應(yīng)用。
前言:在對頻譜監(jiān)測數(shù)據(jù)分析中,簡單統(tǒng)計分析已經(jīng)無法滿足頻譜監(jiān)測數(shù)據(jù)實際需求,需要對數(shù)據(jù)深入研究,探索配頻譜監(jiān)測數(shù)據(jù)潛在關(guān)聯(lián),尋找到異常信號,有效提升頻譜監(jiān)測精確性,起到輔作用。數(shù)據(jù)挖掘技術(shù)在應(yīng)用過程中,能夠挖掘海量數(shù)據(jù)內(nèi)價值,有關(guān)監(jiān)督設(shè)備可以對數(shù)據(jù)進行掃描,深入分析有關(guān)數(shù)據(jù)。
一、數(shù)據(jù)挖掘技術(shù)簡介
1.1數(shù)據(jù)挖掘的概念
在上世紀(jì)90年代內(nèi),研究人員提出了數(shù)據(jù)挖掘,主要目的就是希望能夠?qū)⑺杉降膽?yīng)用數(shù)據(jù)內(nèi)所具有的潛在價值信息挖掘,獲取價值信息。數(shù)據(jù)挖掘內(nèi)包含較多學(xué)科內(nèi)容,例如人工智能、統(tǒng)計、可視化技術(shù)、數(shù)據(jù)庫等。數(shù)據(jù)挖掘在對數(shù)據(jù)分析研究過程中,主要采取分類及聚類進行監(jiān)測,對有關(guān)知識進行演變。數(shù)據(jù)挖掘常見模式主要分為四種,分別為頻繁模式、分類模式、聚類模式與異常模式[1]。
1.2數(shù)據(jù)挖掘的過程
1、數(shù)據(jù)準(zhǔn)備。數(shù)據(jù)準(zhǔn)備階段主要包含兩方面工作,分別為數(shù)據(jù)獲取和數(shù)據(jù)預(yù)處理。數(shù)據(jù)挖掘應(yīng)用點在確定之后,能夠有效對有關(guān)數(shù)據(jù)進行收集,同時對數(shù)據(jù)背景進行掌握,對挖掘模式進行確定。有關(guān)數(shù)據(jù)在收集之后,需要對數(shù)據(jù)內(nèi)所包含的冗余數(shù)據(jù)及空缺數(shù)據(jù)進行預(yù)處理,為計算機分析奠定堅實基礎(chǔ)。
2、數(shù)據(jù)挖掘。數(shù)據(jù)娃聚主要是在數(shù)量及挖掘目標(biāo)確定之后,選擇合適的數(shù)據(jù)挖掘方法及技術(shù),對數(shù)據(jù)進行計算分析,構(gòu)建針對性數(shù)據(jù)。
3、挖掘結(jié)果展示。數(shù)據(jù)挖掘技術(shù)所得到的數(shù)據(jù)結(jié)果,十分抽象,除了數(shù)據(jù)挖掘技術(shù)行業(yè)工作人員無法對數(shù)據(jù)挖掘結(jié)果進行了解,所以需要對數(shù)據(jù)挖掘結(jié)果進行轉(zhuǎn)化,通過圖形及圖像的方式,將挖掘結(jié)果在屏幕內(nèi)顯示出來,直觀將挖掘結(jié)果展示出來,用戶能夠?qū)ν诰蚪Y(jié)果深入理解。
4、挖掘結(jié)果應(yīng)用分析。按照挖掘背景及目的,對數(shù)據(jù)挖掘結(jié)果進行系統(tǒng)性分析研究,進而找到海量數(shù)據(jù)內(nèi)具有價值的信息,同時這些信息技有關(guān)生產(chǎn),對數(shù)據(jù)挖掘結(jié)果正確性進行判斷,對數(shù)據(jù)挖掘有關(guān)知識進行修正、完善[2]。
二、數(shù)據(jù)挖掘技術(shù)在頻譜監(jiān)測數(shù)據(jù)分析中的應(yīng)用
2.1認(rèn)知無線電中頻譜資源預(yù)測應(yīng)用
認(rèn)知無線在頻譜監(jiān)測數(shù)據(jù)內(nèi)應(yīng)用,能夠有效提高頻譜監(jiān)測數(shù)據(jù)質(zhì)量,同時非授權(quán)用戶也可以對頻譜資源進行利用。授權(quán)用戶在對頻譜監(jiān)測數(shù)應(yīng)用過程中,非授權(quán)用戶能夠直接將頻譜監(jiān)測數(shù)據(jù)資源讓出來,非授權(quán)用戶就需要充分構(gòu)建頻譜途徑,構(gòu)建通信連接。非授權(quán)用戶要是沒有直接將頻譜資源讓出來,授權(quán)用戶與非授權(quán)用戶之間就會產(chǎn)生矛盾,進而造成通信中斷,這樣情況所將的損失將是無法預(yù)計的。所以,非授權(quán)用戶及授權(quán)用戶要是都能夠?qū)︻l譜資源精確劃分,能夠有效對資源矛盾事件防止,在這種情況下頻譜監(jiān)測資源利用效率也就顯著提升。
正式由于認(rèn)識無線電技術(shù)在實際應(yīng)用內(nèi)所具有的優(yōu)勢,在對認(rèn)知無線電技術(shù)分析研究過程中,需要將重點放在授權(quán)用戶應(yīng)用規(guī)律上面,對授權(quán)用戶占據(jù)頻譜監(jiān)測數(shù)據(jù)空余時間進行預(yù)測,幫助非授權(quán)用戶能夠在授權(quán)用戶空余時間內(nèi)尋找利用有關(guān)資源,這種預(yù)測性分析研究主要是通過數(shù)據(jù)挖掘技術(shù)內(nèi)的頻發(fā)模式實現(xiàn)。
2.2異常無線電信號監(jiān)測應(yīng)用
無線電監(jiān)測站在常規(guī)監(jiān)測過程中,最為主要的一項工作就是對異常無線電信號進行監(jiān)測,嚴(yán)禁非法占用情況出現(xiàn),有效提高無線電通信安全性能。
按照無線電監(jiān)測所產(chǎn)生的數(shù)據(jù)可知,頻譜設(shè)備屬于常規(guī)性運行,一旦出現(xiàn)異常運行情況,所輸出的信號就與常規(guī)狀態(tài)下信號存在一定差異。所以,想要了解頻譜設(shè)備出現(xiàn)異常情況,只需要將將信號進行分析比較,數(shù)據(jù)挖掘技術(shù)能夠有效對海量信號內(nèi)特點進行提取,在海量信號內(nèi)尋找到異常信號。數(shù)據(jù)挖掘技術(shù)在無線電監(jiān)測內(nèi)應(yīng)用,首先是通過無線電監(jiān)測歷史數(shù)據(jù)構(gòu)建數(shù)據(jù)模型,模型在具有自我學(xué)習(xí)能力之后,能夠應(yīng)對無線電瞬息變化環(huán)境,對數(shù)據(jù)模型與歷史數(shù)據(jù)模型相似點進行計算,在發(fā)現(xiàn)無線電設(shè)備出現(xiàn)異常運行情況之后,數(shù)據(jù)模型就會發(fā)出警告。
結(jié)論:數(shù)據(jù)挖掘技術(shù)在頻譜監(jiān)測數(shù)據(jù)分析內(nèi)應(yīng)用,能夠有效對l譜監(jiān)測數(shù)據(jù)分析流程進行簡化,在大量數(shù)據(jù)信息內(nèi)高效率的找到針對性數(shù)據(jù)信息,提高信息挖掘質(zhì)量,進而為管理人員提供針對性意見。正式由于數(shù)據(jù)挖掘技術(shù)在頻譜監(jiān)測數(shù)據(jù)分析內(nèi)所具有的作用,所以對數(shù)據(jù)挖掘技術(shù)進行分析研究,能夠有效推動頻譜監(jiān)測數(shù)據(jù)發(fā)展。
引言
運用大數(shù)據(jù)技術(shù)來加強對市場主體的服務(wù)和監(jiān)管,是促進政府職能轉(zhuǎn)變、簡政放權(quán)和優(yōu)化服務(wù)的有效手段,也是近年來的發(fā)展趨勢[1]。國務(wù)院辦公廳的《國務(wù)院辦公廳關(guān)于運用大數(shù)據(jù)加強對市場主體服務(wù)和監(jiān)管的若干意見》中要求,各級政府部門都要充分認(rèn)識運用大數(shù)據(jù)技術(shù)加強對市場主體服務(wù)和監(jiān)管的重要性,通過運用大數(shù)據(jù)技術(shù)來提高對市場主體的服務(wù)水平、加強和改進新形勢下的市場監(jiān)管能力,并以此為動力推進政府和社會信息資源的開放和共享,提高政府部門運用大數(shù)據(jù)技術(shù)的水平。為了進一步加強和改進市場監(jiān)管方法,提升市場監(jiān)管部門的市場主體服務(wù)能力,順應(yīng)大數(shù)據(jù)時代潮流,運用大數(shù)據(jù)技術(shù)加強對市場主體的服務(wù)和監(jiān)管,促進政府職能轉(zhuǎn)變,做好簡政放權(quán)和優(yōu)化服務(wù),在現(xiàn)有軟硬件資源的基礎(chǔ)上,整合原工商、質(zhì)監(jiān)、食藥監(jiān)、物價、知識產(chǎn)權(quán)等相關(guān)部門各個業(yè)務(wù)系統(tǒng)的數(shù)據(jù),建設(shè)基于可視化技術(shù)的市場監(jiān)管大數(shù)據(jù)分析系統(tǒng)。基于可視化技術(shù)的市場監(jiān)管大數(shù)據(jù)分析系統(tǒng)由數(shù)據(jù)倉庫、大數(shù)據(jù)分析軟件及相關(guān)軟硬件設(shè)備組成。
1系統(tǒng)架構(gòu)
系統(tǒng)采用松耦合、高聚合、多層次和面向服務(wù)的體系結(jié)構(gòu),堅持功能實用、接口規(guī)范和高響應(yīng)時效的原則,采用J2EE架構(gòu)和多服務(wù)器、虛擬化和集群化的部署方式。支持Oracle、mysql、SqlServer、DB2等主流數(shù)據(jù)庫,支持Hadoop分布式系統(tǒng)基礎(chǔ)架構(gòu)。采用了兼容性較好的B/S模式,并結(jié)合當(dāng)前科技創(chuàng)新工作的要求,支持Linux系統(tǒng)客戶端下的火狐、谷歌等主流瀏覽器。系統(tǒng)的基本架構(gòu)如圖1所示。系統(tǒng)的數(shù)據(jù)源來自原工商、質(zhì)監(jiān)、食藥監(jiān)、物價、知識產(chǎn)權(quán)等多個部門不同廠家、不同版本的業(yè)務(wù)軟件,經(jīng)過數(shù)據(jù)清洗模塊對各部門的數(shù)據(jù)進行整理、清洗,存入數(shù)據(jù)倉庫。J2EE平臺調(diào)用數(shù)據(jù)分析模型接口對數(shù)據(jù)倉庫中的數(shù)據(jù)進行分析,并通過可視化工具以圖、表等形式對結(jié)果進行可視化輸出。
2數(shù)據(jù)預(yù)處理
由于數(shù)據(jù)源所在的數(shù)據(jù)產(chǎn)生部門、數(shù)據(jù)庫廠商和版本各不相同,數(shù)據(jù)庫中表結(jié)構(gòu)的差異較大,必須先對從各數(shù)據(jù)源中抽取的數(shù)據(jù)進行預(yù)處理,將清洗整理過的數(shù)據(jù)存儲到數(shù)據(jù)倉庫中,才能把數(shù)據(jù)完整、有效地提供給數(shù)據(jù)分析模塊進行分析,并對分析產(chǎn)生的結(jié)果進行可視化輸出。
2.1源數(shù)據(jù)抽取針對多部門不同的數(shù)據(jù)庫系統(tǒng),都開發(fā)了相應(yīng)的數(shù)據(jù)庫接口進行數(shù)據(jù)抽取,對于未采用數(shù)據(jù)庫進行存儲的數(shù)據(jù),則通過從軟件用戶端界面手動導(dǎo)入的方法進行抽取。抽取到的源數(shù)據(jù)保存在前置數(shù)據(jù)庫中。前置數(shù)據(jù)庫提供了自定義表結(jié)構(gòu)功能,用戶可通過數(shù)據(jù)導(dǎo)入模塊自行定義表結(jié)構(gòu)和數(shù)據(jù)表中的字段屬性,以便靈活導(dǎo)入未經(jīng)過事先定義的數(shù)據(jù)。以市場監(jiān)管工作中的反不正當(dāng)競爭監(jiān)管數(shù)據(jù)為例,通過數(shù)據(jù)抽取模塊將行政執(zhí)法的基本數(shù)據(jù)(案件號,案件名稱,當(dāng)事人,案值,處罰金額,立案時間等)導(dǎo)入系統(tǒng)后,系統(tǒng)將數(shù)據(jù)自動轉(zhuǎn)化并存儲至前置庫的數(shù)據(jù)表中,數(shù)據(jù)表中相關(guān)字段的屬性自動根據(jù)導(dǎo)入的字段類型進行判斷,若表中部分字段內(nèi)容缺失,系統(tǒng)先以默認(rèn)值填充,待數(shù)據(jù)清洗時進一步處理。前置庫中的行政執(zhí)法信息數(shù)據(jù)如表1所示。
2.2數(shù)據(jù)清洗
數(shù)據(jù)清洗是對前置庫中的數(shù)據(jù)進行校驗和審查的過程[2]。數(shù)據(jù)清洗的目的是刪除前置庫中的重復(fù)信息、糾正錯誤數(shù)據(jù),并將字段值的單位進行統(tǒng)一[3-6]。來自各部門的歷史數(shù)據(jù)往往存在數(shù)據(jù)重復(fù)、無效值、空值等實際情況,需要對其進行數(shù)據(jù)清洗后再存儲到數(shù)據(jù)倉庫中以供進一步分析展示使用。對源數(shù)據(jù)的數(shù)據(jù)清洗主要采用以下方法進行。對源數(shù)據(jù)中屬性值均相等的數(shù)據(jù)視為重復(fù)信息,將其進行合并處理,只保留一條重復(fù)的數(shù)據(jù)。對源數(shù)據(jù)中的存在空值的不完整信息,若某個屬性存在的空值過多,且該屬性對所展示的問題不是特別重要,則刪除該屬性;若該屬性僅存在少量空值,則判斷該屬性與其它屬性間的相關(guān)性,存在相關(guān)性的根據(jù)其他屬性的值和相關(guān)規(guī)則推測該屬性的值,無法推測的保留空值。若處理后的某條數(shù)據(jù)存在的空值仍然過多,則將此條數(shù)據(jù)刪除,否則保留此條數(shù)據(jù)并保留空值。對源數(shù)據(jù)中日期等格式不規(guī)范的數(shù)據(jù)進行格式轉(zhuǎn)換,將不同的數(shù)據(jù)格式轉(zhuǎn)換成統(tǒng)一格式。清洗后的數(shù)據(jù)存儲在數(shù)據(jù)倉庫中,供數(shù)據(jù)分析模型和可視化工具讀取并產(chǎn)生可視化分析結(jié)果。
3基于可視化技術(shù)的大數(shù)據(jù)分析系統(tǒng)
利用數(shù)據(jù)可視化工具,開發(fā)市場監(jiān)管大數(shù)據(jù)可視化平臺,將處理過的市場監(jiān)管數(shù)據(jù)以多種類型的圖、表等形式直觀地展現(xiàn)出來,并對展現(xiàn)出來的信息進行標(biāo)注、解析、匯總和分析,系統(tǒng)能直觀的顯示出市場主體的基本概況、發(fā)展趨勢、風(fēng)險預(yù)警等信息。
3.1數(shù)據(jù)可視化技術(shù)
數(shù)據(jù)可視化技術(shù)是通過算法和工具對多維的信息空間進行定量的處理和計算,將大型數(shù)據(jù)集中的數(shù)據(jù)處理后以圖形圖像形式表示出來,從而將數(shù)據(jù)中隱藏的信息直觀地展現(xiàn)給用戶[7-9]。目前數(shù)據(jù)可視化技術(shù)已經(jīng)提出了多種方法,根據(jù)原理的不同可以劃分為面向像素的技術(shù)、基于幾何的技術(shù)、基于圖像的技術(shù)、基于圖標(biāo)的技術(shù)、基于層次的技術(shù)和分布式技術(shù)等[10-12]。
3.2市場監(jiān)管大數(shù)據(jù)分析系統(tǒng)
市場監(jiān)管大數(shù)據(jù)分析系統(tǒng)運用大數(shù)據(jù)技術(shù)來提高市場監(jiān)管部門的公共服務(wù)能力,對市場主體事中后監(jiān)管數(shù)據(jù)進行高效的采集和整合。系統(tǒng)利用市場監(jiān)管大數(shù)據(jù),制定規(guī)范了市場監(jiān)管大數(shù)據(jù)標(biāo)準(zhǔn)體系,將大數(shù)據(jù)分析結(jié)果作為提高市場監(jiān)管治理能力重要手段,不斷提高服務(wù)和監(jiān)管的針對性和有效性。市場監(jiān)管大數(shù)據(jù)分析系統(tǒng)主要包括數(shù)據(jù)倉庫平臺及分析展示平臺兩大部分。數(shù)據(jù)倉庫平臺將原有各單位業(yè)務(wù)軟件中的數(shù)據(jù)進行抽取,進行清洗及格式轉(zhuǎn)換后存儲在數(shù)據(jù)倉庫中;大數(shù)據(jù)分析展示平臺將數(shù)據(jù)倉庫中的數(shù)據(jù)通過建模,以可視化的方式將結(jié)果展示給市場監(jiān)管人員,提高市場監(jiān)管部門的公共服務(wù)能力和事中事后監(jiān)管水平。數(shù)據(jù)分析平臺包括綜合查詢、業(yè)務(wù)分析、風(fēng)險預(yù)警、決策支持、綜合分析等主要功能模塊及年報監(jiān)控、統(tǒng)計報表等輔助功能模塊。系統(tǒng)的主要功能模塊如圖2所示。其中,大數(shù)據(jù)分析工具主要采用集成了報表引擎、全文檢索引擎、多維分析引擎、數(shù)據(jù)挖掘引擎及數(shù)據(jù)可視化組件中的BI工具實現(xiàn)。通過數(shù)據(jù)可視化BI組件,為用戶提供應(yīng)用層各功能模塊的分析結(jié)果可視化輸出,實現(xiàn)了市場主體分析的GIS熱力圖、放射性樹狀圖、標(biāo)簽云等各類圖形和報表輸出等功能。
4系統(tǒng)實用效果
doi:10.3969/j.issn.1673 - 0194.2015.18.046
[中圖分類號]TP391 [文獻標(biāo)識碼]A [文章編號]1673-0194(2015)18-00-02
新疆油田公司經(jīng)過10多年的數(shù)字油田建設(shè),于2008年建成數(shù)字油田,油田中心數(shù)據(jù)庫包括勘探、開發(fā)、儲運、生產(chǎn)輔助、經(jīng)營管理等業(yè)務(wù)領(lǐng)域的各類數(shù)據(jù),涉及油田開發(fā)的數(shù)據(jù)包括單井、區(qū)塊的日月報數(shù)據(jù)、分析化驗數(shù)據(jù)、試井與生產(chǎn)測井?dāng)?shù)據(jù)、井下作業(yè)數(shù)據(jù)、井史數(shù)據(jù)以及地理信息數(shù)據(jù)等,種類豐富齊全,質(zhì)量達到標(biāo)準(zhǔn)要求,為生產(chǎn)數(shù)據(jù)分析應(yīng)用提供了數(shù)據(jù)資源基礎(chǔ)。2010年,新疆油田啟動智能化油田建設(shè)工作,包括油氣生產(chǎn)物聯(lián)網(wǎng)(A11)項目及單井問題診斷和優(yōu)化系統(tǒng)研發(fā)工作,加大了油田自動化數(shù)據(jù)采集的力度及智能化分析應(yīng)用。通過近幾年的研究與實踐發(fā)現(xiàn),智能油田的全面感知、分析預(yù)測、優(yōu)化決策等均與大數(shù)據(jù)分析有關(guān),根據(jù)油田大數(shù)據(jù)分析發(fā)現(xiàn)油水井生產(chǎn)規(guī)律,可以更好地指導(dǎo)油田生產(chǎn)及優(yōu)化決策。
1 油田大數(shù)據(jù)的概念及處理流程
大數(shù)據(jù)首先具有四個主要特點:數(shù)據(jù)量大(Volume)、產(chǎn)生速度快(Velocity)、數(shù)據(jù)類型多(Variety),數(shù)據(jù)的真實性(Veracity),合稱4V或4Vs。大數(shù)據(jù)由巨型數(shù)據(jù)集組成,其數(shù)據(jù)量超出人們采用常規(guī)方法在可接受時間內(nèi)收集、使用、管理和處理數(shù)據(jù)的能力,但最終體現(xiàn)為價值,實現(xiàn)數(shù)據(jù)信息知識智慧的轉(zhuǎn)變。在油田生產(chǎn)中大數(shù)據(jù)分析的概念可理解為:在油田生產(chǎn)、管理中產(chǎn)生的具有連續(xù)變化、能夠反映油田客觀規(guī)律的各類數(shù)據(jù),以及對這些數(shù)據(jù)的分析處理。
大數(shù)據(jù)的處理主要包括7個步驟,分別是:數(shù)據(jù)采集和提取集成、數(shù)據(jù)清洗、數(shù)據(jù)分析從而發(fā)現(xiàn)有價值的規(guī)律、建立分析預(yù)測模型、結(jié)果展示可視化和知識表達、結(jié)果驗證,以及對模型的效果評估優(yōu)化,如圖1所示。
2 大數(shù)據(jù)分析平臺及體系架構(gòu)研究
結(jié)合目前新疆油田生產(chǎn)數(shù)據(jù)建設(shè)情況,以及油田生產(chǎn)應(yīng)用需求,構(gòu)建新疆油田大數(shù)據(jù)分析平臺及體系架構(gòu),如圖2所示,主要包括數(shù)據(jù)抽取、分布式存儲、大數(shù)據(jù)分析及展示應(yīng)用4層架構(gòu)。
數(shù)據(jù)抽取層主要是實現(xiàn)分布在各數(shù)據(jù)庫或系統(tǒng)中的數(shù)據(jù)整合,并轉(zhuǎn)換成適合數(shù)據(jù)挖掘或建模的形式,構(gòu)建樣本數(shù)據(jù)集;存儲層主要是實現(xiàn)匯總數(shù)據(jù)、模型數(shù)據(jù)、分析數(shù)據(jù)以及元數(shù)據(jù)等各類數(shù)據(jù)的存儲,相當(dāng)于數(shù)據(jù)倉庫;分析層是基于大數(shù)據(jù)建模算法和工具,挖掘數(shù)據(jù)中隱藏的模式或關(guān)系,采用數(shù)據(jù)建模軟件(如SPSS Modeler、Hadoop等)建立分類或預(yù)測模型(規(guī)則、公式或方程式),從而生成預(yù)測結(jié)果,確定評估方法并利用測試樣本,結(jié)合專家經(jīng)驗不斷提升模型精度,輔助油田生產(chǎn)決策;數(shù)據(jù)應(yīng)用層將建立的數(shù)據(jù)模型封裝成可運行軟件,包括建模算法的實現(xiàn)、數(shù)據(jù)的可視化和界面設(shè)計等,最終展示給用戶使用,實現(xiàn)人機交互。
3 大數(shù)據(jù)分析技術(shù)研究
通過上述研究分析總結(jié)出大數(shù)據(jù)分析需要的兩大技術(shù):一是大數(shù)據(jù)抽取及預(yù)處理技術(shù),二是大數(shù)據(jù)分析技術(shù)。
3.1 大數(shù)據(jù)抽取及預(yù)處理技術(shù)
數(shù)據(jù)抽取就是將多種結(jié)構(gòu)和類型的數(shù)據(jù)抽取轉(zhuǎn)化為單一的或便于處理的結(jié)構(gòu)類型。不同時間、不同地點、不同名稱的相同數(shù)據(jù)所表達的內(nèi)涵和算法要求一致,是標(biāo)準(zhǔn)化、規(guī)范化的自然語言集合,便于計算機理解,是數(shù)據(jù)提取的關(guān)鍵。
數(shù)據(jù)清洗主要用于確定有用記錄和字段,檢查數(shù)據(jù)是否存在缺失、數(shù)值異常等情況,解決辦法可用剔除法或使用估計值、平均值填補,錯誤數(shù)據(jù)可利用邏輯關(guān)系手動替換。
數(shù)據(jù)構(gòu)建是為了滿足大數(shù)據(jù)建模需求而創(chuàng)建的新字段,以作為特征參數(shù),如平均值。
數(shù)據(jù)變換是把原始數(shù)據(jù)轉(zhuǎn)換成為適合數(shù)據(jù)挖掘的形式,如歸一化處理(概念、時間、度量、語義)等。
3.2 大數(shù)據(jù)分析技術(shù)
大數(shù)據(jù)分析主要包括聚類分析、因子分析、相關(guān)分析、回歸分析、A/B測試以及數(shù)據(jù)發(fā)掘等,上述方法在油田常用的有聚類分析、因子分析、回歸分析和數(shù)據(jù)發(fā)掘。
聚類分析是把具有某種相似特征的物體或者事物歸為一類,目的在于辨別在某些特性上相似(但是預(yù)先未知)的事物,并按這些特性將樣本劃分成若干類,使在同一類內(nèi)的事物具有高度同質(zhì)性,而不同類的事物則有高度異質(zhì)性。
因子分析是用少數(shù)幾個因子去描述多個指標(biāo)或因素間的聯(lián)系,即將相互比較密切的幾個變量歸在同一類中,每一類變量就成為一個因子,以較少的幾個因子反映原數(shù)據(jù)的大部分信息。
回歸分析是在一組數(shù)據(jù)的基礎(chǔ)上,研究一個變量與其他變量之間的相關(guān)關(guān)系,尋找被隨機性掩蓋的變量之間的依存關(guān)系。通過回歸分析,可以把變量間復(fù)雜的、不確定的關(guān)系變得簡單化、有規(guī)律化。
數(shù)據(jù)挖掘是大數(shù)據(jù)時代的關(guān)鍵技術(shù),是指從非完整的、海量的、有噪音的、模糊且隨機的數(shù)據(jù)中挖掘隱含在內(nèi)且人們未提前得知的有用信息的過程。一般來說,數(shù)據(jù)挖掘的功能有兩類:描述和預(yù)測。描述性挖掘用于展現(xiàn)集體數(shù)據(jù)的一般特性,而預(yù)測性挖掘用于推算處理數(shù)據(jù),完成預(yù)測目的。數(shù)據(jù)挖掘功能同目標(biāo)數(shù)據(jù)的類型有關(guān),有些功能適用于不同類型的數(shù)據(jù),有些功能則只適用于某種特定數(shù)據(jù)。數(shù)據(jù)挖掘功能能夠讓人得知未知信息,提升數(shù)據(jù)價值,從而應(yīng)用到不同領(lǐng)域。
4 大數(shù)據(jù)分析在油田生產(chǎn)中的應(yīng)用研究
4.1 異常井自動識別
異常井作為影響產(chǎn)量的主要因素之一,目前被越來越多的油田生產(chǎn)管理人員重視,原來的異常井發(fā)現(xiàn)主要依靠人工發(fā)現(xiàn),需要人工查閱大量的油田生產(chǎn)資料才能最終確定,這種方式存在異常井檢索工作量大、發(fā)現(xiàn)周期長的弱點,影響異常井的及時診斷和措施制訂。采用聚類分析和數(shù)據(jù)發(fā)掘方法對異常井進行自動識別,根據(jù)異常井的定義:油井當(dāng)天產(chǎn)量較上月產(chǎn)量波動大于正常范圍的井為異常井,排除作業(yè)井、調(diào)開井、常關(guān)井及停電井等因素影響,并采用技術(shù)實現(xiàn)算法的編譯,系統(tǒng)架構(gòu)B/S模式進行,目前已廣泛應(yīng)用于油田日常生產(chǎn),實現(xiàn)了異常井的及時發(fā)現(xiàn),提高了進一步診斷的及時性,提高了員工工作效率,如圖3所示。
4.2 異常井智能診斷
異常井診斷作為油田生產(chǎn)必須的一項日常工作一直困擾著油田生產(chǎn)業(yè)務(wù)人員,目前,大部分油田異常井診斷主要依靠人工完成,人工診斷工作量大且受人為經(jīng)驗的影響,診斷符合率低,可能會導(dǎo)致后續(xù)措施制訂失誤,影響單井生產(chǎn)。因此,采用灰度圖像處理技術(shù)和人臉識別算法建立抽油井特征功圖庫,通過油井當(dāng)前功圖與特征功圖的相似度對比,實現(xiàn)油井工況的自動診斷,由于一種工況可能有多種表現(xiàn)形式,導(dǎo)致功圖解釋存在多種情況,因此,可采用因子分析法,分析每種工況下所關(guān)聯(lián)的因子變化情況,建立參數(shù)診斷規(guī)則庫,通過相關(guān)因子的指標(biāo)項對比分析,確診異常原因,如圖4所示,為制訂合理的進一步措施提供充分可靠的依據(jù),從而提高單井的生產(chǎn)時率。
4.3 間抽井開關(guān)井計劃制訂
隨著油田開發(fā)進入后期階段,地層能量逐年匱乏,目前越來越多供液不足的井涌現(xiàn)出來,我們將其定義為間抽井(間歇出油的井),目前,新疆油田主要由人工制訂下個月的間抽井開關(guān)井計劃,但計劃是否合理還需進一步驗證,因此,如何更好地控制間抽井開關(guān)時間,對于開源節(jié)流、節(jié)能減排起著至關(guān)重要的作用。可采用因子分析和回歸分析方法,挖掘影響間抽井開關(guān)時間的因素,如動液面、沉沒度、液面上升速度等,建立分析預(yù)測模型,對模型曲線進行歸一化處理,從而供業(yè)務(wù)人員合理制定間抽井開關(guān)制度,達到節(jié)能減排、提質(zhì)增效的目的。
4.4 油井清防蠟預(yù)測
目前油田上對油井清蠟措施的實施都按照人工制訂的計劃執(zhí)行,平均每口井1個月清蠟1次,這導(dǎo)致有些井還未結(jié)蠟就提前清、有些井已結(jié)蠟還未清等不合理情況時有發(fā)生,不但浪費人力物力,而且影響油井生產(chǎn)。采用因子分析方法通過油井歷次結(jié)蠟周期、油井工況、清蠟方式以及用量等參數(shù)建立油井結(jié)蠟預(yù)測模型,采用回歸分析方法構(gòu)建預(yù)測模型分析曲線,分析曲線上每個清蠟節(jié)點時間,推算出該井的合理清蠟周期,從而指導(dǎo)油井合理有序地清蠟,提高油田精細(xì)化管理水平。
5 結(jié) 語
通過大數(shù)據(jù)分析能發(fā)現(xiàn)油田生產(chǎn)作業(yè)規(guī)律,可以很好地解決油田生產(chǎn)業(yè)務(wù)問題;通過對油田管理數(shù)據(jù)的分析,能夠發(fā)現(xiàn)并解決管理中存在的問題和瓶頸;也可以通過各種相關(guān)數(shù)據(jù)的可視化對比分析,發(fā)現(xiàn)過去無法關(guān)注的問題,這些是大數(shù)據(jù)分析的核心價值所在,大數(shù)據(jù)應(yīng)用的最終目標(biāo)是預(yù)測未來,在認(rèn)識客觀規(guī)律的基礎(chǔ)上進行分析預(yù)測,從而指導(dǎo)油田生產(chǎn)。
主要參考文獻
[1]葛春燕.數(shù)據(jù)挖掘技術(shù)在保險公司客戶評估中的應(yīng)用研究[J].軟件,2013(1):116-118.
[2]楊澤民.數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則算法的研究[J].軟件,2013(11):71-72.
[3]鐘瑛,張恒山.大數(shù)據(jù)的緣起、沖擊及其應(yīng)對[J].現(xiàn)代傳播:中國傳媒大學(xué)學(xué)報,2013(7).
[4]April Reeve.大數(shù)據(jù)管理――數(shù)據(jù)集成的技術(shù)、方法與最佳實踐[M].余水清,潘黎萍,譯.北京:機械工業(yè)出版社,2014.
前言
新疆油田重油開發(fā)公司是以稠油開采為主的采油廠。有著將近10年的數(shù)字油田建設(shè)歷史。而且中心數(shù)據(jù)庫已經(jīng)做得很成熟,主要包括五大業(yè)務(wù)板塊數(shù)據(jù)。即勘探業(yè)務(wù)板塊、開發(fā)業(yè)務(wù)板塊、生產(chǎn)業(yè)務(wù)板塊、經(jīng)營業(yè)務(wù)板塊的數(shù)據(jù)庫。數(shù)據(jù)庫包括的內(nèi)容主要有單井、區(qū)塊的日月報數(shù)據(jù)、試井與生產(chǎn)測井?dāng)?shù)據(jù)、分析化驗數(shù)據(jù)、井下作業(yè)和地理信息數(shù)據(jù)等。數(shù)據(jù)庫的數(shù)據(jù)資源種類齊全,質(zhì)量高。2010年新疆油田重油開發(fā)公司正式開始進行智能化油田建設(shè)工作,利用物聯(lián)網(wǎng)診斷單井問題,使用大數(shù)據(jù)技術(shù)對油田進行全面感知、分析預(yù)測、優(yōu)化決策找到油水井的生產(chǎn)規(guī)律,從而有助于油田生產(chǎn)工作進行。
1 油田大數(shù)據(jù)的概念及處理流程
大數(shù)據(jù)有四個特點即量大(Volume)、快速生產(chǎn)(Velocity)、類型豐富(Variety)、真實性(Veracity),被稱為4V[1]。由于數(shù)據(jù)的數(shù)量非常大,就將數(shù)據(jù)組成數(shù)據(jù)集,進行管理、處理實現(xiàn)數(shù)據(jù)的價值。大數(shù)據(jù)對數(shù)據(jù)庫的整理流程是將數(shù)據(jù)轉(zhuǎn)化為信息,將信息轉(zhuǎn)化為知識,再將知識轉(zhuǎn)化為智慧。這個過程應(yīng)用于油田可以理解為是對油田的生產(chǎn)和管理工作。大數(shù)據(jù)的七個處理步驟包括:對數(shù)據(jù)的提取和收集、清洗數(shù)據(jù)、分析數(shù)據(jù)找到潛在的內(nèi)在價值規(guī)律、建立預(yù)測模型、對結(jié)果進行可視化的估計、驗證結(jié)果、評估模型。
2 大數(shù)據(jù)分析平臺及體系架構(gòu)研究
新疆油田為了滿足生產(chǎn)應(yīng)用,構(gòu)建了一個有效的大數(shù)據(jù)分析平臺及體系架構(gòu)。此平臺主要包括四個基礎(chǔ)架構(gòu):數(shù)據(jù)抽取平臺、進行分布式的存儲平臺、大數(shù)據(jù)的分析與展示平臺。最底層是數(shù)據(jù)抽取平臺主要是實現(xiàn)數(shù)據(jù)的整合,將數(shù)據(jù)轉(zhuǎn)化成適合進行數(shù)據(jù)挖掘或者建模的形式,構(gòu)建可靠的樣本數(shù)據(jù)集。存儲平臺主要是對數(shù)據(jù)進行匯總、建模、分析,最后將處理好的數(shù)據(jù)進行儲存。其功能與數(shù)據(jù)倉庫相似。大數(shù)據(jù)分析層,是在大數(shù)據(jù)建模的工具和算法基礎(chǔ)上,挖掘隱藏的數(shù)據(jù)模式和關(guān)系,利用數(shù)據(jù)軟件進行分類、建模,生成預(yù)測的結(jié)果,結(jié)合專家經(jīng)驗利用測試的樣本選定評價方案不斷提高模型的精度,更好的用于油田的決策。數(shù)據(jù)應(yīng)用層主要是把建立的模型設(shè)計為運行軟件,運用建模方法實現(xiàn)數(shù)據(jù)的可視化界面設(shè)計,更好的實現(xiàn)人機交互。
3 大數(shù)據(jù)分析技術(shù)研究
進行大數(shù)據(jù)分析時我們經(jīng)常采用兩大技術(shù)即大數(shù)據(jù)預(yù)處理和抽取技術(shù),大數(shù)據(jù)分析技術(shù)。
3.1 大數(shù)據(jù)抽取及預(yù)處理技術(shù)
大數(shù)據(jù)預(yù)處理和抽取技術(shù)的原理是指將不同名稱,不同時間,不同地點的多種不同結(jié)構(gòu)和類別的數(shù)據(jù)抽取處理成一種所表達的算法和內(nèi)涵一致便于處理類型的數(shù)據(jù)結(jié)構(gòu)[2]。在檢查數(shù)據(jù)缺失、數(shù)據(jù)異常時可以使用數(shù)據(jù)清洗方法確定有用的數(shù)據(jù),一般采用剔除法或估計值法、填補平均值替換錯誤的數(shù)據(jù)。為了滿足建模所需的大量數(shù)據(jù),創(chuàng)建新的字段時需要進行數(shù)據(jù)庫的構(gòu)建。將原始數(shù)據(jù)用一定的方法如歸一法轉(zhuǎn)換為可用于數(shù)據(jù)挖掘的數(shù)據(jù),這個過程為數(shù)據(jù)轉(zhuǎn)換。
3.2 大數(shù)據(jù)分析技術(shù)
應(yīng)用于油田的大數(shù)據(jù)分析技術(shù)為:因子分析技術(shù)、聚類分析技術(shù)、回歸分析技術(shù)和數(shù)據(jù)挖掘技術(shù)。其中的因子分析技術(shù)是指,利用少數(shù)的因子對多個指標(biāo)和因素間的相關(guān)性進行描述,一般將密切相關(guān)的多個變量歸納為一類,這一類數(shù)據(jù)就屬于一個影響因子,用較少的因子反應(yīng)大量數(shù)據(jù)的信息。聚類分析技術(shù)是指把具有某種共同特性的事物或者物體歸屬于一個類型,并按照這些特性劃分為幾個類別,同種類型的事物相似性較高。這樣更利于辨別預(yù)先未知的事物特征。回歸分析是指在一組數(shù)據(jù)的基礎(chǔ)之上,研究一個變量和其他變量間隱藏的關(guān)系。利用回歸方程,進行回歸分析,從而有規(guī)律地把變量之間的不規(guī)則,不確定的復(fù)雜關(guān)系簡單得表示出來。
在使用大數(shù)據(jù)進行分析時,數(shù)據(jù)挖掘技術(shù)是最關(guān)鍵的一門技術(shù)。該技術(shù)將大量復(fù)雜的、隨機性的、模糊的、不完整的數(shù)據(jù)進行分析,挖掘出對人類未來有用的數(shù)據(jù),即提前獲得未知信息的過程[3]。數(shù)據(jù)挖掘功能分為預(yù)測功能和描述功能。數(shù)據(jù)預(yù)測是指對數(shù)據(jù)進行處理推算,完成預(yù)測的目的。數(shù)據(jù)描述是展現(xiàn)集體數(shù)據(jù)的特性。數(shù)據(jù)挖掘功能是與數(shù)據(jù)的目標(biāo)類型有關(guān),有的功能適用于不同類型的數(shù)據(jù),有的功能則只適用于特定功能的數(shù)據(jù)。數(shù)據(jù)挖掘的作用就是讓人們能夠提前得到未知的消息,提升數(shù)據(jù)的有效性,使其可以應(yīng)用于不同的領(lǐng)域。
4 大數(shù)據(jù)分析在油田生產(chǎn)中的應(yīng)用研究
4.1 異常井自動識別
油田生產(chǎn)過程中影響最大的一個因素是異常井的出現(xiàn),因此生產(chǎn)管理人員加大了對異常井的重視。最初,異常井的識別主要是依靠生產(chǎn)部門的生產(chǎn)人員,必須經(jīng)過人工查閱許多關(guān)于油田生產(chǎn)的資料才能確定異常井,這種人工檢閱的方法存在很多缺陷。比如說大量的檢索工作、耗費時間長等,對異常井的診斷和措施制定造成很大的困難。異常井是指油井當(dāng)天的產(chǎn)油量和上個月相比波動很大,并大于正常的波動范圍。目前廣泛采用數(shù)據(jù)挖掘技術(shù)和聚類分析技術(shù)對異常井進行識別,提高效率。為了實現(xiàn)算法編譯使用技術(shù),系統(tǒng)架構(gòu)B/S模式進行,能夠及時發(fā)現(xiàn)異常井的存在。
4.2 異常井智能診斷
異常井診斷是油田每天進行生產(chǎn)必須要完成的工序。而大部分油田采用人工方法對其進行異常診斷,工作量極大,影響因素較多,診斷結(jié)果的可靠性較低,對后期進行計劃實施造成很大的影響。這時可以采用智能診斷方法,利用灰度圖像處理技術(shù)和人臉識別算法建立抽油井的特征功圖庫,對比油井當(dāng)前的功圖和所建立的特征功圖,實現(xiàn)異常井的診斷。若是相似則不屬于異常井,反之,則為異常井。但是有時一種工況可能會有許多中表現(xiàn)方式,致使功圖解釋存在很多種狀況,可以采取因子分析法,分析每個工況下關(guān)聯(lián)的因子間是如何變化,然后建立參數(shù)診斷數(shù)據(jù)庫,對比相關(guān)因子的指標(biāo)項,找到異常的原因,采取適合的方案進行修改,從而提高單井的生產(chǎn)效率。
4.3 間抽井開關(guān)井計劃制訂
當(dāng)油田開發(fā)進入后期階段就會出現(xiàn)很多問題,過度開發(fā)使得地層的能量越來越少,致使更多供液不足的井開發(fā)出來。將這類井稱之為間歇出油井。新疆油田一般會使用人工方法制訂間歇出油井的開關(guān)時間計劃,但是對于計劃的合理性沒有進行檢驗。若是能夠控制好間歇出油井的開關(guān)時間,對油田實現(xiàn)節(jié)能減排是至關(guān)重要的。這時可以采用因子分析方法和回歸分析法進行研究,利用數(shù)據(jù)挖掘技術(shù)找出影響間歇出油井的開關(guān)時間的因素,建立合適的分析模型,對模型進行線性回歸,進行歸一化處理。從而為業(yè)務(wù)人員提供制訂間歇出油井開關(guān)時間的合理方案,達到節(jié)能減排的效果。
4.4 油井清防蠟預(yù)測
目前油田上對于油井清蠟采取平均每口井一個月清洗一次蠟的措施,按照人工計劃進行,出現(xiàn)了許多問題。比如,一些井還沒有結(jié)蠟就已被清洗,有些井已經(jīng)結(jié)蠟,卻沒有得到及時清洗。這樣既浪費大量的人力物力,而且還對油田的生產(chǎn)效率產(chǎn)生不利影響。若是利用因子分析法,將收集的關(guān)于結(jié)蠟周期、清蠟方式、清蠟用量、油井狀況等數(shù)據(jù)進行分析,建立油井Y蠟?zāi)P停倮没貧w分析法對建立的模型建立曲線方程,進行預(yù)測,找到結(jié)蠟時間,推斷出結(jié)蠟周期,更好的指導(dǎo)油田清蠟工序的進行,提高油田的精細(xì)化管理。
5 結(jié)束語
總之,對比以前利用人工進行油田生產(chǎn)可以發(fā)現(xiàn)大數(shù)據(jù)對于油田生產(chǎn)是非常必要的,可以更快的挖掘油田的生產(chǎn)作業(yè)規(guī)律,解決油田生產(chǎn)的困難。而且,可以利用油田數(shù)據(jù)進行可視化分析,關(guān)注問題的主要影響因素找到管理中存在的不足,預(yù)防未來問題的出現(xiàn)。大數(shù)據(jù)的核心價值就是通過以往大量數(shù)據(jù)進行分析,預(yù)測出未來,從而更好地指導(dǎo)油田的生產(chǎn)工作。
參考文獻
中圖分類號 TP3 文獻標(biāo)識碼 A 文章編號 1674-6708(2017)180-0030-02
1 概述
保定?中國電谷智能電網(wǎng)可視化平臺整體采用大數(shù)據(jù)技術(shù)架構(gòu)進行構(gòu)建,能蚨緣繽在運行過程中產(chǎn)生的大規(guī)模、多種類、結(jié)構(gòu)類型復(fù)雜的業(yè)務(wù)數(shù)據(jù)進行全景容納,全面反映電網(wǎng)運行、監(jiān)測、能量采集和檢修過程的整體情況。較之傳統(tǒng)信息系統(tǒng),基于大數(shù)據(jù)和云計算的智能電網(wǎng)可視化平臺能夠有效提升系統(tǒng)數(shù)據(jù)分析的并行能力,顯著提高計算速度,進一步提升智能調(diào)度的科學(xué)性和前瞻性,解決電網(wǎng)運行狀態(tài)檢測和電能損耗等方面暴露出來的問題,在負(fù)荷分布式控制和用戶側(cè)短期負(fù)荷預(yù)測方面取得突破。
2 設(shè)計規(guī)劃
2.1 設(shè)計思路
隨著大數(shù)據(jù)、云計算、物聯(lián)網(wǎng)等新興科技的發(fā)展,我國電力企業(yè)迎來轉(zhuǎn)變生產(chǎn)模式和管理模式,實現(xiàn)可持續(xù)發(fā)展的重要契機,特別是對于堅強智能電網(wǎng)的建設(shè),帶來了深遠(yuǎn)的影響,大數(shù)據(jù)在支撐電力企業(yè)業(yè)務(wù)發(fā)展的過程中,具備廣闊的應(yīng)用前景。
基于大數(shù)據(jù)架構(gòu)的智能電網(wǎng)可視化平臺系統(tǒng)數(shù)據(jù)來源于國網(wǎng)省電力公司數(shù)據(jù)中心各系統(tǒng),通過大數(shù)據(jù)技術(shù)進行數(shù)據(jù)清理、轉(zhuǎn)換和展示。用電信息采集系統(tǒng)、區(qū)域新能源管理系統(tǒng)、故障搶修管理系統(tǒng)等多個系統(tǒng),同時通過數(shù)據(jù)接口將區(qū)域新能源實時數(shù)據(jù)、電網(wǎng)運行狀態(tài)信息、用電信息、配網(wǎng)搶修故障信息等系統(tǒng)的關(guān)鍵指標(biāo)數(shù)據(jù)傳輸?shù)酱髷?shù)據(jù)平臺,利用大數(shù)據(jù)技術(shù)和云計算并行處理技術(shù),對關(guān)鍵指標(biāo)進行挖掘、分析,并通過三維可視化技術(shù)直觀動態(tài)展現(xiàn)。平臺的建設(shè)能夠促進電力系統(tǒng)生產(chǎn)方式和管理方式的變革,推動風(fēng)電、太陽能等新能源、清潔能源的消納,幫助電力企業(yè)轉(zhuǎn)變耗能高、排放高、效能低的現(xiàn)狀,面向社會大眾倡導(dǎo)節(jié)能減排理念,打造耗能低、排放低、效率高的綠色可持續(xù)發(fā)展方式,同時運用虛擬現(xiàn)實技術(shù)展現(xiàn)智能變電站、智能家居等智能電網(wǎng)取得的成果。
2.2 平臺架構(gòu)
建設(shè)大數(shù)據(jù)分析平臺將逐漸融入智能電網(wǎng)全景數(shù)據(jù),能夠容納海量、多樣、快速率的電網(wǎng)運行、檢修、能耗等電網(wǎng)信息資產(chǎn)數(shù)據(jù),并運用海量數(shù)據(jù)和云計算模式提供高性能并行處理能力,以較快速度解析出規(guī)律性或根本性的判斷、趨勢或預(yù)測,在智能調(diào)度、狀態(tài)檢測、電能損耗分析、負(fù)荷分布式控制、用戶側(cè)短期負(fù)荷預(yù)測等領(lǐng)域存在極高的應(yīng)用價值。
電網(wǎng)全景數(shù)據(jù)的接入、存儲、管理和挖掘利用離不開先進技術(shù)的大數(shù)據(jù)平臺支撐,數(shù)據(jù)服務(wù)質(zhì)量的提高更離不開技術(shù)的保障。基于大數(shù)據(jù)架構(gòu)的智能電網(wǎng)可視化平臺的建設(shè),采用Hadoop技術(shù)架構(gòu),該架構(gòu)具備開源、可擴展、分布式應(yīng)用計算的特點,為大數(shù)據(jù)實例化、具體化的應(yīng)用提供了有效支撐。本項目引入基于 Hadoop 架構(gòu)的分布式存儲、并行計算和多維索引技術(shù),立足電力行業(yè)大數(shù)據(jù)自身特點,通過建立分布式并行計算平臺,結(jié)合數(shù)據(jù)中心,解決電力生產(chǎn)、調(diào)度運行過程中需要準(zhǔn)實時大規(guī)模信息采集、高吞吐、大并發(fā)地數(shù)據(jù)存取和快速高效地分析計算問題。系統(tǒng)物理架構(gòu)如圖1所示。
3 應(yīng)用場景
智能電網(wǎng)可視化平臺的建設(shè),緊緊抓住了政府打造“保定?電谷”可再生能源產(chǎn)業(yè)基地的契機。平臺采用了先進的多媒體動畫技術(shù)以及三維虛擬現(xiàn)實技術(shù),實時、直觀地反映保定電谷智能電網(wǎng)運行狀態(tài)及業(yè)務(wù)管理過程,并為電網(wǎng)管理人員做出決策提供了輔助支持;平臺立足于堅強智能電網(wǎng)與城市理念、發(fā)展及生活的關(guān)系,展現(xiàn)智能電網(wǎng)對保定電谷的支撐作用和重要意義,同時向全社會直觀展示了智能電網(wǎng)支撐中國經(jīng)濟可持續(xù)發(fā)展的作用,更體現(xiàn)了人與自然和諧相處的主題,增強了社會對公司的感知度和認(rèn)知度。系統(tǒng)主要包括下述幾個方面的應(yīng)用。
3.1 配電自動化系統(tǒng)
配電自動化系統(tǒng)目前采用數(shù)據(jù)批量導(dǎo)入方式,從調(diào)度部門獲取配電自動化主站系統(tǒng)每日288點數(shù)據(jù),導(dǎo)入智能電網(wǎng)可視化平臺系統(tǒng)數(shù)據(jù)庫,供指標(biāo)提取。主要內(nèi)容包括:
GIS地圖,以GIS地圖方式,對電谷區(qū)域進行展示,同時對電谷區(qū)域涉及的兩座智能變電站進行標(biāo)記,直觀展示保定智能電網(wǎng)分布情況。
谷峰差,以柱狀圖方式對東尹莊、花莊兩座變電站上月每天谷峰差進行展示,為工作人員分析用電情況提供依據(jù)。
谷峰差率,以柱狀圖方式對東尹莊、花莊兩座變電站上月每天谷峰差進行展示,為工作人員分析用電情況提供依據(jù)24小時實時負(fù)荷對比。
遙控成功率,以儀表盤方式對電谷區(qū)域終端設(shè)備遙控成功率進行展示。
終端在線率,以儀表盤形式對智能電網(wǎng)建設(shè)中的智能終端設(shè)備的在線率與投運率記性展示。
3.2 輸電線路在線監(jiān)測系統(tǒng)
智能電網(wǎng)可視化平臺目前對輸電線路在線監(jiān)測系統(tǒng)以鏈接的方式進行了數(shù)據(jù)接入,主要對線路在線監(jiān)測系統(tǒng)中安裝的監(jiān)控設(shè)備反饋回的現(xiàn)場環(huán)境信息進行展示,具體包括以下內(nèi)容:
氣象信息。利用輸電線路氣象監(jiān)測設(shè)備進行數(shù)據(jù)采集分析,最終以表格的形式將當(dāng)天某一時刻數(shù)據(jù)展示到輸電線路在線監(jiān)測系統(tǒng)中,主要包括風(fēng)速、降雨量、氣溫、氣壓、相對溫度、最大風(fēng)速、極大風(fēng)速、光照強度等數(shù)據(jù)。
絕緣子污穢。利用絕緣子污穢度監(jiān)測設(shè)備進行數(shù)據(jù)采集,具體包括鹽密、灰密等指標(biāo)。以曲線形式將最近一個月的數(shù)據(jù)展示到輸電線路在線監(jiān)測系統(tǒng)中。
導(dǎo)線溫度。主要對導(dǎo)線溫度進行監(jiān)測,最總以曲線的形式將最近一個月的數(shù)據(jù)展示到輸電線路在線監(jiān)測系統(tǒng)中。
導(dǎo)線弧垂。對導(dǎo)線弧垂、導(dǎo)線對地距離進行監(jiān)測,以曲線的形式將最近一個月的數(shù)據(jù)展示到系統(tǒng)中。
塔桿周邊環(huán)境。通過高清攝像頭對塔桿周邊環(huán)境進行實時監(jiān)測,將塔桿周邊環(huán)境照片傳輸給系統(tǒng),固定時間間隔更新圖片。
3.3 清潔能源
開展了分布式光伏電源l電預(yù)測研究,開展了光伏電源接入系統(tǒng)電壓穩(wěn)定、準(zhǔn)入容量、電能質(zhì)量等專題亞牛,開展了分布式光伏發(fā)電實時監(jiān)控研究。
新能源系統(tǒng)接入。采集每個月用戶的各種數(shù)據(jù),形成保定地區(qū)的光伏用戶分布圖。通過數(shù)據(jù)沉淀及數(shù)據(jù)分析方式,展示出每個光伏用戶的發(fā)電量。
光伏發(fā)電、風(fēng)力發(fā)電實時監(jiān)控。通過安裝高清攝像頭,對國網(wǎng)保定供電公司下英利產(chǎn)業(yè)園光伏發(fā)電設(shè)備進行實時監(jiān)控,將監(jiān)控畫面?zhèn)鬏數(shù)娇梢暬脚_系統(tǒng)中,供工作人員參考。對曲陽等地風(fēng)力發(fā)電設(shè)備進行實時監(jiān)控,將設(shè)備運行狀態(tài)信息傳輸?shù)街悄茈娋W(wǎng)可視化平臺系統(tǒng)中。
3.4 智能家居
對智能家居進行兩方面展示,一是對智能家居概念及應(yīng)用情況進行了文字性介紹,二是通過視頻仿真模擬技術(shù),對保定智能電網(wǎng)建設(shè)工程在智能家居領(lǐng)域取得的成果進行展示。主要包括智能安防控制系統(tǒng)、智能家居控制器、智能燈光控制系統(tǒng)、智能家電控制系統(tǒng)、家庭直流光伏系統(tǒng)五部分。
3.5 配網(wǎng)故障搶修
通過GIS地圖展示故障點位置,突出顯示,點擊查看具體故障信息,并對停電影響的臺區(qū)及用戶信息進行查詢。同時實現(xiàn)車輛信息的實時監(jiān)控展示。
GIS地圖。通過GIS地圖方式,將故障點進行標(biāo)注。直觀反映給工作人員,提高故障處理效率。
數(shù)據(jù)接入。將故障搶修系統(tǒng)中故障分布統(tǒng)計情況、故障點位置信息、故障原因等數(shù)據(jù)進行提取。通過圖表、表格等形式進行展示。
車輛定位功能。實現(xiàn)對搶修車輛位置定位功能,顯示搶修車輛的實時運行軌跡。
停電范圍影響查詢功能。實現(xiàn)停電影響臺區(qū)和用戶的查詢功能。
3.6 現(xiàn)場監(jiān)控
加大對發(fā)電設(shè)備監(jiān)控力度,對智能變電站、英利產(chǎn)業(yè)園光伏發(fā)電設(shè)備、曲陽等地風(fēng)力發(fā)電設(shè)備安裝高清攝像頭,進行視頻監(jiān)控。通過視頻圖像采集終端設(shè)備以及無線網(wǎng)絡(luò),將傳來的圖片、視頻等數(shù)據(jù)展示在智能電網(wǎng)可視化平臺系統(tǒng)中。
3.7 智能變電站
智能電網(wǎng)可視化平臺系統(tǒng)對智能變電站的建設(shè)規(guī)模、建設(shè)內(nèi)容進行了介紹。并且對智能變電站進行了三維仿真模擬,對智能變電站進行了全方位展示。
4 結(jié)論
近年來,隨著堅強智能電網(wǎng)全面建設(shè)的不斷推進,電網(wǎng)數(shù)據(jù)資源呈現(xiàn)幾何級增長,大數(shù)據(jù)、云計算為代表的全新IT技術(shù)在電力系統(tǒng)的建設(shè)中被廣泛應(yīng)用,數(shù)據(jù)與技術(shù)的結(jié)合,為優(yōu)化電能生產(chǎn)、合理調(diào)配資源提供了決策依據(jù)。運用大數(shù)據(jù)、云計算技術(shù)推動智能電網(wǎng)的發(fā)展已經(jīng)成為時代的必然選擇,而大數(shù)據(jù)也必將成為電力企業(yè)的核心 資產(chǎn)。
中圖分類號:TP18 文獻標(biāo)識碼:A 文章編號:1009-3044(2017)03-0245-03
Application of Big Data Analysis Technology in Wind Power Equipment Anomaly Prediction
ZHANG Hui-ting, WANG Jian, LING Wei-qing
(CIMS Research Center,Tongji University, Shanghai 201804, China)
Abstract: According to the working conditions of wind turbine generator monitoring complex, large amount of data, multi-source, complex, the characteristics of rapid growth, the abnormal current prediction methods in the face of big data to ensure accuracy and rapid processing, the proposed combination of Hadoop batch processing technology and BP neural network of wind turbine online anomaly prediction model, abnormal prediction of equipment state information. The experimental results show that the method has good acceleration effect under the premise of ensuring the accuracy, which can provide important reference information for the wind farm maintenance staff.
Key words: wind turbine; anomaly prediction; Hadoop batch processing;BP neural network
風(fēng)能作為一種蘊藏量巨大且無污染的可再生能源,受到世界各國的關(guān)注與日俱增。但是,風(fēng)電機組的故障率會隨著運行時間的加長而不斷升高,這就需要對機組主要部件的故障做好預(yù)防工作。目前,風(fēng) 電 業(yè) 主 廣 泛 采 用 數(shù) 據(jù) 采 集 與 監(jiān) 控(supervisory control and data acquisition,SCADA)系統(tǒng)監(jiān)測風(fēng)電機組及其部件的運行狀態(tài),然而,SCADA 系統(tǒng)的監(jiān)測項目針對各自監(jiān)控的對象,僅僅依靠對監(jiān)測數(shù)據(jù)設(shè)置閥值來進行越限報警,而且在線監(jiān)測信息量大、采集數(shù)據(jù)點密,傳統(tǒng)的監(jiān)控系統(tǒng)難以滿足海量監(jiān)測稻蕕腦諳嘰理需求[1]。因此,如何通過風(fēng)電機組狀態(tài)監(jiān)測大數(shù)據(jù)進行快速有效的機組設(shè)備異常預(yù)測成為了新的課題。
較多研究者通過建立狀態(tài)參數(shù)預(yù)測模型,分析風(fēng)電機組運行狀態(tài)的真實變化情況。文獻[2]通過對齒輪箱溫度趨勢的分析建立了預(yù)測模型,該模型是基于單一運行參數(shù)針對某個子系統(tǒng)構(gòu)建的,預(yù)測精度有待提高。文獻[3]首先建立了主軸軸承、齒輪箱的多元線性回歸溫度預(yù)測模型來對部件溫度進行一步超前預(yù)測。文獻[4]提出了一種基于最小二乘支持向量機的風(fēng)電機組故障預(yù)警方法,利用實際風(fēng)場機組運行監(jiān)控數(shù)據(jù)驗證了此方法的可行性,但是,對于結(jié)構(gòu)復(fù)雜的海量監(jiān)測數(shù)據(jù),該方法在保證精度的情況下難以滿足我們對于處理速度的要求。
針對如上問題,本文提出了結(jié)合Hadoop批處理技術(shù)和BP神經(jīng)網(wǎng)絡(luò)狀態(tài)參數(shù)模型的風(fēng)電機組異常預(yù)測方法。首先,使用Hadoop平臺存儲海量歷史狀態(tài)監(jiān)測數(shù)據(jù),依據(jù)選取的狀態(tài)參數(shù),實現(xiàn)基于BP神經(jīng)網(wǎng)絡(luò)的異常預(yù)測算法,然后使用MapReduce框架并行的對預(yù)測模型進行訓(xùn)練,以獲得較好的加速效果,最后,通過實驗驗證該異常預(yù)測模型的有效性和精確性。
1 風(fēng)電設(shè)備異常預(yù)測模型體系概述
1.1 模型框架
基于模型預(yù)測精度與數(shù)據(jù)處理速度的需要,本文基于Hadoop集群,運用MapReduce框架,提出了兼顧預(yù)測精度與運行速度的風(fēng)電設(shè)備異常預(yù)測模型,該模型的框架結(jié)構(gòu)如圖1所示,主要包括數(shù)據(jù)采集層、存儲層、分析層、應(yīng)用層等4個模塊。
具體模塊描述如下:
1)數(shù)據(jù)采集層。主要包括風(fēng)電設(shè)備的狀態(tài)監(jiān)測數(shù)據(jù)、天氣數(shù)據(jù)、地理信息數(shù)據(jù)
以及各種特殊傳感器等業(yè)務(wù)系統(tǒng)的生產(chǎn)運行管理數(shù)據(jù)。這些數(shù)據(jù)來源不一、模態(tài)各異,而且存在大量的重復(fù)數(shù)據(jù),該模塊主要完成異常數(shù)據(jù)和重復(fù)數(shù)據(jù)的清除工作,清理后的數(shù)據(jù)使用Sqoop等大數(shù)據(jù)連接器技術(shù)傳輸?shù)椒植际綌?shù)據(jù)庫或者文件系統(tǒng)中,Sqoop在傳輸數(shù)據(jù)時會自動對其格式進行標(biāo)準(zhǔn)化的調(diào)整,減少了人為的序列/反序列化操作。
2)存儲層。本文主要采用HBase,Hive等分布式數(shù)據(jù)庫作為存儲介質(zhì),HBase是一個構(gòu)建在HDFS上的分布式列存儲系統(tǒng),它具有高可靠、高性能以及可伸縮等特點,可以方便地在服務(wù)器上搭建起大規(guī)模結(jié)構(gòu)化存儲集群。Hive是基于Hadoop的一個數(shù)據(jù)倉庫工具,提供類sql查詢功能,可以將sql語句轉(zhuǎn)譯為MapReduce作業(yè)并在Hadoop上執(zhí)行,便于大批量數(shù)據(jù)處理任務(wù)的并行運行[5]。這些分布式數(shù)據(jù)庫都具有高容錯率和高吞吐量的特點,可以很好地滿足海量歷史監(jiān)測數(shù)據(jù)的存儲要求,并且適用于數(shù)據(jù)的批處理訪問模式。
3)分析層。集成有訓(xùn)練好的BP神經(jīng)網(wǎng)絡(luò)預(yù)測模型,基于SCADA狀態(tài)監(jiān)測數(shù)據(jù)、天氣數(shù)據(jù)以及地理信息數(shù)據(jù),應(yīng)用大數(shù)據(jù)分析技術(shù)進行風(fēng)電設(shè)備的異常狀態(tài)預(yù)測。
傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法在處理海量數(shù)據(jù)集時面臨耗時長,甚至是內(nèi)存不足無法訓(xùn)練等問題,本文在開源云計算平臺Hadoop 的基礎(chǔ)上,實現(xiàn)了基于MapReduce框架的BP神經(jīng)網(wǎng)絡(luò)并行化運行方式,可以并行的對訓(xùn)練樣本進行批量訓(xùn)練,大大地提升了模型的精度和運行速度。
4)應(yīng)用層。該模塊使用訓(xùn)練好的異常預(yù)測模型,結(jié)合在線輸入的監(jiān)測數(shù)據(jù),進而獲得狀態(tài)參數(shù)的預(yù)測值,計算模型輸出值與實際監(jiān)測值的殘差,當(dāng)殘差發(fā)生劇烈波動時,判斷風(fēng)電設(shè)備的運行狀態(tài)出現(xiàn)異常,并通過數(shù)據(jù)可視化技術(shù)對相關(guān)人員進行展示。
1.2 基于MapReduce的BP神經(jīng)網(wǎng)絡(luò)預(yù)測模型
BP神經(jīng)網(wǎng)絡(luò)是一種按誤差反向傳播算法訓(xùn)練的多層前饋網(wǎng)絡(luò),在各個領(lǐng)域得到了廣泛的應(yīng)用,它能夠很好地表示任意的非線性映射關(guān)系,而無需事前了解描述這種映射關(guān)系的數(shù)學(xué)方程。BP神經(jīng)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)包括輸出層、輸入層和若干隱層,它的學(xué)習(xí)算法使用最速下降法,通過不斷調(diào)整網(wǎng)絡(luò)的權(quán)值和閥值來使網(wǎng)絡(luò)的誤差平方和最小。有研究表明,只要隱層含有足夠多的神經(jīng)元數(shù)目,僅僅包含一個隱層的神經(jīng)網(wǎng)絡(luò)就能夠以任意精度逼近一個連續(xù)的非線性函數(shù)[6]。因此,本文采用只含有一個隱層的神經(jīng)網(wǎng)絡(luò)模型,模型示意圖如圖2所示:
為了運用并行運算的方法來減少算法運行時間,本文參考文獻[7]中對 BP神經(jīng)網(wǎng)絡(luò)算法的MapReduce并行化方法,在Map階段對每個權(quán)值的變化量進行計算并輸出,然后在Reduce階段對各個權(quán)值的總變化量進行統(tǒng)計,之后再統(tǒng)一調(diào)整權(quán)值,并且使用批處理的方式進行訓(xùn)練。
1.3 風(fēng)電機組異常預(yù)測運行流程
受風(fēng)速的波動變化和天氣的季節(jié)性變化影響,風(fēng)電機組的運行環(huán)境經(jīng)常發(fā)生劇烈的動態(tài)變化,因而需要在不同的運行工況之間進行頻繁地切換,導(dǎo)致設(shè)備狀態(tài)監(jiān)測數(shù)據(jù)的幅值在正常運行狀態(tài)下也會發(fā)生較大的變化,這意味著我們不能根據(jù)幅值的大小來判斷機組的運行安全程度。而目前主流的做法都是采用閥值報警的方法,即如果監(jiān)測信號達到了報警閥值,則判斷機組的運行狀態(tài)出現(xiàn)異常,這導(dǎo)致了很多漏報和誤報的情況發(fā)生,為了提高風(fēng)電設(shè)備異常預(yù)測的精確度,本文采用了殘差分析的方式對機組的運行狀態(tài)進行判斷,基本流程如圖3所示:
具體過程闡述如下:
1)選取風(fēng)電機組正常運行狀態(tài)下的 SCADA 數(shù)據(jù),經(jīng)過預(yù)處理得到可用的監(jiān)測數(shù)據(jù),然后將這些數(shù)據(jù)按一定的比例劃分為訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)。
2)訓(xùn)練數(shù)據(jù)經(jīng)過歸一化處理后,選取風(fēng)速、齒輪箱油溫、機艙振動傳感器X、機艙振動傳感器Y,機艙振動有效值和發(fā)電機轉(zhuǎn)速等6個狀態(tài)參數(shù)為模型的輸入?yún)?shù),對BP神經(jīng)網(wǎng)絡(luò)模型進行訓(xùn)練,直到模型的輸出值誤差達到理想的范圍。
3)用預(yù)測模型對目標(biāo)參數(shù)進行預(yù)測,與實際值對比,獲得殘差,如果殘差沒有超過閾值,則判斷狀態(tài)正常。
4)如果殘差超過閾值,則采用式(1)計算均方根誤差(root-mean- square-error,RMSE),來衡量殘差變化的劇烈程度,應(yīng)用目前流行的滑動窗口技術(shù),可以更加準(zhǔn)確的反映其變化趨勢,本文通過計算每天的 RMSE,來獲得 RMSE 的變化情況。
[D=1mi=1mxi-x2] (1)
式中:D為均方根誤差;m 為樣本數(shù);x為模型的預(yù)測值;xi為實際值。
5)當(dāng)RMSE超過閾值,則判斷機組狀態(tài)出現(xiàn)異常。
1.4 實驗結(jié)果與分析
為了模擬風(fēng)電場大數(shù)據(jù)風(fēng)電機組異常狀態(tài)預(yù)測的相關(guān)情況,在實驗室搭建的Hadoop平臺上對本文所述方法進行了仿真實驗,Hadoop集群由一個主節(jié)點(Master)
個兩個從節(jié)點(Slave)組成,各節(jié)點是由Windows Server 2012 上的Hyper-V管理器創(chuàng)建的虛擬機,節(jié)點的內(nèi)存為2G,硬盤為200G,在開發(fā)的過程中用到了Eclipse、Hive、HBase等工具。
實驗采用某風(fēng)電公司風(fēng)電場提供的2015年6月到2016年9月產(chǎn)生的實際運行數(shù)據(jù),其中包含37臺風(fēng)機的監(jiān)測數(shù)據(jù),選取其中15臺風(fēng)機2016年7月份共15組監(jiān)測數(shù)據(jù),按一定的比例抽取數(shù)據(jù)作為測試樣本,對模型進行訓(xùn)練,每組訓(xùn)練1000次,使得模型輸出值誤差范圍達到滿意的效果,進而得到性能良好的神經(jīng)網(wǎng)絡(luò)預(yù)測模型。
為了驗證模型狀態(tài)參數(shù)預(yù)測的精確度,選取對應(yīng)1臺風(fēng)機2016年7月份的共15組監(jiān)測數(shù)據(jù)作為測試樣本對模型進行測試,預(yù)測下一時刻齒輪箱油溫平均值,如圖4所示為其中2臺風(fēng)機實際監(jiān)測值與模型預(yù)測值的對比效果,其中,預(yù)測值為藍色曲線,真實值為紅色曲線,可以看到,兩條曲線基本吻合,驗證了模型的有效性和精確性。
圖4 模型預(yù)測效果對比圖
為了測試模型并行化之后的加速效果,對同樣大小測試數(shù)據(jù)集分別在單機和集群環(huán)境下測試程序運行時間,發(fā)現(xiàn)當(dāng)測試數(shù)據(jù)量較小時,單機所用時間少于集群運行時間,而隨著數(shù)據(jù)集的增大,集群的計算優(yōu)勢就越來越明顯。
1.5 結(jié)束語
針對在海量歷史監(jiān)測數(shù)據(jù)基礎(chǔ)上如何快速有效的對風(fēng)電設(shè)備的異常運行狀態(tài)進行預(yù)測這一問題,本文基于當(dāng)前主流的大數(shù)據(jù)技術(shù),設(shè)計并實現(xiàn)了風(fēng)電設(shè)備的異常預(yù)測模型。基于Hadoop的MapReduce框架,通過對訓(xùn)練樣本學(xué)習(xí)得到并行化的BP神經(jīng)網(wǎng)絡(luò)預(yù)測模型,提高數(shù)據(jù)批處理的效率,加速風(fēng)電機組異常狀態(tài)預(yù)測的計算過程和數(shù)據(jù)處理的效率。實例表明,在正常運行工況下,預(yù)測模型能準(zhǔn)確地對狀態(tài)參數(shù)進行預(yù)測,同時具有出較好的加速效果,滿足海量監(jiān)測數(shù)據(jù)環(huán)境下風(fēng)電機組在線異常狀態(tài)預(yù)測的要求。
參考文獻:
[1] Bin Lu, Yaoyu Li, Xin Wu and Zhongzhou Yang. A Review of Recent Advances
in Wind Turbine Condition Monitoring and Fault Diagnosis[J]. PEMWA 2009, IEEE, 2009(6): 1-7.
[2] 郭鵬, David Infield, 楊錫運. 風(fēng)電機組齒輪箱溫度趨勢狀態(tài)監(jiān)測及分析方法[J]. 中國電機工程學(xué)報, 2011,31(32): 129-136.
[3] 張小田. 基于回歸分析的風(fēng)機主要部件的故障預(yù)測方法研究[D]. 北京: 華北電力大學(xué), 2013.
[4] 許駿龍, 李征. 基于支持向量機的風(fēng)電機組故障預(yù)警[J]. 工業(yè)控制計算機, 2013(8): 54-56.
本文討論了一些站點分析的相關(guān)技術(shù)信息和幾種網(wǎng)站分析瀏覽者行為的理論與算法,及數(shù)據(jù)倉庫的相關(guān)理論知識。并對站點日志數(shù)據(jù)進行了實例分析,并指出了站點分析技術(shù)發(fā)展的方向。
一、緒論
互聯(lián)網(wǎng)技術(shù)不斷革新與發(fā)展,給全球經(jīng)濟帶來新的革命,從而也影響著人們的生活。互聯(lián)網(wǎng)為企業(yè)提供了一種真正屬于自己并面對廣大網(wǎng)民的信息載體,企業(yè)通過這一載體,可以自由地將企業(yè)的產(chǎn)品、服務(wù)等其他相關(guān)信息在線。
電子商務(wù)就是網(wǎng)上實行各種商務(wù)活動的總包裝,種種所謂電子商務(wù)解決方案,實際上就是實現(xiàn)各種網(wǎng)上商務(wù)活動的硬件與軟件系統(tǒng)。它將影響到每一個人、每一個企業(yè)。電子商務(wù)的主體是我們每一個人、每一個企業(yè),電子商務(wù)發(fā)展的過程就是對人們的生活、企業(yè)的運行的一種模式的一個巨大改變的過程。對于進入虛擬世界的商家而言,僅僅吸引注意力還不行,對它們而言,站點的訪問率絕對不僅僅是一個數(shù)字,它還是一種信息,如果網(wǎng)站能夠從網(wǎng)絡(luò)中獲得網(wǎng)民的信息并從中分析其行為誘因,那么就容易掌握網(wǎng)民的需求,從而利用互聯(lián)網(wǎng)去創(chuàng)造更多商機。
電子商務(wù)站點用戶行為的分析這一問題也因此成為現(xiàn)如今的熱門話題,被人們普遍關(guān)心起來,尤其是被眾商家所重視。Web站點的日志數(shù)據(jù)正以每天數(shù)十兆的速度增長。如何分析這些數(shù)據(jù),如何從這些大量數(shù)據(jù)中發(fā)現(xiàn)有用的、重要的知識(包括模式、規(guī)則、可視化結(jié)構(gòu)等)也成為現(xiàn)在人們最關(guān)注的信息。
在此情況下,站點用戶行為分析就可為網(wǎng)站或商家提供出大量有價值的信息,包括站點的受歡迎度的對比、商業(yè)廣告點擊情況總括、產(chǎn)品的反饋信息、站點各種信息的點擊情況等等。另外,還可根據(jù)不同的頁面內(nèi)容來分類瀏覽者,以便做出更合理的頁面分類,促使網(wǎng)站逐步向個性化、最優(yōu)化狀態(tài)發(fā)展。這一技術(shù)對互聯(lián)網(wǎng)的發(fā)展壯大有著不可忽視的巨大作用,它的發(fā)展對信息技術(shù)亦將產(chǎn)生深遠(yuǎn)的影響。
在電子商務(wù)早期階段時,Web站點數(shù)據(jù)流分析通常是在主頁上安裝計數(shù)器以及在一個外部日志文件上運行簡單的統(tǒng)計程序記錄點擊率。但是,簡單的點擊計數(shù)既不準(zhǔn)確也遠(yuǎn)未達到營銷目的所需的詳細(xì)程度。因此,各公司開始尋找更先進的分析工具,這類工具可以提供誰在訪問公司W(wǎng)eb站點以及訪問者一旦進入站點后將做些什么的全面信息。站點開始分析的地方是Web服務(wù)器的訪問日志。每當(dāng)用戶在站點上請求一個網(wǎng)頁時,這個請求就被記錄在訪問日志中。如:目前有多少用戶正在訪問站點、他們正在看哪些網(wǎng)頁以及他們在站點中呆了多長時間。顯然,日志分析和行為概況的正確組合可以對Web站點的成功產(chǎn)生直接影響。此外,從日志分析中得到的信息是很難從真實世界中捕獲到的,但這些信息卻可以較容易地在線收集到。Web數(shù)據(jù)流分析工具的這些最新進展可以使網(wǎng)站獲得有關(guān)上網(wǎng)客戶和他們習(xí)慣的詳細(xì)報告。
二、站點信息統(tǒng)計方法
Web頁面數(shù)據(jù)主要是半結(jié)構(gòu)化數(shù)據(jù),計算機網(wǎng)絡(luò)技術(shù)和信息技術(shù)的飛速發(fā)展,使得半結(jié)構(gòu)化數(shù)據(jù)呈現(xiàn)日益繁榮的趨勢。半結(jié)構(gòu)化數(shù)據(jù),是一種介于模式固定的結(jié)構(gòu)化數(shù)據(jù),和完全沒有模式的無序數(shù)據(jù)之間,在查詢前無法預(yù)先確定其具體的類型和格式;同時它們相應(yīng)的數(shù)據(jù)結(jié)構(gòu)是不固定、不完全或不規(guī)則的,即這些數(shù)據(jù)有的本身就沒有結(jié)構(gòu),有的只有十分松散的結(jié)構(gòu),有的數(shù)據(jù)的結(jié)構(gòu)是隱含的,需要從數(shù)據(jù)中進行抽取。而有時,盡管數(shù)據(jù)本身是有精確結(jié)構(gòu)的,但為了一定的目的,而故意忽視它的結(jié)構(gòu)。半結(jié)構(gòu)化數(shù)據(jù)具有以下五方面的
主要特點:
1.結(jié)構(gòu)是不規(guī)則的。包含異構(gòu)數(shù)據(jù)、相同的數(shù)據(jù)信息用不同類型或不同的結(jié)構(gòu)表示。
2.結(jié)構(gòu)是隱含的。如電子文檔SGML格式。
3.結(jié)構(gòu)是部分的,有時部分?jǐn)?shù)據(jù)根本無結(jié)構(gòu),而部分?jǐn)?shù)據(jù)只有粗略的結(jié)構(gòu)。
4.指示性結(jié)構(gòu)與約束性結(jié)構(gòu)。傳統(tǒng)的數(shù)據(jù)庫使用嚴(yán)格的分類策略來保護數(shù)據(jù)。而指示性數(shù)據(jù)結(jié)構(gòu)是對結(jié)構(gòu)的一種非精確的描述。它可接受所有新數(shù)據(jù),代價是要頻繁修改結(jié)構(gòu)。
5.半結(jié)構(gòu)化數(shù)據(jù)通常在數(shù)據(jù)存在之后才能通過當(dāng)前數(shù)據(jù)歸納出其結(jié)構(gòu),稱之為事后模式引導(dǎo)。模式有時可被忽略,同時數(shù)據(jù)與數(shù)據(jù)模式間的區(qū)別逐漸消除。
三、數(shù)據(jù)分析的方法
Web頁面的數(shù)據(jù)通常是利用統(tǒng)計模型和數(shù)學(xué)模型來分析的。使用的模型有線性分析和非線性分析;連續(xù)回歸分析和邏輯回歸分析;單變量和多變量分析以及時間序列分析等。這些統(tǒng)計分析工具能提供可視化功能和分析功能來尋找數(shù)據(jù)間關(guān)系、構(gòu)造模型來分析、解釋數(shù)據(jù)。并通過交互式過程和迭代過程用來求精模型,最終開發(fā)出最具適應(yīng)性的模型來將數(shù)據(jù)轉(zhuǎn)化為有價值的信息。
知識發(fā)現(xiàn)是從數(shù)據(jù)倉庫的大量數(shù)據(jù)中篩取信息,尋找經(jīng)常出現(xiàn)的模式,檢查趨勢并發(fā)掘?qū)嵤K欠治鯳eb頁面數(shù)據(jù)的重要方法。知識發(fā)現(xiàn)與模式識別的算法有以下幾種:
1.依賴性分析
依賴性分析算法搜索數(shù)據(jù)倉庫的條目和對象,從中尋找重復(fù)出現(xiàn)概率很高的模式。它展示了數(shù)據(jù)間未知的依賴關(guān)系。利用依賴性分析算法可以從某一數(shù)據(jù)對象的信息來推斷另一數(shù)據(jù)對象的信息。例如:在雜貨店中,一堆椒鹽餅干放在陳列飲料的走道上,這是因為經(jīng)過依賴性分析,商店認(rèn)為:很大一部分買飲料的顧客如果在取飲料的路上看到椒鹽餅干的話就會購買,因而此種分析影響了商店布局。
2.聚類和分類
在某些情況下,無法界定要分析的數(shù)據(jù)類,用聚類算法發(fā)現(xiàn)一些不知道的數(shù)據(jù)類或懷疑的數(shù)據(jù)類。聚類的過程是以某一特定時間為依據(jù),找出一個共享一些公共類別的群體,它稱為無監(jiān)督學(xué)習(xí)。分類過程,這是發(fā)現(xiàn)一些規(guī)定某些商品或時間是否屬于某一特定數(shù)據(jù)子集的規(guī)則。這些數(shù)據(jù)類很少在關(guān)系數(shù)據(jù)庫中進行定義,因而規(guī)范的數(shù)據(jù)模型中沒有它們的位置。最典型的例子是信用卡核準(zhǔn)過程,可確定能否按商品價格和其它標(biāo)準(zhǔn)把某一購買者歸入可接受的那一類中。分類又稱為有監(jiān)督學(xué)習(xí)。
3.神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)通過學(xué)習(xí)待分析數(shù)據(jù)中的模式來構(gòu)造模型。它對隱式類型進行分類。圖像分析是神經(jīng)網(wǎng)絡(luò)最成功的應(yīng)用之一。神經(jīng)網(wǎng)絡(luò)用于模型化非線性的、復(fù)雜的或噪聲高的數(shù)據(jù)。一般神經(jīng)模型由三個層次組成:數(shù)據(jù)倉庫數(shù)據(jù)輸入、中間層(各種神經(jīng)元)和輸出。它通常用恰當(dāng)?shù)臄?shù)據(jù)庫示例來訓(xùn)練和學(xué)習(xí)、校正預(yù)測的模型,提高預(yù)測結(jié)果的準(zhǔn)確性。