前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的數(shù)據(jù)分析設計主題范文,僅供參考,歡迎閱讀并收藏。
關(guān)鍵詞:類;DataLine;Translator;DataDrawer
航空設備數(shù)據(jù)分析一直是一個難題,因為數(shù)據(jù)按ICD協(xié)議上傳,需要轉(zhuǎn)化為可讀數(shù)據(jù)才能分析設備的運行狀態(tài)。但是設備的上傳速率一般在毫秒級,所以設備運行一個小時可以輸出上百兆的數(shù)據(jù),人工分析這些數(shù)據(jù)費時費力且錯誤率高,容易錯過關(guān)鍵數(shù)據(jù)。
針對這種情況,作者設計了一種專門分析設備上傳數(shù)據(jù)的軟件(簡稱數(shù)據(jù)分析軟件)。使用數(shù)據(jù)分析軟件處理百萬行的數(shù)據(jù)只需要不到一分鐘的時間,而且該軟件可以將數(shù)據(jù)制成曲線,可以更容易地捕捉到關(guān)鍵數(shù)據(jù)。
1 數(shù)據(jù)分析軟件
數(shù)據(jù)分析軟件包含兩個模塊:數(shù)據(jù)轉(zhuǎn)換模塊和數(shù)據(jù)繪制模塊。
1.1 數(shù)據(jù)轉(zhuǎn)換模塊
1.1.1 時間類
航空設備上傳的數(shù)據(jù)一般以時間為基準,因此數(shù)據(jù)轉(zhuǎn)換時需要保留原始數(shù)據(jù)的時間信息,這樣才能將數(shù)據(jù)繪制成以時間為X軸的曲線。時間類的定義如圖1:
基類Time繼承了IComparable接口,所以Time類重載了 “!=”,” ”,”==”四個操作符,這樣Time類的對象之間可以比較大小,所以轉(zhuǎn)換后的數(shù)據(jù)可以按時間前后排序。
1.1.2 數(shù)據(jù)類
在數(shù)據(jù)分析軟件中,數(shù)據(jù)是以行為單位的,每一行數(shù)據(jù)有多個域,不同行數(shù)據(jù)的域名相同,域內(nèi)的數(shù)據(jù)不同。數(shù)據(jù)行類定義如圖2。
DataLine的對象代表一行轉(zhuǎn)換后的數(shù)據(jù),ToString接口可以將DataLine里存儲的數(shù)據(jù)以文本的形式輸出。DataLine是一個抽象類,需要用他的子類實例化對象。由圖可見,MLSData集成了DataLine類,在成員變量中加入了一個MLSTime的對象_time用以表示該行數(shù)據(jù)的上傳時間,并且可以用CompareTo接口比較兩個MLSData對象的時間先后。其實MLSData的CompareTo接口只是調(diào)用了成員變量_time的CompareTo,如圖3。
1.1.3 翻譯器類
翻譯器實現(xiàn)的功能是將一行原始數(shù)據(jù)轉(zhuǎn)換為可讀數(shù)據(jù),翻譯器定義如圖4。
Translator是一個抽象類,其中定義了一個抽象函數(shù)Translate,這個函數(shù)有一個類型為String的形式參數(shù)data,并返回一個DataLine類(或其子類)的對象。其中data表示一行文本格式的原始數(shù)據(jù),返回值DataLine表示轉(zhuǎn)換后的數(shù)據(jù)。當需要分析按新版本ICD協(xié)議上傳的數(shù)據(jù)時,只需創(chuàng)建一個新的Translator子類,并按ICD協(xié)議重寫Translate函數(shù)即可。
1.2 數(shù)據(jù)繪制模塊
數(shù)據(jù)繪制模塊類關(guān)系圖如圖5:
父類DataDrawer是一個抽象函數(shù),他實現(xiàn)了繪制曲線的一些基本功能。子類MLSDrawer集成了DataDrawer的基本功能,并添加了數(shù)據(jù)段放大功能。MD_WarningLine添加了告警線的顯示功能,分析人員可以清晰地看到數(shù)據(jù)告警的位置,并針對該段數(shù)據(jù)進行分析。MultiLineDawer添加了多曲線繪制弄能,可以將多組數(shù)據(jù)的曲線繪制在同一坐標系內(nèi),讓分析人員可以進行多組數(shù)據(jù)間的交叉比對。
2 實際應用
如圖6,設備上傳數(shù)據(jù)經(jīng)數(shù)據(jù)轉(zhuǎn)換模塊處理后輸出可讀數(shù)據(jù)。
數(shù)據(jù)繪制模塊讀取分析結(jié)果數(shù)據(jù)后,可以將結(jié)果中的一組或多組數(shù)據(jù)繪制成曲線。
在曲線繪制區(qū)域內(nèi)拖動鼠標可已放大局部數(shù)據(jù),如圖9。
3 結(jié)語
關(guān)鍵詞: 體育統(tǒng)計;SPSS;多因素;方差分析;正交試驗設計;數(shù)據(jù)分析
中圖分類號: G 8032文章編號:1009783X(2013)03028306文獻標志碼: A
在用三因素有交互作用的方差分析來研究運動強度、運動量和運動持續(xù)的時間對運動成績的影響時,對影響運動成績的3個因素各按3個水平進行試驗,見表1。如果進行全面搭配法方案安排試驗,此方案數(shù)據(jù)點分布的均勻性極好,因素和水平的搭配十分全面,唯一的缺點是試驗次數(shù)較多,為33×2=54次(指數(shù)3代表3個因素,底數(shù)3代表每因素有3個水平,×后面的2,表示重復一次試驗),如圖1所示。因素、水平數(shù)愈多,則試驗次數(shù)就愈多[1]。例如,作一個5因素3水平的不重復試驗,就需要35=243次試驗。試驗次數(shù)越多,就需要更多的人力、物力和財力作保證,而且需要占用更多的時間,這顯然是十分困難的。有時由于所需的時間太長,使試驗的條件發(fā)生改變,還會導致試驗失敗,即使試驗有了結(jié)果,但對運動訓練的實際指導意義也可能已經(jīng)不太大了;因此,需要尋找一種合適的試驗設計方法。
對于如何去做試驗,怎樣才能做好試驗的問題是統(tǒng)計學很關(guān)注的一個問題。這就需要我們在做具體的試驗前,首先要做好試驗設計。
試驗設計的一個最重要的原則:在做試驗前,通過必要的事前考慮,作出合理周密的事先安排,從而在實際的試驗中,通過動用最少的人力、物力、財力及盡可能短的時間,以便用最少的試驗次數(shù)達到同做大量全面試驗等效的結(jié)果。
1.1.3因素和交互作用
選擇的正交表要能容納所考慮的因素和交互作用。為了對試驗結(jié)果進行方差分析或回歸分析,還必須至少留一個空白列,作為“誤差”列,在極差分析中要作為“其他因素”列處理。
1.1.4試驗精度
在同水平中取何種試驗次數(shù)的L表,取決于試驗精度的要求。如果試驗精度要求高,則宜取試驗次數(shù)多的L表。
1.1.5研究的成本
要根據(jù)研究的成本來決定適合的L表的選擇。若試驗費用很昂貴,或試驗的經(jīng)費很有限,或人力和時間都比較緊張,則應選試驗次數(shù)少一些的L表。
1.1.6修正水平數(shù)
在按原來考慮的因素、水平和交互作用去選擇正交表時,如無正好適用的正交表可選,則簡便且可行的辦法是適當修改原定的水平數(shù)。
1.1.7適當選用大表
在對某些因素間的交互作用的影響是否確實存在沒有把握的情況下,如果條件許可,則應盡量選用大表,讓影響存在的可能性較大的因素和交互作用各占適當?shù)牧?,在用方差分析進行顯著性檢驗時,就可得出結(jié)論。這樣既不增加太多試驗的工作量,又不致于漏掉重要的信息。
1.2正交試驗設計的基本步驟
1.2.1根據(jù)研究目的設計試驗因素和試驗指標
先根據(jù)研究課題來確定研究目的,再從專業(yè)的角度在眾多影響研究目的的因素中找出幾個主要影響因素,根據(jù)研究精度的要求和課題經(jīng)費的情況確定因素的水平,一般在條件允許的前提下,主要影響因素的水平可以分得多一些,同時還將確定最能反映試驗目的的測試指標,以便通過對試驗結(jié)果的分析找出主、次影響因素。
3結(jié)論
1)正交試驗設計可有效地減少試驗次數(shù),同時還可得到與做大量試驗等效的結(jié)論,可以節(jié)省大量的人力、物力,提高研究經(jīng)費的使用效率。
2) 在SPSS17.0中,可以利用數(shù)據(jù)菜單中正交設計過程中的生成程序產(chǎn)生正交表,用顯示程序打印正交設計方案。由SPSS17.0產(chǎn)生的正交表同正交試驗設計書中的正交設計表不一定相同。在需要作極差分析的同時,還要考慮交互作用,應根據(jù)交互作用表作表頭設計。
3) 在不需要極差分析或極差分析中不需要考慮交互作用時,可直接采用SPSS17.0產(chǎn)生的正交表來安排試驗(但生成正交表時要考慮求交互作用時的試驗次數(shù),即要根據(jù)因素數(shù)、水平數(shù)、交互作用安排在哪些列,來決定需要多大的正交表),也可直接用SPSS中多因素方差分析的方法來完成正交試驗設計的方差分析,同時可考慮交互作用。
4)在用SPSS17.0進行正交試驗設計分析可以代替手工計算。
由于篇幅有限,只討論了各因素等水平的情形,其他不等水平的混合設計,在SPSS中的實現(xiàn)方法是相同的。
參考文獻:
[1]劉達民,程巖.應用統(tǒng)計[M].北京:化學工業(yè)出版社,2004:153156.
[2]劉漢生,張寶玉.應用數(shù)理統(tǒng)計基礎(chǔ)[M].山西:山西科學教學出版社,1987:237266.
供電服務是供電企業(yè)的一項重要綜合管理指標。在供電服務管理實踐活動中,可以發(fā)現(xiàn)供電服務與營銷業(yè)務管控、電網(wǎng)運行、設備運維、供電能力、電建施工、員工素質(zhì)、工作標準、管理者思維等諸多因素有關(guān),如何將供電服務管理中存在著的諸多變化和離散因素,運用系統(tǒng)的科學的方法進行分析,尋求管理上的精細化和實現(xiàn)風險最小化,是各級供電企業(yè)所面臨的最迫切最現(xiàn)實的亟待解決的問題,最終實現(xiàn)客戶服務智能化、優(yōu)質(zhì)高效。
【關(guān)鍵詞】互聯(lián)網(wǎng)+ 大數(shù)據(jù)分析 供電服務 管控系統(tǒng) 設計與應用
目前,供電公司系統(tǒng)中存在著龐大的數(shù)據(jù)分析工作,利用數(shù)據(jù)分析結(jié)果進行有效的診斷分析,以更好地指導營銷服務,提升客戶服務功能,是供電公司必選的最佳途徑和手段,開發(fā)《基于互聯(lián)網(wǎng)+大數(shù)據(jù)分析模式創(chuàng)建供電服務管控系統(tǒng)》( The design and application of electricity system managing which is basing on ten huge data analysis ),其核心依托設計是創(chuàng)建大數(shù)據(jù)分析模式的供電服務管控應用系統(tǒng),融合拓展開發(fā)《開放式用電信息服務平臺的應用系統(tǒng)》{《開放式用電信息服務平臺》(The Opening Electricity Service Platform――簡稱:OEEP系統(tǒng))}是基于互聯(lián)網(wǎng)模式、計算機通信技術(shù)、GIS地理信息系統(tǒng)、用電信息服務的開放式面向客戶端的信息平臺,通過開發(fā)利用計算機、手機智能式服務系統(tǒng),在確保電網(wǎng)和營銷管理系統(tǒng)的安全前提下,鏈接供電生產(chǎn)系統(tǒng)、營銷服務系統(tǒng)與客戶端服務大數(shù)據(jù)系統(tǒng)信息共享,實現(xiàn)互聯(lián)網(wǎng)+多媒體的一體化開放式管控系統(tǒng)和公共服務平臺。
1 供電服務管控系統(tǒng)設計思路
1.1 供電服務管控應用系統(tǒng)設計
(1)建立與營銷系統(tǒng)完整鏈接的營銷服務主系統(tǒng),基礎(chǔ)數(shù)據(jù)來源和依賴于營銷系統(tǒng)數(shù)據(jù),分類建立不同功能模塊,設定客觀的量化指標,加入賽馬博弈競賽評分功能,客觀真實的反映出各層級供電單位供電服務業(yè)績,通過營銷服務在線管控系統(tǒng)實現(xiàn)綜合評價。
(2)搭建供電服務應用系統(tǒng),實時實現(xiàn)首端與末端、縱向與橫向、分級管控的全方位管控和應用,開發(fā)手機客戶端APP下載到每個員工手機上,達到供電服務全天候、全過程的在線操作。
(3)主要實現(xiàn)功能:供電服務法規(guī)及政策、信息公開及、工單受理與流轉(zhuǎn)、服務指標體系、競賽積分系統(tǒng)、工作動態(tài)與經(jīng)驗推介、綜合評價與獎懲。
(4)供電服務管控系統(tǒng)設計上,重點突出系統(tǒng)工程管理思維,力求規(guī)范化、標準化和可操作化,建立相應人性化管理的信息保障機制,對供電服務提升將會起到很好促進作用。
1.2 開放式用電信息服務平臺
(1)依托互聯(lián)網(wǎng)和計算機軟件技術(shù),建立GIS地理和供電設備集成系統(tǒng),實現(xiàn)模糊查詢實時鏈接。
(2)采用互聯(lián)網(wǎng)+模式,將95598客戶服務系統(tǒng)和營銷服務系統(tǒng)嵌入,經(jīng)過數(shù)據(jù)研判分析,建立開放式的客戶端即時使用和交換界面。
(3)建設依托計算機通信系統(tǒng)拓展的電力多樣化、智能化的服務,通過多媒體系統(tǒng)、掌上APP、微信等客戶端系統(tǒng),實時與金融、氣象、交通等其他資訊系統(tǒng)融合的通訊交換功效。
(4)借助電力系統(tǒng)的調(diào)度D5000系統(tǒng)、生產(chǎn)PMS系統(tǒng)、營銷MIS系統(tǒng)、用電信息采集系統(tǒng)等以及拓展的營配調(diào)貫通系統(tǒng),實現(xiàn)全方位全天候的停電信息實時、設備故障查詢、客戶報修服務系統(tǒng)合一功能。
2 系統(tǒng)功能性設計界面
2.1 大數(shù)據(jù)系統(tǒng)性分析
(1)應用數(shù)理統(tǒng)計學原理和解析法開展供電服務大數(shù)據(jù)分析、篩選、研判操作,通過數(shù)據(jù)分析結(jié)論,以系統(tǒng)的管理理念、科學的管理方法揭示業(yè)務管控、運行過程、管理現(xiàn)象內(nèi)在規(guī)律性問題,拓展供電服務領(lǐng)域措施和更大的提升空間。
(2)對供電服務管理的歸類統(tǒng)計和分析,可以達到過程清晰,由整體、局部到個性離散元素之間邏輯關(guān)系和關(guān)聯(lián)鏈接實現(xiàn)了閉環(huán),便于發(fā)現(xiàn)問題,從而改進供電服務管理的統(tǒng)計方法和分析思路。
(3)在供電服務管理中,能把影響供電服務指標變化的因素,以及諸多因素影響的程度,進行量化和篩選出來,有效的解決了投訴事件分析的盲目性和無序性,增強了投訴事件分析和管理流程的針對性、目的性和規(guī)律性,提高了精細化管理水平和工作效率。
(4)把營銷服務活動過程中,具有規(guī)律性和關(guān)聯(lián)性的諸多離散因素及物理現(xiàn)象,以及過程化的實踐控制流程,建立數(shù)據(jù)分析的邏輯鏈接,進行分類歸納和運算分析,展現(xiàn)不同的管控對象所需要的應用界面、過程管控以及個性需求。
2.2 客戶信息服務平臺
(1)基于互聯(lián)網(wǎng)+模式與計算機網(wǎng)絡通信規(guī)約,將GIS地理系統(tǒng)為基本內(nèi)核,實時進行導航鏈接,運用多媒體功能界面,在計算機終端和手機端加載運行。
(2)建立一個個不同數(shù)據(jù)結(jié)構(gòu)的模型,設計若干程序模塊和接口,實現(xiàn)內(nèi)置固化和跟蹤嵌入的方式,實時數(shù)據(jù)鏈接相關(guān)功能模塊,在不同的支撐界面進行靈活交互。
(3)鑒于信息安全管控要求,在確保電力網(wǎng)物理隔離和邏輯隔離滿足安全運行的情況下,在設計入口時設置唯一身份驗證和電子鑰匙,有條件的開放調(diào)度、生產(chǎn)和營銷系統(tǒng)數(shù)據(jù)接口,防止發(fā)生數(shù)據(jù)破壞和病毒侵害。
2.3 系統(tǒng)設計構(gòu)架圖
如圖1、2、3所示。
3 系統(tǒng)功能及性價比
3.1 實現(xiàn)功能
(1)該系統(tǒng)實現(xiàn)跨專業(yè)海量的信息資源共享,系統(tǒng)公共管理和專業(yè)個性的管理,實現(xiàn)專業(yè)融合、互動和協(xié)同,可滿足各級供電公司和不同管理層級的人員管理需求。
(2)該系統(tǒng)可實現(xiàn)實時的在線研判、指揮和分析,實現(xiàn)各層級供電服務在線實時跟蹤管控,提升了工作時效性、針對性和真實性。
(3)開放式的用電信息服務突破傳統(tǒng)服務技術(shù)瓶頸,建立了客戶與供公司自由、方便、快捷的服務通道,對客戶訴求和業(yè)務辦理實現(xiàn)在時間和空間上的即時響應和一對一服務。
(4)該系統(tǒng)開發(fā)使用可實現(xiàn)供電公司各種系統(tǒng)資源的縱橫協(xié)同和拓展延伸,實現(xiàn)內(nèi)部資源有效應用,最大限度的發(fā)揮各系統(tǒng)管理效益和經(jīng)濟效益,資源高效利用提升了企業(yè)資產(chǎn)良性運行成效。
(5)該系統(tǒng)應用可提高工作效率,減輕和降低了人員繁重和重復的工作量,解放了一線人員勞動資源。
3.2 性價比分析
3.2.1 軟硬件投資
一次性投資該系統(tǒng)的開發(fā)費用較低,基本上是用于已有的各類系統(tǒng)的接口技術(shù)處理,實現(xiàn)諸多系統(tǒng)和平臺之間的鏈接,該系統(tǒng)軟件運維成本較低,除了已有的各類系統(tǒng)自身的運維費用外,該系統(tǒng)只需解決接口費用即可。
主系統(tǒng)需配置較高標準的新設備,各級工作站現(xiàn)按照統(tǒng)一標準配置計算機和交換機等設備,即可滿足使用。建議各級供電服務指揮中心建設不同規(guī)格的大屏幕監(jiān)控工作室。
3.2.2 應用效益分析
(1)該系統(tǒng)開發(fā)后,實現(xiàn)了全省供電系統(tǒng)技術(shù)服務資源的整合高效利用,精細了管控過程和環(huán)節(jié),評價客觀真實,公司的管理效益十分顯著。
很多設計師從來不看數(shù)據(jù),要么是因為沒有數(shù)據(jù)可看,要么是根本不想看,但是也一樣把設計做的很好啊!設計本來就是有感性的一面,為什么非得要和數(shù)據(jù)扯上關(guān)系呢?
我們不妨先看看設計的本質(zhì)是什么。設計不同于純粹的藝術(shù),藝術(shù)源于藝術(shù)家對現(xiàn)實的觀察和思考,以及對這種觀察和思考的自我表達;設計天生就是為別人在做事情,縱然同樣需要觀察和思考,但是這種觀察和思考不是為了表現(xiàn)設計師的自我,而是為了更好地服務于某個用戶群,因而設計師了解用戶就變得非常重要。尤其是要了解用戶的目標、行為、態(tài)度等相關(guān)的情況,我們這里說的數(shù)據(jù)其實也就是對用戶的目標、行為、態(tài)度等情況的量化,因此,通過對這些數(shù)據(jù)的分析,我們可以更好地挖掘用戶的需求,進而為用戶提供更好地體驗。
簡單點說,設計是服務于用戶的,了解用戶才能更好地做設計,數(shù)據(jù)是了解用戶的一種途徑。
2、數(shù)據(jù)在項目中的作用有哪些?
要了解這個作用,我們先回到設計師看數(shù)據(jù)的主要場景,總結(jié)起來無外乎兩類:
一個是因為項目的需求,通過數(shù)據(jù)的論證,讓設計走得更從容,有理有據(jù),而不是設計師自己的YY;
另外一個是日常監(jiān)測的需求,自己做的產(chǎn)品,總要知道大概有多少人在用,使用的情況如何,用戶的行為和預期是否一致。也就是說要了解你的設計被使用的情況,否則你怎么知道設計的好不好,是不是達到了設計目標,是不是真的幫助用戶解決了問題。
先來分析下項目中看數(shù)據(jù)的場景。幾乎整個設計的過程都可能會用到數(shù)據(jù),概括起來可以把這個過程切分成三部分:
第一部分:設計前數(shù)據(jù)幫你發(fā)現(xiàn)問題
所有設計開始之前的研究和分析,都是為了更明確用戶的需求,明確為什么要做這個設計?從業(yè)務的角度來看,這個產(chǎn)品對公司有何價值,此次設計要達到什么目的;從用戶的角度來看,這個產(chǎn)品對用戶有何價值,此次設計要為用戶解決什么問題;在了解業(yè)務訴求和用戶訴求的過程中,我們難免要用到數(shù)據(jù),這個階段,數(shù)據(jù)的作用就是為了“發(fā)現(xiàn)問題”,看看設計可以解決什么問題,從而更佳明確設計的目標。
當然具體的工作中,多數(shù)設計師都比較糾結(jié),既要考慮業(yè)務訴求,又要考慮用戶訴求,如果這兩者不能完全匹配的時候,我們該咋辦,是兩者的相加嗎?還是我們就只考慮用戶訴求,對業(yè)務訴求看看就行了。我個人的理解是,現(xiàn)實工作中我們都不是在追求最完美的設計,更多的是在做平衡,如果是一個用戶型的產(chǎn)品,比如偏向于為用戶提供某個功能的平臺,本身就是完全從用戶的角度出發(fā),通過為用戶提供功能幫助用戶解決問題的,應該向用戶訴求靠攏多一些;如果是一個商業(yè)型的產(chǎn)品,比如偏向于為用戶提供某些內(nèi)容的平臺,那么在為用戶提供主動查找的入口的同時,可以適度的向著業(yè)務發(fā)展需求傾斜,做適度的業(yè)務層面的引導;當然這個也不是絕對的,往往同一個平臺,同一個產(chǎn)品,在不同的發(fā)展階段也有不同的需求,如果是一個全新的產(chǎn)品,業(yè)務的生存就變得格外重要,這個時候設計應該多一些考慮業(yè)務訴求,先幫助業(yè)務生存,否則,這個產(chǎn)品都要掛了,還怎么為用戶提供服務呢?
當然,好的設計師總是能在業(yè)務和用戶之間找到巧妙的平衡,找到二者的交集,舉個例子,假如這個產(chǎn)品這個階段就是要做用戶規(guī)模,而用戶訴求是享受個性化的服務,看似完全不關(guān)的兩個訴求,實際上我們完全可以通過更好的個性化服務提升用戶滿意度,獲得好的用戶口碑,再間接地借助用戶口碑提升產(chǎn)品的用戶規(guī)模,這二者之間并不是完全的不相干,更多的時候看能否找到他們的關(guān)聯(lián)性,抓住階段性的設計目標。
通過一個具體的例子看看如何利用數(shù)據(jù)來發(fā)現(xiàn)問題?數(shù)據(jù)代表的是用戶的目標、行為和態(tài)度,但是單獨看一個數(shù)字是沒辦法發(fā)現(xiàn)問題的,數(shù)據(jù)的對比是最簡單有效地手段。我們知道交易關(guān)系買家所產(chǎn)生的交易對1688網(wǎng)站有著非常重要的意義,我們想提升交易關(guān)系型買家的交易體驗,但是不知道從何入手,因此做了大量的數(shù)據(jù)分析。交易關(guān)系買家是通過什么方式找到老賣家?不同路徑的轉(zhuǎn)化率如何?不同用戶查找方式與轉(zhuǎn)化率有什么差異?
首先,通過用戶群的細分,我們發(fā)現(xiàn),交易關(guān)系買家通過搜索支付訂單轉(zhuǎn)化率是搜索整體支付訂單轉(zhuǎn)化率的2倍。因此,在搜索結(jié)果中增加老買家標簽,方便找到老賣家。
此外,我們還發(fā)現(xiàn),普通會員、1-2星會員等級,是提升交易關(guān)系交易的關(guān)鍵用戶。通過以上的數(shù)據(jù)分析,我們找到了目前主要的一些問題,圍繞著這些問題,后續(xù)做了優(yōu)化方案。
第二部分:設計中數(shù)據(jù)幫你判斷思路
因為設計師的個人經(jīng)驗不同,創(chuàng)造性思維不同,因此不同的設計師面對同一個問題,解決方案也很可能差別較大,即便是同一個設計師也會想到不同的解決方案,到底哪個方案更合適,有些情況下數(shù)據(jù)可以給你參考意見,為你提供“判斷思路”,協(xié)助你做決策;條條大路通羅馬,但是哪一條路才是當前最合適的呢?
通過一個具體的例子看看如何利用數(shù)據(jù)來判斷思路?有一個批發(fā)類的電商網(wǎng)站(1688.com)的頻道首頁(ye.1688.com),我們發(fā)現(xiàn)用戶的轉(zhuǎn)化率很低,就去研究了數(shù)據(jù),然后結(jié)合了對典型用戶做的用戶訪談的結(jié)論,最后發(fā)現(xiàn)轉(zhuǎn)化率底的原因其實很簡單,這個頻道的首頁入口主要是來源于整個網(wǎng)站的首頁,而整個網(wǎng)站的首頁是一個全行業(yè)品類的頁面,用戶如果是女裝行業(yè)的買家,她從一個全品類的首頁點擊一個鏈接進入另一個全品類的頁面,再艱難的找到女裝這個類目,再點擊進入List頁面查看商品,這個路徑是非常深的,那么怎么解決這個問題呢?那就是要避免做女裝的用戶從網(wǎng)站首頁進入這個頻道之后還要再次選擇女裝類目,才能看到女裝的商品!
解決這個問題的思路有哪些?可以在網(wǎng)站首頁增加入口,讓用戶直接點擊女裝類目進入頻道首頁,給用戶展示女裝商品;可以在用戶進入頻道首頁之后,根據(jù)行業(yè)偏好的個性化數(shù)據(jù)來推薦商品,推薦的不準確,用戶也可以去定制;到底哪個更靠譜?兩個思路各有利弊,鑒于前一個思路需要有外部依賴,要改動網(wǎng)站首頁,所以我們內(nèi)心都很期望后一個思路能跑通,但是怎么知道這個思路行不行?首先我們需要知道行業(yè)的個性化推薦能覆蓋多大的人群,又有多少的人愿意去定制行業(yè)偏好?
對于普通的網(wǎng)站來說這個可能是一個不夠明確的問題,但是1688.com是一個會員用戶早就過億的B類電商網(wǎng)站,有著如此龐大的用戶規(guī)模,較高的用戶覆蓋率,這就意味著對用戶行為數(shù)據(jù)的積累,再者B類的用戶有一個顯著地特征就是在一個較長的時間里,行業(yè)的偏好相對比較穩(wěn)定,如果是一個主營女裝的買家,那么她的偏好一般會以女裝為主,不會超出服裝的范圍,最多會有少量的服裝周邊配套的采購。
如上圖,通過行業(yè)偏好的個性化算法,我們追蹤了一段時間來訪這個頻道首頁(ye.1688.com)的用戶數(shù)據(jù),我們發(fā)現(xiàn)大約2/3的用戶是有著非常明確的行業(yè)偏好的,那么這基本可以斷定做行業(yè)偏好的個性化推薦是靠譜的!但是剩下的1/3用戶愿意去定制行業(yè)偏好嗎?我們當時因為時間原因,無法直接從這1/3無明確偏好的用戶中去判斷他們是否愿意定制偏好,但是通過整個用戶群的問卷抽樣調(diào)查發(fā)現(xiàn),大約3成的用戶表示定制行業(yè)偏好是很好的服務,基于這些情況,我們判定基于行業(yè)偏好的個性化推薦能夠解決絕大部分用戶的行業(yè)偏好問題,提升了內(nèi)容的相關(guān)性。這個方案最終上線后,實際上有大約10%的人真正找到定制入口并且產(chǎn)生了定制行為,70%的人不用定制,實現(xiàn)了默認的精準推薦。
第三部分:設計后數(shù)據(jù)幫你驗證方案
我們的設計方案到底做的好不好呢?衡量標準就是看設計方案是否能夠達成設計目標?這也需要數(shù)據(jù)來量化,通常會用GSM的模型來支撐設計的驗證。G(Goal)設計目標、S(Signal)現(xiàn)象信號、M(Metric)衡量指標,所謂的設計目標,就是要確定設計要達成什么結(jié)果,要解決什么問題;衡量指標,我們不能憑空猜想,必須建立在設計目標的基礎(chǔ)上,先假設設計目標會實現(xiàn),那么會出現(xiàn)什么現(xiàn)象或信號呢?列舉出所有的現(xiàn)象或信號,選擇我們可以監(jiān)控的到的,然后對這個現(xiàn)象或信號產(chǎn)品進行量化,自然就得到了衡量指標,但是指標的波動幅度往往要依賴經(jīng)驗來定。
比如說,某個產(chǎn)品的設計目標是通過設計的引導,讓更多的買家產(chǎn)生購買,想象一下,如果設計目標實現(xiàn)了,會有什么現(xiàn)象呢?可能會有更多的人有購買意愿,看了商品詳情頁,點擊了購買按鈕等等,最終也產(chǎn)生了購買,那么,衡量指標是哪個?設計只是改變了商品信息的呈現(xiàn)方式,并不能改變商品本身的質(zhì)量或背后的服務,所以我們應該重點考察設計是否強化了引導,提升了購買意愿,是否激發(fā)了用戶進一步了解的行為,主要是指瀏覽行為,最典型的就是到達了商品列表頁或者商品詳情頁等,量化的結(jié)果就是看又進一步行為的用戶的比例;
通過一個具體的例子看看如何利用數(shù)據(jù)來驗證你的設計方案是否達成設計目標。曾經(jīng)有一個找產(chǎn)地的功能模塊,我們在設計前進行了調(diào)研,用戶告訴我們他們需要找產(chǎn)地,而且比較習慣于用地圖來找產(chǎn)地,我們欣喜若狂,照著這個方向做了個產(chǎn)地直達的樓層,我們堅信用戶告訴我們的肯定是對的!但是這樣的設計真的能達到幫助用戶高效找產(chǎn)地的需求嗎?來看下面的數(shù)據(jù)分析。
用戶的目標不是要找產(chǎn)地嗎?還告訴我們用地圖找產(chǎn)地很符合他們的習慣呢?為什么上線后,用戶卻不怎么使用這個版塊???我看到這個數(shù)據(jù)非常的意外,一時之間根本摸不著頭腦,后來再去看了看這個板塊的熱力圖,一下子恍然大悟。通過數(shù)據(jù)分析得出,地圖縱然符合用戶習慣,但是才這么狹小的地圖上進行如此復雜的操作,其效率是非常底下的,因此將地圖找產(chǎn)地的功能保留下來,只是不作為默認的方式,采用了按照熱門的、區(qū)域的、附近的、可搜索的、地圖的方式綜合承載,最后取得了較好的效果!
3、如何利用數(shù)據(jù)做日常監(jiān)控?
作為一個設計師,你的作品上線后,有多少人用?這些用戶是誰?有什么特征?用戶具體是怎么在使用你的產(chǎn)品的?你的設計是否還有優(yōu)化的空間?如何才能為用戶打造更好的使用體驗?怎么才能知道這些數(shù)據(jù)好不好,有沒有問題呢?主要是靠比較、靠經(jīng)驗,靠對這個產(chǎn)品長期跟進產(chǎn)生的直覺,只有在對這個產(chǎn)品非常熟悉的前提下,你才有可能對數(shù)據(jù)的變化給予比較靠譜的解讀。
日常監(jiān)控中用于發(fā)現(xiàn)問題的主要手段就是做數(shù)據(jù)的對比,但是如何具體的作對比呢?主要有三種最常用的最簡單的對比方式:a、橫向比較,和類似的產(chǎn)品去比較,看相對的狀況,進而推測出自身是否存在問題;b、縱向比較,和自己的過去比較,看看從歷史的發(fā)展規(guī)律中是否能得到某些啟發(fā),主要是看自身的變化趨勢;c、用戶細分,這個就是把用戶按照不同的分析需要,拆分來之后來看數(shù)據(jù),看看各個群體之間的差異在哪里,有沒有一部分用戶和其他用戶表現(xiàn)出不同的行為,進而找到問題所在。當然除了這三種常用的對比之外,我們還可以做一些配套的定性研究,進而把問題搞得更透徹。一些統(tǒng)計學的工具有時候也能起到作用,比如說用SPSS做數(shù)據(jù)的因子分析、聚類分析等等,也可以有一些意想不到的收獲。
關(guān)鍵詞:系統(tǒng)設計;信息分析;Oracle數(shù)據(jù)庫;數(shù)據(jù)結(jié)構(gòu);GIS
中圖分類號:TP311.13文獻標識碼:A 文章編號:1009-3044(2010)08-1800-04
The System Design of Information Analysis Database for Changqing Oilfield
LI Juan, GUO Kang-liang, HE Zhen-ming, TANG Jun, YAN Ke-wei
(Department of Geosciences, Yangtze University, Jingzhou 434023, China)
Abstract: Changqing Oilfield information analysis database system using ORACLE database, GIS (geographic information system) technology on the original field information storage, graphical management, and through mathematical analysis to accomplish the production information analysis, obtained laws to assist in the future the work of decision making. Development through information analysis system will make that field information management more scientific and convenient.
Key words: system design; information analysis; Oracle databases; data structures; GIS
隨著當今計算機數(shù)據(jù)庫和數(shù)據(jù)倉庫,GIS等技術(shù)的發(fā)展,利用大量的、全面的生產(chǎn)歷史數(shù)據(jù),將其存儲在數(shù)據(jù)(倉)庫中,進行新數(shù)據(jù)的錄入、歷史數(shù)據(jù)的分類提取。然后借助相關(guān)數(shù)學方法對生產(chǎn)信息進行科學的數(shù)據(jù)分析,進而總結(jié)規(guī)律。GIS圖形化管理工具的運用也能幫助直觀、便捷的處理各類信息。這些先進的技術(shù)必將給油田的發(fā)展帶來二次的飛越。油田信息化將大大提升油田生產(chǎn)、管理水平,為油田生產(chǎn)發(fā)揮巨大的效益,成為公認的增強企業(yè)競爭力的有效途徑。
1 系統(tǒng)需求分析
1.1 數(shù)據(jù)管理需求
油田信息化建設是改變傳統(tǒng)的油田生產(chǎn)經(jīng)營模式,以一種全新的數(shù)字化作業(yè)方式代替?zhèn)鹘y(tǒng)的手工或半手工的工作方式。油田的管理首先要對油田的各類海量信息數(shù)據(jù)進行管理。數(shù)據(jù)是油田的資產(chǎn)和寶貴的財富,但由于以前是人工管理,現(xiàn)在存在了資料的保存介質(zhì)多樣、數(shù)據(jù)格式多樣、數(shù)據(jù)冗余、數(shù)據(jù)管理繁瑣、數(shù)據(jù)應用不便、不能共享等各種問題。系統(tǒng)將以數(shù)據(jù)庫技術(shù),地理空間信息為基礎(chǔ),直觀合理、科學便捷的實現(xiàn)油田地質(zhì)研究、數(shù)據(jù)管理、自動化監(jiān)控、經(jīng)營管理、部門管理等。
1.2 生產(chǎn)需求
長慶油田屬于低滲透砂巖氣藏,這類氣藏具有孔隙度低、滲透率低,含水飽和度高,氣水關(guān)系負雜、非均質(zhì)性強、氣體流動啟動壓力高、單井產(chǎn)量低等特點,壓裂是這類低滲透砂巖氣藏開發(fā)的主要手段。只有搞好氣井的壓裂,使其發(fā)揮最大的經(jīng)濟效益,才能真正提高油氣田的產(chǎn)量。因此做好壓裂前各項技術(shù)的準備,如選井選層及綜合地質(zhì)研究,為優(yōu)化施工設計提供地質(zhì)依據(jù)。壓裂以后做好壓裂效果評價,正確科學的對壓裂效果的各項數(shù)據(jù)進行分析,從而選擇最佳的壓裂施工方案[1]。系統(tǒng)可以將油井的復雜性整體客觀地展示給管理者,用戶可以把復雜的壓裂數(shù)據(jù)和地質(zhì)情況轉(zhuǎn)換成直觀的分析曲線,可簡單便捷的確定分析油藏,直接設計井位和壓裂開發(fā)方案,可以實現(xiàn)桌面化的油田研究、管理、指揮和決策,能夠獲得不同思路的建模和模擬結(jié)果,從而達到降低風險,優(yōu)化決策的效果[2]。
2 系統(tǒng)體系結(jié)構(gòu)
計算機應用結(jié)構(gòu)分為:Client/ Server(客戶機/服務器)結(jié)構(gòu)、Browser/Server(瀏覽器/服務器)結(jié)構(gòu)。
2.1 Client/Server模式
C/S模式是基于網(wǎng)絡技術(shù)發(fā)展起來的一種新型體系結(jié)構(gòu)的信息處理模式,具有較強的信息共享能力。這種結(jié)構(gòu)的配置較為靈活,每個用戶具有較強的獨立性。但需要在每一個Client端安裝特定的應用程序,限制了Client端的靈活性,而且存在Client端跨多平臺時不靈活的問題,因此這種結(jié)構(gòu)具有一定的局限性。C/S網(wǎng)絡運行模式操作復雜,對系統(tǒng)維護人員要求高。這樣對于一般的部門往往會出現(xiàn)因為管理人員的維護不當而使系統(tǒng)出錯甚至使系統(tǒng)崩潰。另外C/S方式對網(wǎng)絡要求比較高,一般適用于局域網(wǎng)內(nèi)部使用。
2.2 Browser/Server模式
B/S結(jié)構(gòu)擴展了客戶機/服務器的概念,使開發(fā)者只需將注意力集中到Web服務器端后臺應用的開發(fā),省去了客戶端前臺交互界面軟件的開發(fā),上網(wǎng)用戶使用通用的多媒體瀏覽器(如IE)就可進行信息訪問和交流,數(shù)據(jù)操作和程序運行都在服務器中完成,實現(xiàn)客戶端的零安裝和零維護。這不僅可節(jié)省開發(fā)費用和加快開發(fā)進度,更重要的是實現(xiàn)了跨越多平臺的開發(fā)。由于數(shù)據(jù)訪問是實時的,當多用戶并發(fā)訪問、傳輸數(shù)據(jù)量較大時,易造成網(wǎng)絡堵塞,降低訪問速度。
鑒于B/S方式和C/S方式各具優(yōu)缺點,系統(tǒng)采用以B/S為主,C/S為輔的網(wǎng)絡結(jié)構(gòu)模式進行系統(tǒng)結(jié)構(gòu)管理(見圖1),為各部門業(yè)務的開展提供可行的解決方案。對于信息室,由于要負責數(shù)據(jù)更新和系統(tǒng)的維護等工作,涉及大量數(shù)據(jù)的處理,提供C/S模式,以充分利用其具有良好的人/機交互能力,對圖形數(shù)據(jù)具有很強的處理和編輯能力,對于空間數(shù)據(jù)的存取效率高的特點,方便用戶開展管理工作[3]。對于各處室業(yè)務人員日常辦公,由于辦公地點分布地域廣、工作人員的素質(zhì)差異較大,為其提供B/S模式,通過局域網(wǎng)訪問信息中心。所有日常辦公操作可通過瀏覽器完成,可大大降低對基層人員的計算機技術(shù)要求。
3 系統(tǒng)功能設計
數(shù)據(jù)庫系統(tǒng)在功能結(jié)構(gòu)上由服務器、管理平臺和客戶端三部分組成,管理平臺和客戶端通過TCP/IP協(xié)議與服務器相連。服務器主要用于數(shù)據(jù)庫的存儲、數(shù)據(jù)庫信息調(diào)用的服務。并選用國際通用的、能提供對大塊數(shù)據(jù)體支持的Oracle數(shù)據(jù)庫產(chǎn)品,能夠很好地滿足分布式網(wǎng)絡數(shù)據(jù)庫要求。管理平臺與客戶端是兩個相對獨立的部分,都通過內(nèi)部網(wǎng)絡與服務器相連,通過軟件平臺調(diào)用服務器上數(shù)據(jù)庫的信息。功能模塊的設計上,按照功能的不同主要分成了三個部分:基礎(chǔ)資料的管理部分,圖件數(shù)字化部分,分析決策部分;其中各個部分又依照具體功能分成了不同的子系統(tǒng)來實現(xiàn)具體功能。子系統(tǒng)包括數(shù)據(jù)庫管理與顯示子系統(tǒng)、基礎(chǔ)數(shù)據(jù)統(tǒng)計查詢子系統(tǒng)、數(shù)理統(tǒng)計方法庫管理子系統(tǒng)、壓裂措施選取輔助決策子系統(tǒng)、數(shù)據(jù)接口子系統(tǒng)、生產(chǎn)分析結(jié)果管理子系統(tǒng)、圖件數(shù)字化子系統(tǒng)、專題地質(zhì)圖件繪制子系統(tǒng)等等。
3.1 基礎(chǔ)資料管理部分
主要包括用戶管理、日志管理、系統(tǒng)維護、基礎(chǔ)應用管理、數(shù)據(jù)顯示等功能模塊來負責對以往的油田各項信息資料數(shù)據(jù)進行存取、錄入、更新以及維護。這部分主要是借助ORACLE數(shù)據(jù)庫各種功能的來管理和實現(xiàn),類似一般的數(shù)據(jù)庫管理。
3.2 圖件數(shù)字化部分
主要是采用C/S結(jié)構(gòu),基于地理信息系統(tǒng)(GIS)組件二次開發(fā),圖件數(shù)字化子系統(tǒng)實現(xiàn)了地圖顯示與瀏覽、圖像導入、圖像校正、空間參照系的設置、圖形輸入與編輯、常用數(shù)據(jù)接口、圖件排版與輸出等功能。并且聯(lián)同ORACLE查詢功能來實現(xiàn)圖形與屬性互操作的管理、查詢、修改功能。
3.3 分析決策部分
這部分是整個系統(tǒng)的關(guān)鍵,建立服務于壓裂效果評價與措施選擇的方法庫,為基礎(chǔ)資料的綜合分析和挖掘提供技術(shù)支撐。借助了相關(guān)的數(shù)學分析方法能夠?qū)Ω黝惿a(chǎn)數(shù)據(jù)進行多元回歸分析(線性、非線性)、主成份分析、因子分析等方法綜合研究。其中運用了神經(jīng)網(wǎng)絡、數(shù)據(jù)挖掘等技術(shù)對于分析油層參數(shù)、措施參數(shù)與措施效果之間的協(xié)同復雜關(guān)系,為措施效果評價、措施參數(shù)優(yōu)化提供技術(shù)支撐。
由于壓裂效果與其影響參數(shù)之間大多呈復雜的非線性關(guān)系,這種關(guān)系難以用傳統(tǒng)的數(shù)學表達式來描繪;又由于各因素對壓裂效果的影響程度不同,而且某些因素之間存在交叉影響現(xiàn)象。因而可以用人工神經(jīng)網(wǎng)絡方法來解決這類高度復雜的非線性問題。在處理參數(shù)間的復雜非線性關(guān)系時,利用網(wǎng)絡上各神經(jīng)元的參數(shù)(即復雜的網(wǎng)絡結(jié)構(gòu))來表達知識,而不是用傳統(tǒng)數(shù)學中的簡單表達式;通過調(diào)節(jié)網(wǎng)絡中各節(jié)點與節(jié)點之間的連接系數(shù)(即參數(shù)的權(quán)值大小)來解決參數(shù)存在的重復和主次現(xiàn)象[4]。
4 數(shù)據(jù)庫結(jié)構(gòu)設計
4.1 數(shù)據(jù)庫需求分析
數(shù)據(jù)庫是本系統(tǒng)的基礎(chǔ),將實現(xiàn)系統(tǒng)中各種空間、屬性數(shù)據(jù)的統(tǒng)一管理與維護,支持系統(tǒng)中各項業(yè)務的正常運行??傮w上,本系統(tǒng)數(shù)據(jù)庫中的數(shù)據(jù)應包括基礎(chǔ)數(shù)據(jù)、業(yè)務數(shù)據(jù)、分析成果數(shù)據(jù)三大部分?;A(chǔ)數(shù)據(jù)由地理空間數(shù)據(jù)、系統(tǒng)管理數(shù)據(jù)、組織機構(gòu)數(shù)據(jù)、工程基礎(chǔ)數(shù)據(jù)組成;業(yè)務數(shù)據(jù)主要由長慶石油勘探局井下技術(shù)作業(yè)處生產(chǎn)信息系統(tǒng)中的壓裂、試井、分析生產(chǎn)數(shù)據(jù)構(gòu)成,另外還包括收集整理測井成果數(shù)據(jù)。分析成果數(shù)據(jù)是該系統(tǒng)的核心數(shù)據(jù),通過運用本系統(tǒng)提供的分析方法與工具對現(xiàn)有油層數(shù)據(jù)、測井數(shù)據(jù)、試井數(shù)據(jù)等評價分析獲得,是系統(tǒng)進行壓裂效果評價和壓裂方案設計的數(shù)據(jù)基礎(chǔ)。
4.2 數(shù)據(jù)庫系統(tǒng)設計
系統(tǒng)選用結(jié)構(gòu)化系統(tǒng)開發(fā)方法。這種方法的突出優(yōu)點就是它強調(diào)系統(tǒng)開發(fā)過程的整體性和全局性,強調(diào)在整體優(yōu)化的前提下來考慮具體的分析設計問題,即自頂向下的觀點,是一種目前廣泛被采用的系統(tǒng)開發(fā)方法[5]。數(shù)據(jù)庫是本系統(tǒng)的基礎(chǔ),將實現(xiàn)系統(tǒng)中各種空間、屬性數(shù)據(jù)的統(tǒng)一管理與維護,支持系統(tǒng)中各項業(yè)務的正常運行。
從數(shù)據(jù)的形式來說,本系統(tǒng)數(shù)據(jù)庫中既包含傳統(tǒng)一維表格數(shù)據(jù)又包括新采集的二維圖形數(shù)據(jù)。為了便于二者的管理和維護,需要設計統(tǒng)一的數(shù)據(jù)模型將二者有機的組織在一起統(tǒng)一管理、統(tǒng)一維護[4]。利用國產(chǎn)GIS軟件MapGIS空間數(shù)據(jù)引擎SDE提供的強大功能,可實現(xiàn)圖形和屬性數(shù)據(jù)在商業(yè)數(shù)據(jù)庫軟件ORACLE中的統(tǒng)一存儲和管理,同時也保證了本系統(tǒng)數(shù)據(jù)庫與井下處生產(chǎn)信息系統(tǒng)數(shù)據(jù)庫的兼容性。從數(shù)據(jù)的來源與用途來看,本系統(tǒng)數(shù)據(jù)可分為基礎(chǔ)數(shù)據(jù)、業(yè)務數(shù)據(jù)、分析成果數(shù)據(jù)三大部分,因此,邏輯上劃分為基礎(chǔ)數(shù)據(jù)庫、業(yè)務數(shù)據(jù)庫、分析成果數(shù)據(jù)庫三個子庫。
1)基礎(chǔ)數(shù)據(jù)
基礎(chǔ)數(shù)據(jù)包括維護系統(tǒng)和系統(tǒng)業(yè)務運行的各項基礎(chǔ)數(shù)據(jù),包括工程基礎(chǔ)數(shù)據(jù)、地理空間數(shù)據(jù)、組織機構(gòu)基礎(chǔ)數(shù)據(jù)、系統(tǒng)管理數(shù)據(jù)等。
2)業(yè)務數(shù)據(jù)
業(yè)務數(shù)據(jù)是井下處生產(chǎn)過程中所涉及的生產(chǎn)設計、生產(chǎn)記錄和生產(chǎn)成果數(shù)據(jù),主要包括壓酸擠數(shù)據(jù)、測試試井數(shù)據(jù)、生產(chǎn)分析結(jié)果數(shù)據(jù)、測井綜合數(shù)據(jù)等。
3)分析成果數(shù)據(jù)
分析成果數(shù)據(jù)是本系統(tǒng)中用于支持壓裂效果評價與方案優(yōu)選的數(shù)據(jù)基礎(chǔ),包括評價分析樣本數(shù)據(jù)、評價分析因素相關(guān)系數(shù)數(shù)據(jù)、評價分析方法數(shù)據(jù)、評價分析成果數(shù)據(jù)。
4.3 數(shù)據(jù)表結(jié)構(gòu)設計
每一口井的信息種類不盡相同,同時,每一口井的單個信息可能有多次測量。并且測井信息在不斷的更新中。這就要求數(shù)據(jù)庫有良好的可擴充性,在統(tǒng)一了測井信息數(shù)據(jù)格式的基礎(chǔ)上,在ORACLE數(shù)據(jù)庫系統(tǒng)的支持下,采用嵌套表的方法可較好地解決這一問題[6]。另一方面由于數(shù)據(jù)庫中井的數(shù)量龐大。這就要求測井信息數(shù)據(jù)庫有良好的結(jié),達到盡量提高效率的原則?;诖?設計了如圖3所示的數(shù)據(jù)庫表結(jié)構(gòu)形式[7]。
4.4 數(shù)據(jù)信息關(guān)系設計
系統(tǒng)采用當前應用最為廣泛的基于關(guān)系表的存儲方式,并采用星型存儲模式,這種模式可為數(shù)據(jù)倉庫提供優(yōu)越的數(shù)據(jù)檢索和分析功能。在創(chuàng)建數(shù)據(jù)倉庫的過程中,選定的主題為壓裂效果無阻流量,在數(shù)據(jù)倉庫中存在維表和事實表,兩種表間利用維的ID連接[8]。
5 系統(tǒng)的關(guān)鍵技術(shù)路線
5.1 面向?qū)ο蟮南到y(tǒng)分析和設計(OOA&D)方法
系統(tǒng)分析與設計將采用面向?qū)ο蟮南到y(tǒng)分析與設計(OOA&D)方法,確保系統(tǒng)設計與開發(fā)符合軟件工程的規(guī)范,開發(fā)出規(guī)范化的、具有較高可移植性、可靠性的軟件,提高系統(tǒng)開發(fā)的效率。
5.2 采用關(guān)系數(shù)據(jù)庫管理空間數(shù)據(jù)和屬性數(shù)據(jù)
當前地理信息系統(tǒng)(GIS)技術(shù)發(fā)展的最新趨勢是采用關(guān)系數(shù)據(jù)庫或?qū)ο箨P(guān)系數(shù)據(jù)庫管理空間數(shù)據(jù)和屬性數(shù)據(jù),可以充分利用關(guān)系數(shù)據(jù)庫管理系統(tǒng)(RDBMS)的數(shù)據(jù)管理功能,利用結(jié)構(gòu)化查詢語言(SQL)對空間與非空間數(shù)據(jù)進行操作,同時可以利用關(guān)系數(shù)據(jù)庫的海量數(shù)據(jù)管理、事務處理(Transaction)、記錄鎖定、并發(fā)控制、數(shù)據(jù)倉庫等功能,使空間數(shù)據(jù)與非空間數(shù)據(jù)一體化集成。系統(tǒng)將采用關(guān)系數(shù)據(jù)庫管理空間數(shù)據(jù)和屬性數(shù)據(jù),確??臻g和非空間數(shù)據(jù)的一體化集成。
5.3 全組件式GIS技術(shù)應用
GIS融入IT除了將空間數(shù)據(jù)交到關(guān)系數(shù)據(jù)庫中進行管理以外,開發(fā)客戶端時,還要考慮使用全組件式的GIS。全組件式GIS軟件將GIS的功能從數(shù)據(jù)輸入、編輯、處理(建立拓撲關(guān)系)、查詢顯示、分析和制圖輸出全部封裝成組件,可以根據(jù)用戶需要,自由定制操作方式和界面。用戶可以將GIS組件和其他組件放在一起,采用通用的開發(fā)平臺,如Visual Basic、Delphi、Power Builder、C#等,而不再受GIS二次開發(fā)語言限制。從而極大地方便了二次開發(fā),同時增強了二次開發(fā)的擴展能力,使得后續(xù)應用系統(tǒng)的開發(fā)與基礎(chǔ)數(shù)據(jù)的銜接變得方便簡單[7]。
5.4 數(shù)據(jù)挖掘技術(shù)的應用
數(shù)據(jù)挖掘能自動在大型數(shù)據(jù)庫里面找尋潛在的預測信息。傳統(tǒng)上需要很多專家來進行分析的問題,現(xiàn)在可以快速而直接地從數(shù)據(jù)中間找到答案。數(shù)據(jù)挖掘工具可以根據(jù)過去大量的數(shù)據(jù)找出其中最有可能對將來的發(fā)展最有價值的信息,并辨認出那些隱藏著的模式。數(shù)據(jù)挖掘技術(shù)可以讓現(xiàn)有的軟件和硬件更加自動化,并且可以在升級的或者新開發(fā)的平臺上執(zhí)行[9]。
5.5 神經(jīng)網(wǎng)絡技術(shù)的應用
人工神經(jīng)網(wǎng)絡就是模擬人思維的直觀性思維:1)信息是通過神經(jīng)元上的興奮模式分布儲在網(wǎng)絡上;2)信息處理是通過神經(jīng)元之間同時相互作用的動態(tài)過程來完成的。這是一個非線性動力學系統(tǒng),其特色在于信息的分布式存儲和并行協(xié)同處理。雖然單個神經(jīng)元的結(jié)構(gòu)極其簡單,功能有限,但大量神經(jīng)元構(gòu)成的網(wǎng)絡系統(tǒng)所能實現(xiàn)的行為卻是極其豐富多彩的。神經(jīng)網(wǎng)絡方法能很好地解決多因素的非線性問題[8]。
6 結(jié)束語
在系統(tǒng)的開發(fā)過程中要具體的考慮到數(shù)據(jù)庫表的各項數(shù)據(jù)內(nèi)容的結(jié)構(gòu),設置方便開放的數(shù)據(jù)接口,方便系統(tǒng)的二次開發(fā)與維護。各類數(shù)據(jù)平臺和軟硬件要更加通用和開放。
參考文獻:
[1] 肖昆.低滲透氣藏壓裂效果評價方法研究[D].成都:西南石油學院,2003.
[2] 劉擁軍,楊永發(fā),朱春紅.長慶油田測井信息數(shù)據(jù)庫的系統(tǒng)設計[J].測井技術(shù),2005,26(3).
[3] 張曉林,侯寶穩(wěn),吳寶江.數(shù)據(jù)庫系統(tǒng)管理與應用[M].北京:清華大學出版社,2007.
[4] 吳亞紅,李秀生.人工神經(jīng)網(wǎng)在壓裂選井及選層中的應用[J].石油大學學報,2001(25).
[5] 王曉蓮,顧娟,王穎,等.大慶油田測井數(shù)據(jù)庫系統(tǒng)設計[J].油氣田地面工程,2007,26(2).
[6] 袁鵬飛.ORACLE8i數(shù)據(jù)庫高級應用開發(fā)技術(shù)[M].北京:人民郵電出版社,2000.
[7] 張帆.基于.Net 平臺WebGIS系統(tǒng)的研究與實現(xiàn)[D].長沙:中南大學,2008.
關(guān)鍵詞:Hadoop 市政設施監(jiān)控 大數(shù)據(jù)
中圖分類號:TP31 文獻標識碼:A 文章編號:1674-098X(2016)10(b)-0076-02
Hadoop作為一種有效的大數(shù)據(jù)技術(shù),在數(shù)據(jù)處理和網(wǎng)絡系統(tǒng)中得到了有效的應用,對提高大數(shù)據(jù)分析處理效果具有重要作用。根據(jù)Hadoop技術(shù)的概念及內(nèi)容實際,掌握Hadoop的體系架構(gòu)特點,對于構(gòu)建大數(shù)據(jù)處理系統(tǒng)是十分重要的。結(jié)合市政設施監(jiān)控系統(tǒng)的數(shù)據(jù)處理需求,應用Hadoop構(gòu)建市政設施監(jiān)控系統(tǒng),對于提高市政設施監(jiān)控系統(tǒng)的運行效果和滿足市政設施監(jiān)控系統(tǒng)的數(shù)據(jù)處理需要具有重要意義。為此,應開展Hadoop大數(shù)據(jù)系統(tǒng)的研究。
1 Hadoop的概念及內(nèi)容
Hadoop是一個用java語言實現(xiàn)的軟件框架,在由大量計算機組成的集群中運行海量數(shù)據(jù)的分布式計算,它可以讓應用程序支持上千個節(jié)點和PB級別的數(shù)據(jù)。Hadoop是項目的總稱,主要是由分布式存儲(HDFS)、分布式計算(MapReduce)等組成。
Hadoop作為一種有效的大數(shù)據(jù)處理技術(shù),其主要優(yōu)點分為4個方面。
1.1 可擴展
Hadoop技術(shù)在實際應用過程中,可以根據(jù)所構(gòu)建系統(tǒng)的需求進行必要的擴展。具體功能可以在原有大數(shù)據(jù)處理的基礎(chǔ)上進行增減,以滿足所構(gòu)建系統(tǒng)的實際需求為準。這一功能是Hadoop的主要優(yōu)勢,擴大了Hadoop技術(shù)的應用范圍。
1.2 經(jīng)濟
Hadoop技術(shù)在應用過程中,整體應用成本較低。由于Hadoop具備了較好的可擴展性,在系統(tǒng)的構(gòu)建中可以作為基礎(chǔ)技術(shù)進行應用,在Hadoop基礎(chǔ)上有效接入其他系統(tǒng),避免了系統(tǒng)重建導致的資源浪費,有效地提高了系統(tǒng)的構(gòu)建效果。
1.3 可靠
Hadoop技術(shù)在多年的應用過程中,被證明是一種可靠的大數(shù)據(jù)處理技術(shù)。這種技術(shù)不但可以有效地提高數(shù)據(jù)的處理速度,同時還能與其他系統(tǒng)進行無縫對接,提高信息數(shù)據(jù)的處理能力,滿足系統(tǒng)運算和數(shù)據(jù)處理需要。因此,較高的可靠性保證了Hadoop能夠得到有效應用。
1.4 高效
Hadoop技術(shù)的突出優(yōu)點是數(shù)據(jù)處理速度較快。其不但可以在較短的時間內(nèi)加快數(shù)據(jù)處理速度,同時也會根據(jù)系統(tǒng)的現(xiàn)實需求制定個性化的數(shù)據(jù)處理模式,提高系統(tǒng)的響應速度,保證數(shù)據(jù)處理速度能夠達到預期目標,提高數(shù)據(jù)處理的整體效果。
2 Hadoop的體系架構(gòu)
從Hadoop技術(shù)的應用來看,通常Hadoop的體系架構(gòu)比較特殊,除了要設定功能模塊之外,還要使模塊具備一定的接入特性。
具體的功能模塊特點如下。
Pig是一個基于Hadoop的大規(guī)模數(shù)據(jù)分析平臺,Pig為復雜的海量數(shù)據(jù)并行計算提供了一個簡易的操作和編程接口。
Chukwa是基于Hadoop的集群監(jiān)控系統(tǒng)。
Hive是基于Hadoop的一個工具,提供完整的sql查詢功能,可以將sql語句轉(zhuǎn)換為MapRedce任務進行運行。
ZooKeeper是高效的、可擴展的協(xié)調(diào)系統(tǒng),存儲和協(xié)調(diào)關(guān)鍵共享狀態(tài)。
HBase是一個分布式文件系統(tǒng),有著高容錯性的特點。
MapRedce是一種編程模型,用于大規(guī)模數(shù)據(jù)集的并行運算。
基于對Hadoop的了解,Hadoop在體系架構(gòu)中用到了多種輔助工具和子系統(tǒng),在整體體系結(jié)構(gòu)上并不復雜,實現(xiàn)難度較低,具備了與其他系統(tǒng)有效集成的優(yōu)點。在功能系統(tǒng)構(gòu)建過程中,基本能夠滿足實際需求,對降低系統(tǒng)構(gòu)建難度具有重要作用。
同時,Hadoop在體系架構(gòu)中采取了分層架構(gòu)的方式,這種模式不但具有一定的突出性,同時還能夠解決功能系統(tǒng)構(gòu)建過程中存在的系統(tǒng)接入問題。對降低功能系統(tǒng)的接入難度和提高功能系統(tǒng)的接入效果具有重要作用。因此,利用Hadoop構(gòu)建大數(shù)據(jù)分析系統(tǒng)是重要措施。
除此之外,Hadoop具備了與其他系統(tǒng)對接的優(yōu)勢,可以在系統(tǒng)構(gòu)建過程中,根據(jù)系統(tǒng)的實際特點和功能需要,構(gòu)建相對應的大數(shù)據(jù)處理系統(tǒng),提高系統(tǒng)的數(shù)據(jù)處理能力,保證系統(tǒng)在數(shù)據(jù)處理過程中,能夠在整體有效性上得到全面提升。
3 基于Hadoop的市政設施監(jiān)控系統(tǒng)的構(gòu)建
基于Hadoop的特點以及市政設施監(jiān)控系統(tǒng)的構(gòu)建需要,利用Hadoop構(gòu)建市政設施監(jiān)控系統(tǒng),應當做好系統(tǒng)的總體設計和功能設定。
在市政設施監(jiān)控系統(tǒng)構(gòu)建過程中,基于Hadoop的特點和優(yōu)勢,應當采取典型的系統(tǒng)架構(gòu)模式進行系統(tǒng)構(gòu)建,并根據(jù)Hadoop的系統(tǒng)架構(gòu)需要對系統(tǒng)結(jié)構(gòu)M行調(diào)整,使市政設施監(jiān)控系統(tǒng)在科學性和合理性上滿足實際需要,提高系統(tǒng)的構(gòu)建質(zhì)量。
考慮到市政設施監(jiān)控系統(tǒng)的數(shù)據(jù)處理量較大的特點,在應用Hadoop技術(shù)之后,應當根據(jù)Hadoop的算法對市政設施監(jiān)控系統(tǒng)的數(shù)據(jù)進行有效處理,保證市政設施監(jiān)控系統(tǒng)在數(shù)據(jù)處理速度上能夠達到預期目標,提高數(shù)據(jù)處理質(zhì)量。
在此基礎(chǔ)上,應發(fā)揮Hadoop大數(shù)據(jù)處理技術(shù)的優(yōu)勢,根據(jù)市政設施監(jiān)控的實際特點,設置數(shù)據(jù)處理功能目標,指導Hadoop大數(shù)據(jù)處理技術(shù)的應用,保證Hadoop大數(shù)據(jù)處理技術(shù)在應用過程中能夠提高數(shù)據(jù)處理效果。因此,在具體的系統(tǒng)構(gòu)建中,應突出數(shù)據(jù)處理速度目標。
在市政設施監(jiān)控系統(tǒng)中,該系統(tǒng)利用先進的視頻監(jiān)控、智能識別和信息技術(shù)手段,增加可管理空間、時間和范圍,不斷提升管理廣度、深度和精細度。整個系統(tǒng)由信息綜合應用平臺、信號控制系統(tǒng)、視頻監(jiān)控系統(tǒng)、智能卡口系統(tǒng)、電子警察系統(tǒng)、信息采集系統(tǒng)、信息系統(tǒng)等組成。
最后,在系統(tǒng)構(gòu)建完成之后,應對Hadoop大數(shù)據(jù)技術(shù)構(gòu)建的監(jiān)控系統(tǒng)與其他監(jiān)控系統(tǒng)相對比,重點比對數(shù)據(jù)處理速度和數(shù)據(jù)處理量,總結(jié)Hadoop技術(shù)的優(yōu)勢,為市政監(jiān)控系統(tǒng)的構(gòu)建提供良好的系統(tǒng)支持和技術(shù)支持。
4 結(jié)語
通過該文的分析可知,在市政設施監(jiān)控系統(tǒng)構(gòu)建過程中,有效地應用Hadoop技術(shù),不但可以構(gòu)建完善的大數(shù)據(jù)處理中心,同時還能解決市政設施監(jiān)控系統(tǒng)中存在的數(shù)據(jù)處理速度慢和數(shù)據(jù)處理量大的問題。因此,應對Hadoop技術(shù)有正確的認識,做到正確分析Hadoop的優(yōu)勢和特點,并在市政設施監(jiān)控系統(tǒng)的構(gòu)建中有效應用Hadoop技術(shù),提高市政設施監(jiān)控系統(tǒng)的構(gòu)建效果,滿足市政設施監(jiān)控系統(tǒng)的構(gòu)建需要。
參考文獻
[1] 廉捷,周欣,曹偉,等.新浪微博數(shù)據(jù)挖掘方案[J].清華大學學報:自然科學版,2011(10):1300-1305.
[2] 何忠育.分布式社會網(wǎng)絡分析支撐系統(tǒng)研究與應用[D].廣東工業(yè)大學,2011.
【關(guān)鍵詞】 區(qū)域 健康數(shù)據(jù) 檢測 報警
一、引言
近年來,隨著信息技術(shù)的高速發(fā)展,信息化醫(yī)療服務的模式成為研究熱點,人們利用網(wǎng)絡資源獲得醫(yī)療服務及醫(yī)療資訊,不用去醫(yī)院與醫(yī)生面對面會診也可以達到看病就診的目的,極大地提高了醫(yī)療衛(wèi)生資源的利用率。目前,已有部分國家將D信息化醫(yī)療服務投入使用中,并獲得了良好的效果,全世界使用信息化醫(yī)療服務的人也越來越多[1-2]。隨著互聯(lián)網(wǎng)的普及,尤其是無線網(wǎng)絡和 4G 技術(shù)的發(fā)展,以及各種計算機軟、硬件技術(shù)的日趨完善,信息化醫(yī)療服務將得到廣泛的應用,成為 21 世紀最有前景的產(chǎn)業(yè)之一。
二、需求與可行性分析
我國老齡化現(xiàn)象愈發(fā)嚴重。老年人由于機體功能下降,容易引發(fā)各種慢性或突發(fā)性疾病。針對我國國情,有限的衛(wèi)生資源仍然集中在疾病的治療上。對于老人而言,存在著行動難、無陪護、看病難等諸多客觀問題,任何的醫(yī)療養(yǎng)老機構(gòu)、人員無法長時間做到24小時對所有的老人進行實時監(jiān)護并給出相應的健康指導意見。為了解決上述問題,面向老人的健康監(jiān)護系統(tǒng)的研究目標為:被監(jiān)測者在社區(qū)的無線網(wǎng)絡覆蓋范圍之中,可實時監(jiān)測老人健康數(shù)據(jù)并將數(shù)據(jù)傳輸?shù)娇刂浦行摹?/p>
檢測數(shù)據(jù)正常則存儲備案,以備日后作統(tǒng)計分析、預防;當老人突發(fā)狀況,系統(tǒng)采集數(shù)據(jù)異常,區(qū)域控制中心顯示數(shù)據(jù)、發(fā)生地理位置并警報響起,提示醫(yī)護人員在第一時間做出反應,避免錯過最佳處理、救治時機;同時控制中心系統(tǒng)自動向突發(fā)狀況老人的第一聯(lián)系人手機推送消息,報告相關(guān)情況。系統(tǒng)的研發(fā)力促達到24小時不間斷的數(shù)據(jù)采集和檢測系統(tǒng),形成個人―家庭―社區(qū)的初級醫(yī)療服務供給體系,真正做到以預防為主、防治結(jié)合。
研發(fā)過程中所使用的單片機,傳感器等設備材料價格低廉耗、費資金較少、仿照中國科學院實施“海云工程”,并推出低成本的健康服務[3],保證產(chǎn)品市場化利潤空間。實施過程中,擬解決軟件與硬件問題,所采用的java+sevlet開發(fā)技術(shù)、嵌入式開發(fā)技術(shù)以及移動app開發(fā)技術(shù)均為成熟技術(shù),在技術(shù)上,不存在瓶頸。調(diào)研充分前提下研究方案完全可行。
三、系統(tǒng)的分析與設計
3.1系統(tǒng)模塊結(jié)構(gòu)
根據(jù)需求,進行分析設計,劃分模塊如圖1所示[4]。
3.2系統(tǒng)網(wǎng)絡結(jié)構(gòu)設計
根據(jù)系統(tǒng)需求、技術(shù)可行性以及現(xiàn)實情況,設計網(wǎng)絡拓撲結(jié)構(gòu)如圖2所示。
3.3主要功能
(1)終端檢測模塊。由醫(yī)學領(lǐng)域?qū)<抑贫ㄉw征數(shù)據(jù)標準,開發(fā)監(jiān)測心率、血氧、體溫等模塊。對設備佩戴者進行實時監(jiān)測并將檢測數(shù)據(jù)通過網(wǎng)絡傳送到數(shù)據(jù)分析處理中心。
(2)數(shù)據(jù)分析處理模塊。接收終端數(shù)據(jù)進行分析處理;如果數(shù)據(jù)一切再醫(yī)學領(lǐng)域?qū)<以O定的標準范圍之內(nèi)則正常存儲以備分析預防,如果處在異常狀態(tài)下則根據(jù)設定數(shù)據(jù)匹配危險系數(shù)給出信號。
(3)數(shù)據(jù)推送模塊的功能為當數(shù)據(jù)分析處理模塊信號為高危時啟動數(shù)據(jù)推送功能,將高危人當前生理狀態(tài)通過消息或短信的方式傳送給其第一負責人。
(4)報警模塊的功能為當數(shù)據(jù)分析處理模塊信號為非正常狀態(tài)時給予響鈴等報警提示。醫(yī)護人員根據(jù)報警的具體類型采取相信行動、避免錯過最佳的援助、救治的時間。
3.4系統(tǒng)目標
首先使得老人在固定區(qū)域內(nèi)可自由活動不影響實時監(jiān)測生命體征數(shù)據(jù)、理想誤差;其次,當數(shù)據(jù)發(fā)生異常報警時,上位機軟件顯示出當前一個時間段各項生命體征各項數(shù)據(jù),并指出報警地點,醫(yī)護人員可以根據(jù)現(xiàn)實異常數(shù)據(jù)大致判斷原因并第一時間趕往現(xiàn)場實施處理、救治,從根本上解決老人“無人管”或“管得晚”的問題,系統(tǒng)達到國內(nèi)先進水平。
四、總結(jié)
國內(nèi)外面向社區(qū)老人的健康監(jiān)護研究,局限在有線設備并將被監(jiān)測者束縛在很小局部范圍內(nèi),限制了實時性和使用便捷性,基于Zigbee無線傳感器網(wǎng)絡的健康監(jiān)護系統(tǒng)的研究具有研究方向和內(nèi)容的創(chuàng)新性。
參 考 文 獻
[1]饒克勤.我國醫(yī)療衛(wèi)生體制改革與政策思考[J].中國執(zhí)業(yè)藥師,2008,5(12):9-12
[2]劉林森.信息化時代的信息化醫(yī)療服務[J].上海信息化,2010,(01):84-87
關(guān)鍵詞:成績數(shù)據(jù)倉庫;OLAP;多維數(shù)據(jù)集;數(shù)據(jù)透視表;數(shù)據(jù)透視圖
中圖分類號:TP391文獻標識碼:A文章編號:1009-3044(2012)13-2944-05
The Design and Implementation of OLAP Data Warehouse of Student Score Analysis
HUANG Yu-da1,2,LI Xiang-qian2
(1.College of Computer Science and Technology,Southwest University of Science and Technology,Mianyang 621010,China;2. Information and Engineering Department,Zhoukou Vocational and Technical College, Zhoukou 466000, China)
Abstract: In response to the situation that a lot of student achievement data Stored in a transactional database are scattered, inconsistent, and independent,using Sql Server 2008 BI Business Intelligence platform and three-tier modeling approach to build an analysis-oriented student achievement data warehouse.The creating of multidimensional datasets,OLAP analysis ,and OLAP analysis results’showing by means of the pivottable and pivotchart of EXCEL 2007 front tool Provide strong support for Educational administrators in Decision analysis, the forecasting of teaching trend and the formulation of management measures.
Key words: score data warehouse; OLAP; multidimensional datasets; pivottable; pivotchart
目前,無論是與學生成績直接相關(guān)的教務管理系統(tǒng)還是與學生成績間接相關(guān)的學籍管理系統(tǒng)(存儲學生基本信息)和人事管理系統(tǒng)(存儲教師基本信息)等都已經(jīng)積累了大量數(shù)據(jù)。但對這些數(shù)據(jù)的使用平時基本上都限于一些單方面分析且難以被再次利用,不僅缺乏一些相應技術(shù)對它們加以綜合分析[1],而且這些系統(tǒng)由于相應業(yè)務不同導致相應的平臺、開發(fā)工具、數(shù)據(jù)庫系統(tǒng)等都不盡相同,可以說互相之間各自為政且缺乏科學、統(tǒng)一的協(xié)調(diào)和規(guī)劃。然而各院校為提高教學質(zhì)量,對大量教學決策信息的需求顯得更為迫切。另外,數(shù)據(jù)倉庫是從歷史和發(fā)展的角度來組織和存儲數(shù)據(jù)[2],是面向主題且為決策分析提供服務,而且學生成績數(shù)據(jù)也比較符合數(shù)據(jù)倉庫一些特征,如面向主題(成績分析)、相對穩(wěn)定(每學期一次考試)、隨時間變化(學年學期)等。因此將與學生成績相關(guān)的一些數(shù)據(jù)庫系統(tǒng)中大量歷史數(shù)據(jù)加以預
處理后載入數(shù)據(jù)倉庫,可充分利用其中的多維數(shù)據(jù)分析技術(shù)(如OLAP)及數(shù)據(jù)挖掘工具等對倉庫中數(shù)據(jù)加以智能化分析處理,從而更好地為教學管理者提供決策服務。
本文采用微軟公司的Microsoft Visual Studio 2008中的Sql Server Management Studio平臺來構(gòu)建學生成績倉庫,采用Microsoft Sql Server 2008中的Sql Server Business Intelligence Development Studio平臺工具來建立BI項目并實現(xiàn)多維數(shù)據(jù)集的創(chuàng)建、OLAP分析功能。
1成績數(shù)據(jù)倉庫的三層建模
本文采用通用的自頂向下、逐步細化的倉庫建模方式即三層建模,依次為:概念模型設計、邏輯模型設計、物理模型設計[3]。
1.1概念模型設計
概念模型設計是一種面向全局的、較高抽象層次上的設計,該階段主要任務是確定系統(tǒng)中主要主題域及其內(nèi)容[4]??紤]到學生成績特點及影響因素,該文把學生成績分析作為主題來建立成績數(shù)據(jù)倉庫,倉庫中包含學生學籍信息、課程信息、教師信息、班級信息、專業(yè)信息、系別信息、學年學期信息和學生成績信息共八個方面的數(shù)據(jù),將學生成績作為關(guān)鍵性能指標并將除學生成績信息以外的另外七個方面的信息作為維度數(shù)據(jù),所有數(shù)據(jù)都分別來自學生學籍管理系統(tǒng)、教務管理系統(tǒng)和人事管理系統(tǒng)。
1.2邏輯模型設計
由于本文需建立的成績倉庫的維度數(shù)并不是太多而且數(shù)據(jù)量并非很大即不會占用較多存儲空間,所以針對關(guān)系模式的定義以及較高查詢效率的需求,這里決定采用星型邏輯模型,如圖1所示。
圖1成績數(shù)據(jù)倉庫星型邏輯模型
1.3物理模型設計
目前由于大部分數(shù)據(jù)倉庫都是基于關(guān)系型數(shù)據(jù)庫而且數(shù)據(jù)的最終管理及存放都是由相應數(shù)據(jù)庫系統(tǒng)來處理的,所以這里的物理模型設計就主要考慮關(guān)于物理數(shù)據(jù)庫的一些模型設計,如數(shù)據(jù)的索引、存儲及其結(jié)構(gòu)等[5]。
本文設計的數(shù)據(jù)倉庫的核心數(shù)據(jù)庫是微軟的SQL SERVER 2008企業(yè)版關(guān)系型數(shù)據(jù)庫管理系統(tǒng)。對實體表的主外鍵均建立索引以提高響應速度。
2數(shù)據(jù)ETL過程實現(xiàn)
本文采用筆者所在工作單位—周口職業(yè)技術(shù)學院幾年來的學生成績相關(guān)數(shù)據(jù)作為數(shù)據(jù)源??紤]到2007年以前尚未全面啟用教務管理系統(tǒng)、時間略顯倉促及數(shù)據(jù)收集和預處理需花費大量時間、精力,所以數(shù)據(jù)源范圍暫先定于信息工程系、機電系和財經(jīng)系三個系的07級、08級、09級學生成績數(shù)據(jù)。
2.1數(shù)據(jù)的抽取及清洗
在確定了成績倉庫中事實表及各個維度表的具體結(jié)果模型之后,就需要以這些結(jié)構(gòu)模型為重要參考依據(jù)分別從各自對應的業(yè)務型數(shù)據(jù)庫系統(tǒng)中進一步抽取相關(guān)數(shù)據(jù)并經(jīng)過預處理后再載入成績倉庫。
數(shù)據(jù)的清洗主要是對數(shù)據(jù)中的雜質(zhì)、噪聲、不一致、不規(guī)范、遺漏等情況加以處理。一般應視各自具體情況區(qū)別對待,不要一律刪除。比如對于某名學生,若有少量課程成績遺漏或出現(xiàn)0-100范圍外的個別噪聲數(shù)據(jù)則應考慮取平均成績替代;若遺漏課程成績門數(shù)較多(4門以上)或因?qū)W籍異動造成其數(shù)據(jù)無法有效參與比較,為保證分析的可靠性則應考慮刪除。另外對于一些關(guān)于教師、課程、班級、專業(yè)維度信息數(shù)據(jù)的缺失或出現(xiàn)不一致的情況則進一步核實后加以填充。如有重修或補考成績則均采用正考即首次成績。
2.2數(shù)據(jù)的轉(zhuǎn)換
對于考查課中的“優(yōu)”、“良”、“中”、“差”四個層次,為了便于統(tǒng)一分析,應向百分制轉(zhuǎn)換。這里對應關(guān)系為:“優(yōu)”-90、“良”-80、“中”-70、“差”-50。此外,對于源數(shù)據(jù)表中各屬性名、類型及長度都要統(tǒng)一設置并與成績倉庫中對應的維度表及事實表保持一致。
2.3數(shù)據(jù)的加載
上述各環(huán)節(jié)工作處理完畢后,接下來就是最后一步即數(shù)據(jù)的加載。首先在Sql Server 2008 Management Studio環(huán)境下建立一個名為“StudentMA”的數(shù)據(jù)庫,然后利用Sql Server中的數(shù)據(jù)導入功能將已整理好的8個數(shù)據(jù)表導入到新建的數(shù)據(jù)庫中,如圖2所示。在載入目標成績數(shù)據(jù)倉庫數(shù)據(jù)庫后,還需根據(jù)星型邏輯結(jié)構(gòu)和物理結(jié)構(gòu)的具體設計來設置好各表主/外鍵并為其建立相應索引。
3多維數(shù)據(jù)集的創(chuàng)建及OLAP技術(shù)的應用
3.1多維數(shù)據(jù)集的創(chuàng)建
進入Sql Server 2008 Business Intelligence Development Studio集成環(huán)境后,新建一個名為“學生成績多維分析”的Analysis Service即SSAS項目,然后使用“解決方案資源管理器”來分別創(chuàng)建項目的“數(shù)據(jù)源”、“數(shù)據(jù)源視圖”、“多維數(shù)據(jù)集”。其中“數(shù)據(jù)源”所對應的連接字符串代碼為:
Provider=SQLNCLI10.1;Data Source=SWUST-573110AE0;
圖2預處理后數(shù)據(jù)源導入SQL SERVER 2008
Integrated Security=SSPI;Initial Catalog=studentMA
另外,為了滿足決策分析的需要,還需要再通過添加“平均成績”計算成員來新增度量值,新建的“平均成績”計算變量(avg? Score)所對應的MDX語句為:
CREATE MEMBER CURRENTCUBE.[Measures].avgScore AS round([Measures].[Score]/[Measures].[Score計數(shù)],0), VISIBLE = 1;
創(chuàng)建后的多維數(shù)據(jù)集視圖如圖3所示。
圖3成功創(chuàng)建后的多維數(shù)據(jù)集
最后,對SSAS項目“學生成績多維分析”加以部署和處理操作,部署并處理成功的結(jié)果如圖4所示。
3.2多維分析及OLAP技術(shù)的應用實現(xiàn)
首先可利用SSAS自帶的“瀏覽器”功能進行多維分析和OLAP操作[6]。在“瀏覽器”界面中,可根據(jù)用戶的OLAP處理要求來對創(chuàng)建的CUBE加以自由組合其中的維度,只需將左側(cè)窗口界面中的目標對象如維度、維度成員、度量值成員等直接拖動到窗口右側(cè)的顯示區(qū)域相應位置后即可查看OLAP處理結(jié)果。如果要進行數(shù)據(jù)篩選則需要將篩選條件所涉及到的相應維度名或其成員值拖放到右側(cè)窗口上方的篩選字段指定區(qū)域。如圖5所示。
另外,由于Microsoft Excel 2007全面支持Sql Server2008的SSAS服務,目前其作為微軟前端展現(xiàn)工具中的一個重要組件已在商業(yè)智能方面得到了較為廣泛的應用[7]。Excel 2007中的數(shù)據(jù)透視表和數(shù)據(jù)透視圖可直接訪問SSAS項目中對應多維數(shù)據(jù)集,這樣就不必開發(fā)應用程序即可快速而靈活地生成各種圖表及報表。因此可利用該組件來進行多維分析并展現(xiàn)分析結(jié)果。
下面通過Excel 2007中的數(shù)據(jù)透視表來進行多維分析。可在透視表窗口任意組合一些度量值和維度,直接拖動到EXCEL表格模型的相應行列中即可自動生成所需表格數(shù)據(jù)。如果想以數(shù)據(jù)透視圖方式來展示數(shù)據(jù)則只需點擊工具欄中的柱狀小圖標即可立即生成對應的透視圖。在某些情況下,透視圖的顯示效果要比透視表會更加直觀,如圖6、7、8所示。
其中圖6為教師、課程、班級所有學年學期信息的匯總顯示,細節(jié)區(qū)域內(nèi)容為班級人數(shù)和平均分;圖7為信息工程系建筑設計技術(shù)專業(yè)在2009年第二學期教師、課程、班級及平均分信息匯總顯示;圖8為信息工程系道路橋梁工程技術(shù)專業(yè)在所有學年學期的教師、課程、班級及平均分信息匯總顯示。
圖4項目成功處理示意圖
圖5多維分析結(jié)果展示
圖6利用PivotTables功能在EXCEL前臺展示多維分析結(jié)果
圖7利用EXCEL前臺透視圖功能展示多維分析結(jié)果一
圖8利用EXCEL前臺透視圖功能展示多維分析結(jié)果二
4結(jié)束語
本文利用Sql Server 2008 Management Studio及Sql Server 2008 BI平臺成功構(gòu)建了學生成績數(shù)據(jù)倉庫并建立了數(shù)據(jù)集市,然后進行了OLAP即聯(lián)機分析處理,最后利用Microsoft Excel 2007前臺工具中的數(shù)據(jù)透視表及數(shù)據(jù)透視圖組件對OLAP分析結(jié)果進行了直觀展示,為管理者進行科學決策分析提供了重要決策依據(jù)。另外,增加數(shù)據(jù)倉庫中的成績數(shù)據(jù)量以及對成績倉庫中的數(shù)據(jù)進行深入挖掘分析將是筆者下一步主要研究內(nèi)容。
參考文獻:
[1]魏麗,王雁苓.高校學生成績分析數(shù)據(jù)倉庫的建立[J].吉林省教育學院學報,2010(6):42-43.
[2] Jiawei Han,Micheline Kamber.范明,等,譯.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機械工業(yè)出版社,2007.
[3]羅躍國.高校教務系統(tǒng)數(shù)據(jù)倉庫的建模及應用[J].長江大學學報:自然科學版,2009(3):235-237.
[4]王麗珍,周麗華.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘原理及應用[M].北京:科學出版社,2005.
[5]陳文偉.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘教程[M].北京:清華大學出版社,2006.
關(guān)鍵詞:海量數(shù)據(jù) NoSQL數(shù)據(jù)庫 高并發(fā)處理
中圖分類號:TP311 文獻標識碼:A 文章編號:1007-9416(2015)07-0000-00
1 引言
針對海量移動應用數(shù)據(jù)構(gòu)建一套可行的統(tǒng)計分析系統(tǒng),從基本的數(shù)據(jù)統(tǒng)計,到深入的數(shù)據(jù)分析、挖掘,可以為移動互聯(lián)網(wǎng)企業(yè)提供全方位的海量數(shù)據(jù)解決方案,幫助開發(fā)者更好的了解市場動向,了解用戶的使用習慣和需求,從而創(chuàng)造出更有價值的移動應用。
2 系統(tǒng)分析設計
本系統(tǒng)的用戶為移動應用開發(fā)者,系統(tǒng)的最終目的是為開發(fā)者們提供一個應用數(shù)據(jù)的統(tǒng)計分析平臺,為開發(fā)者提供實時的用戶統(tǒng)計數(shù)據(jù)和應用統(tǒng)計數(shù)據(jù),開發(fā)者可以利用這些有價值的數(shù)據(jù)對應用進行調(diào)整,從而更好地適應不斷變化的市場需求。系統(tǒng)主要完成應用趨勢分析,版本分析,渠道分析,用戶參與度分析和終端屬性統(tǒng)計五部分。應用趨勢分析提供對新增用戶、活躍用戶、留存用戶和應用啟動次數(shù)的統(tǒng)計分析功能,開發(fā)者從這些數(shù)據(jù)中了解當前應用的用戶情況,判斷出未來趨勢。版本分析提供對當前應用所有版本的統(tǒng)計分析,開發(fā)者可以從中了解目前市場上的版本分布情況,從而可以對版本的更新迭代做出調(diào)整。渠道分析提供對當前應用各市場下載量的統(tǒng)計分析數(shù)據(jù),開發(fā)者可以從中分析出各市場的推廣情況如何,從而有針對性的調(diào)整應用的推廣策略。
系統(tǒng)分為數(shù)據(jù)服務器、移動終端和WEB展示端三部分來完成,其整體的功能結(jié)構(gòu)圖如圖1所示。在實現(xiàn)的過程中充分考慮解決海量數(shù)據(jù)處理的問題。通過使用非關(guān)系數(shù)據(jù)庫NoSQL,Epoll技術(shù)及數(shù)據(jù)庫優(yōu)化技術(shù)解決高并發(fā)請求,有效地緩解了海量數(shù)據(jù)對整個系統(tǒng)的壓力。系統(tǒng)整體在Linux系統(tǒng)下完成開發(fā),綜合運用當前主流高效的開發(fā)工具和技術(shù)。
數(shù)據(jù)服務器部分是整個系統(tǒng)的核心部分。數(shù)據(jù)接收模塊負責從移動終端獲取用戶數(shù)據(jù)和應用數(shù)據(jù),數(shù)據(jù)緩存模塊用于緩存接收到的數(shù)據(jù),數(shù)據(jù)存儲模塊負責向數(shù)據(jù)庫從存儲基礎(chǔ)數(shù)據(jù),數(shù)據(jù)統(tǒng)計分析模塊負責對基礎(chǔ)用戶數(shù)據(jù)進行統(tǒng)計分析操作,處理后的數(shù)據(jù)用于網(wǎng)站端顯示。移動終端部分用于獲取數(shù)據(jù)。基于XML語言對Android界面進行設計,通過對系統(tǒng)函數(shù)和XML解析獲取用戶數(shù)據(jù)和應用數(shù)據(jù),后將數(shù)據(jù)通過TCP/IP協(xié)議發(fā)送給服務器端,若網(wǎng)絡不允許則將數(shù)據(jù)臨時緩存,等待下一次發(fā)送請求。網(wǎng)站展示端向開發(fā)者展示最終的統(tǒng)計分析數(shù)據(jù)。頁面設計模塊使用CSS對整體風格進行控制,繪圖模塊使用highcharts,使用php和javascript向highcharts填充數(shù)據(jù)。
3 系統(tǒng)總體設計與實現(xiàn)
本系統(tǒng)分為數(shù)據(jù)處理服務器,移動終端,WEB展示端三部分來完成。其中移動終端負責采集用戶數(shù)據(jù)和應用數(shù)據(jù),將采集到的數(shù)據(jù)通過網(wǎng)絡傳輸給數(shù)據(jù)處理服務器。數(shù)據(jù)處理服務器一遍負責存儲數(shù)據(jù),一遍對數(shù)據(jù)進行統(tǒng)計和分析。統(tǒng)計和分析的結(jié)果通過相應WEB端網(wǎng)站的請求反饋給開發(fā)者。整體的開發(fā)都在Linux系統(tǒng)下完成,移動終端部分使用Android平臺,使用Java語言進行開發(fā)。數(shù)據(jù)服務器使用Python進行開發(fā),數(shù)據(jù)接收部分使用Linux下GCC庫,使用C++編寫,數(shù)據(jù)庫使用MongoDB。WEB展示端使用PHP語言進行開發(fā),整體風格使用Bootstrap框架。同時使用Git作為版本控制工具,用GitHub作為版本容器,方便團隊協(xié)作和代碼更迭。
3.1 數(shù)據(jù)處理服務器架構(gòu)
數(shù)據(jù)處理服務器需要實現(xiàn)數(shù)據(jù)接收、數(shù)據(jù)緩存、數(shù)據(jù)存儲和數(shù)據(jù)處理四部分功能。
數(shù)據(jù)處理服務器負責接收移動終端發(fā)送過來的用戶數(shù)據(jù),通過高并發(fā)處理手段緩存到本地。數(shù)據(jù)庫處理程序負責從緩存文件中讀取數(shù)據(jù)插入到數(shù)據(jù)庫中。數(shù)據(jù)庫處理程序同時需要對基礎(chǔ)數(shù)據(jù)進行統(tǒng)計和分析處理,存儲到相應集合空間去。數(shù)據(jù)接收部分需要解決高并發(fā)請求。移動終端與服務器之間的通信使用TCP/IP協(xié)議,使用非阻塞的Socket連接來輪詢用戶請求。整體的底層架構(gòu)使用Epoll庫,能夠很好的支持萬級別的并發(fā)量。數(shù)據(jù)緩存部分使用文件直接緩存。為了避免文件同時讀寫的鎖定問題,文件緩存按照一定的時間間隔寫入不同的文件中去。使用腳本文件拷貝寫入完成的數(shù)據(jù)文件到另外的文件夾用于向數(shù)據(jù)庫中寫入,寫入完成之后再將文件刪除。腳本使用python語言編寫。數(shù)據(jù)寫入部分也使用python進行編寫,數(shù)據(jù)采用非關(guān)系數(shù)據(jù)庫MongoDB。非關(guān)系數(shù)據(jù)庫在解決海量數(shù)據(jù)處理的問題上有著獨有的優(yōu)勢,降低了程序與代碼的耦合度,同時還保證了數(shù)據(jù)存儲的可靠性。使用python處理數(shù)據(jù)寫入時需要用到MongoDB的python語言驅(qū)動,一般用pymongo即可。數(shù)據(jù)處理部分也使用python編寫。程序從MongoDB中讀取完數(shù)據(jù)之后,按照業(yè)務邏輯的要求對數(shù)據(jù)經(jīng)行統(tǒng)計和分析。比如統(tǒng)計出某一應用一天的啟動次數(shù)。將這些統(tǒng)計數(shù)據(jù)存入到新的集合中去,留作網(wǎng)站展示端進行檢索。這樣可以大大減少網(wǎng)站端實時搜索對數(shù)據(jù)服務器造成的壓力。
3.2 移動終端架構(gòu)
移動終端分為數(shù)據(jù)獲取、數(shù)據(jù)緩存、數(shù)據(jù)傳輸和界面設計四部分。移動終端整體架構(gòu)使用MVC設計模式。前端界面設計使用XML進行配置,控制層將獲取到的數(shù)據(jù)一部分送至前端顯示,一部分送至數(shù)據(jù)服務器進行存儲。數(shù)據(jù)緩存使用SQLite保存未能發(fā)送至服務器的用戶數(shù)據(jù)。數(shù)據(jù)獲取指獲取用戶設備參數(shù)和用戶應用數(shù)據(jù),設備參數(shù)包括設備的型號、分辨率、入網(wǎng)方式、內(nèi)容服務商、系統(tǒng)版本號等,用戶應用數(shù)據(jù)包括應用的包名、版本號、啟動時間、使用時長、渠道信息、頁面訪問路徑等。數(shù)據(jù)緩存部分主要為了保證數(shù)據(jù)的完整性,因為用戶的設備并不能時刻保持網(wǎng)絡接入。當用戶處于離線狀態(tài)時,使用SQLite保存用戶信息。當用戶再次啟動時檢測是否有網(wǎng)絡接入,當發(fā)現(xiàn)網(wǎng)絡接入時將上一次的數(shù)據(jù)發(fā)送出去,同時清空SQLite數(shù)據(jù)庫。數(shù)據(jù)傳輸使用TCP/IP協(xié)議向數(shù)據(jù)庫服務器發(fā)送數(shù)據(jù)包。因為數(shù)據(jù)庫采用NoSQL數(shù)據(jù)庫,NoSQL數(shù)據(jù)庫的存儲格式為BSON(BSON是對JSON格式的二進制化),因此在數(shù)據(jù)發(fā)送之前需要將數(shù)據(jù)序列化為JSON格式。數(shù)據(jù)發(fā)送時需檢測數(shù)據(jù)是否正常發(fā)送,如果沒有正常發(fā)送則進行重發(fā)操作。界面設計采用Android標準開發(fā)模式,使用XML文件配置界面。頂部使用Google官方庫ActionBar,中間部分為ListView組件,ListView的每個Item都為一個數(shù)據(jù),表示移動終端獲取到的某個變量。
3.3 網(wǎng)站展示端
網(wǎng)站展示端包括前端設計、數(shù)據(jù)處理和數(shù)據(jù)報表三部分。
前端設計以美觀大方為目標,使用twitter前端開源框架Bootstrap。Bootstrap提供了優(yōu)雅的HTML和CSS書寫規(guī)范,它由Less寫成,Less是一種優(yōu)美的動態(tài)CSS語言。使用Ajax、jQuery、Javascript等前端技術(shù),融入最新的HTML5、CSS3結(jié)構(gòu)設計,優(yōu)化UI的整體表現(xiàn)。數(shù)據(jù)處理使用PHP和 javascript。使用PHP語言的MongoDB驅(qū)動連接數(shù)據(jù)庫,獲取數(shù)據(jù)庫中相應的數(shù)據(jù),格式化成json數(shù)據(jù)之后再送給前端的javascript層。Javascript與前臺界面經(jīng)行交互,控制前臺界面的展示效果。數(shù)據(jù)報表部分是整個網(wǎng)站展示端的核心,主要用戶想用戶展示各種類型的統(tǒng)計分析數(shù)據(jù)。包括柱狀圖、折線圖、餅圖等。圖形的繪制使用開源項目Highcharts。Highcharts是一個使用純javascript編寫的圖標庫,可以便捷的在WEB網(wǎng)站顯示交互性的圖表。
參考文獻
[1] 譚磊.New Internet:大數(shù)據(jù)挖掘[M].北京:電子工業(yè)出版社,2013(2):13.
[2] 艾榮榮.基于電信統(tǒng)計分析平臺的關(guān)鍵性指標分析系統(tǒng)設計與實現(xiàn)[D].西安:西安電子科技大學,2010.2-4.