前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的統(tǒng)計(jì)數(shù)據(jù)分析主題范文,僅供參考,歡迎閱讀并收藏。
伴隨著課程改革的實(shí)施,如何提升實(shí)際教學(xué)效果和學(xué)生的學(xué)科素養(yǎng)、優(yōu)化教育流程、有效的傳授知識(shí)內(nèi)容、合理的訓(xùn)練學(xué)科能力、恰當(dāng)?shù)膫魇谒枷敕椒ǔ蔀榱艘粋€(gè)重要的課題?!敖獭迸c“學(xué)”之間的相輔相成,對(duì)實(shí)際學(xué)情的理解和分析,因材施教,適時(shí)調(diào)整策略并進(jìn)行針對(duì)性教學(xué),是實(shí)現(xiàn)學(xué)科知識(shí)、學(xué)科能力和學(xué)科方法目標(biāo)的必經(jīng)之途。把握教育教學(xué)的有效性與長(zhǎng)效性,促進(jìn)學(xué)生的多元化發(fā)展、培養(yǎng)創(chuàng)新意識(shí),塑造高素質(zhì)人才則是教育教學(xué)的必然之由。
關(guān)鍵詞:計(jì)量數(shù)據(jù) 歷史知識(shí)結(jié)構(gòu) 歷史學(xué)科能力 歷史學(xué)科素養(yǎng) 教學(xué)策略
中圖分類號(hào):G630
引言:
對(duì)于高三教育教學(xué)和備考復(fù)習(xí)而言,如何有效的講授知識(shí)內(nèi)容結(jié)構(gòu)、如何合理的訓(xùn)練學(xué)科能力、如何恰當(dāng)?shù)膫魇谒枷敕椒?、如何培養(yǎng)和提升學(xué)科素養(yǎng)是一個(gè)多解的命題。要實(shí)現(xiàn)這四個(gè)角度的教學(xué)目標(biāo),切實(shí)培養(yǎng)學(xué)生的學(xué)科素質(zhì),促進(jìn)學(xué)生的多元化和全面性發(fā)展,優(yōu)化教育效果,提升教學(xué)的有效性,那么實(shí)事求是的理解學(xué)情、科學(xué)規(guī)范的訓(xùn)練、及時(shí)調(diào)整教師“教”與學(xué)生“學(xué)”之間的差距,是一個(gè)不得不面對(duì)的技術(shù)問(wèn)題。
在下文中,筆者不揣淺陋,擬就如何有效利用計(jì)量統(tǒng)計(jì)數(shù)據(jù)分析學(xué)情和調(diào)整教學(xué)策略的話題略呈管見(jiàn),希冀能拋磚引玉,敬請(qǐng)方家指正。
維度一:科學(xué)規(guī)范的命制試題
沒(méi)有教育科學(xué)就沒(méi)有科學(xué)的教育,沒(méi)有規(guī)范的學(xué)科訓(xùn)練就沒(méi)有規(guī)范的學(xué)科思維。規(guī)范的訓(xùn)練可以通過(guò)多種途徑來(lái)實(shí)現(xiàn),比如課堂教學(xué)、研究型學(xué)習(xí)、史料研讀及遺址考察等,但是最簡(jiǎn)單而且教學(xué)中使用最多的還是試題測(cè)試??茖W(xué)的試題、科學(xué)的測(cè)試、科學(xué)的訓(xùn)練對(duì)學(xué)生的歷史學(xué)科能力訓(xùn)練和歷史學(xué)科規(guī)范及學(xué)科素養(yǎng)的提高是非常有幫助的。
命制科學(xué)規(guī)范的試題可以建構(gòu)一個(gè)計(jì)量統(tǒng)計(jì)的模型,以分析學(xué)情和調(diào)整教學(xué)策略,能更好的實(shí)現(xiàn)教學(xué)目標(biāo)。
如何才能命制一套較為科學(xué)和規(guī)范的試題?這不僅需要了解測(cè)量技術(shù)的相關(guān)問(wèn)題,還需較為深厚的歷史學(xué)科專業(yè)知識(shí),除此之外,教育經(jīng)驗(yàn)和教材的熟悉度也是很重要的一個(gè)因素。
一般來(lái)講,一套試題從結(jié)構(gòu)上需要體現(xiàn)以下幾個(gè)考察的方向:學(xué)科基本知識(shí)、學(xué)科基本能力、學(xué)科素養(yǎng)的體現(xiàn)。而學(xué)科方法則是溝通上述三個(gè)角度的橋梁。
從歷史學(xué)科基本知識(shí)角度講:內(nèi)容應(yīng)該包含高考考察的七個(gè)結(jié)構(gòu)模塊,即古代中國(guó)、近代中國(guó)、現(xiàn)代中國(guó)、古希臘羅馬、近代世界、現(xiàn)代世界及選修模塊。從歷史學(xué)科能力角度講:文科綜合能力“考試大綱”將歷史學(xué)科的高考考核目標(biāo)表述為獲取和解讀信息、調(diào)動(dòng)和運(yùn)用知識(shí)、描述和闡釋事物、論證和探討問(wèn)題四個(gè)能力要求①。具體來(lái)講包括再認(rèn)再現(xiàn)歷史知識(shí)、重構(gòu)歷史時(shí)序、獲取有效歷史信息、理解分析歷史事物、運(yùn)用歷史方法論證、評(píng)價(jià)歷史問(wèn)題。歷史學(xué)科素養(yǎng)則是如何應(yīng)運(yùn)歷史知識(shí)發(fā)現(xiàn)新問(wèn)題、研究新問(wèn)題、解決新問(wèn)題的靈活體現(xiàn),是創(chuàng)新意識(shí)培養(yǎng)的必然內(nèi)核。培養(yǎng)素養(yǎng)“要關(guān)注知識(shí)的消化,關(guān)注它是不是發(fā)生了有益于吸收、轉(zhuǎn)化為有益于生命的酶化”。②“把死知識(shí)變活,把活知識(shí)變靈”③是知識(shí)酶化的主要目的。
規(guī)范的命制試題后,設(shè)計(jì)測(cè)試的雙向細(xì)目表,建立一個(gè)完整的測(cè)評(píng)模型后便可指導(dǎo)解決實(shí)際教學(xué)中有效利用計(jì)量統(tǒng)計(jì)數(shù)據(jù)分析學(xué)情和調(diào)整教策略的問(wèn)題了。
下文,筆者擬就操作中的實(shí)例來(lái)講述具體過(guò)程,以期拋磚引玉。在模型樣本選取上,將本年級(jí)文科班分成程度好和程度一般兩類。以較好的為參照系,在程度一般的學(xué)生中進(jìn)行測(cè)評(píng)和策略檢驗(yàn),找出規(guī)律并進(jìn)行驗(yàn)證。
維度二:利用分?jǐn)?shù)段分布的統(tǒng)計(jì)數(shù)據(jù)分析學(xué)情以調(diào)整策略
下圖為分?jǐn)?shù)段數(shù)據(jù),來(lái)源于分組中程度一般的學(xué)生。測(cè)試后將數(shù)據(jù)做出統(tǒng)計(jì),結(jié)合數(shù)據(jù)分析學(xué)情,調(diào)整策略,矯正教學(xué)。
分?jǐn)?shù)段分布數(shù)據(jù)可知如下學(xué)情:分?jǐn)?shù)段的分布百分比可確定學(xué)生的層次、明晰學(xué)生是屬于基本史實(shí)掌握不牢固的“知識(shí)型不足”,還是史學(xué)能力不到位的“技能型不足”;確定教學(xué)中重能力還是抓基礎(chǔ)的后續(xù)教學(xué)重心、調(diào)整教學(xué)內(nèi)容的難易度與深淺度。
上圖所示,中間分?jǐn)?shù)段的學(xué)生人數(shù)較多,反映出大多學(xué)生對(duì)于基礎(chǔ)知識(shí)和主干知識(shí)的記憶和理解比較好,可繼續(xù)加強(qiáng)和保持效果,確保不出現(xiàn)知識(shí)型問(wèn)題。但非主干知識(shí)掌握不牢,如:課本小字部分(即自學(xué)內(nèi)容)、非重點(diǎn)內(nèi)容。
高分段人數(shù)較少,反映出技能型不足的問(wèn)題。表現(xiàn)為運(yùn)用歷史方法論證、評(píng)價(jià)歷史問(wèn)題能力不足和邏輯思辨能力、史學(xué)理論方面存在欠缺。通過(guò)試卷作答細(xì)化分析發(fā)現(xiàn)語(yǔ)言閱讀能力和理解能力不足及規(guī)范答題能力欠缺。
根據(jù)學(xué)生的情況和數(shù)據(jù)分析采取如下策略:為了能提高高分段人數(shù)比重,調(diào)整教學(xué)難度和深度,通過(guò)課本知識(shí)的延伸與拓展,擴(kuò)大學(xué)生的知識(shí)容量和理論儲(chǔ)備,關(guān)注史學(xué)研究的新成果,以專題講座的形式講解技能與方法,以提升學(xué)生表現(xiàn)出來(lái)的能力欠缺。指導(dǎo)和訓(xùn)練答題技巧,訓(xùn)練其在作答過(guò)程中語(yǔ)言簡(jiǎn)明、清晰、嚴(yán)密、要點(diǎn)化、序號(hào)化的能力。
在下階段訓(xùn)練跟蹤并在同一模型與難度下測(cè)試,如圖所示:
數(shù)據(jù)統(tǒng)計(jì)后,發(fā)現(xiàn)效果較明顯。中間分?jǐn)?shù)段的學(xué)生人數(shù)百分比穩(wěn)中有升,高分段人數(shù)明顯增多,運(yùn)用歷史方法論證、評(píng)價(jià)歷史問(wèn)題能力和邏輯思辨能力、史學(xué)理論方面存在欠缺等技能型不足的問(wèn)題得到修正。
維度三:利用能力結(jié)構(gòu)得分統(tǒng)計(jì)數(shù)據(jù)分析學(xué)情以調(diào)整策略
、針對(duì)此問(wèn)題調(diào)整策略,借鑒語(yǔ)文方法,訓(xùn)練學(xué)生語(yǔ)言能力,如找準(zhǔn)關(guān)鍵詞、對(duì)有效信息的提煉和概括、歷史要素與關(guān)鍵詞的關(guān)系,題干限定語(yǔ)的查找等。訓(xùn)練學(xué)生的邏輯分析能力,提高學(xué)生對(duì)歷史名詞內(nèi)涵與外延的準(zhǔn)確理解度,強(qiáng)化學(xué)生的邏輯思考習(xí)慣,訓(xùn)練其推理、判斷、論證的能力。系統(tǒng)講授歷史學(xué)科方法與理論,如歷史唯物論、辯證法、現(xiàn)代化史觀、全球史觀、文明史觀、社會(huì)史觀、生態(tài)史觀;樹立學(xué)生結(jié)合時(shí)代特征分析歷史的思維、史論結(jié)合及生產(chǎn)力標(biāo)準(zhǔn)等論證和評(píng)價(jià)歷史的方法。對(duì)學(xué)生數(shù)據(jù)進(jìn)行統(tǒng)計(jì)與分析,進(jìn)行逐個(gè)訓(xùn)練與指導(dǎo)。
在下階段訓(xùn)練跟蹤并在同一模型與難度下測(cè)試,數(shù)據(jù)統(tǒng)計(jì)后,發(fā)現(xiàn)效果較明顯。如上圖所示,樣本學(xué)生中獲取有效歷史信息和運(yùn)用歷史方法論證、評(píng)價(jià)歷史問(wèn)題兩個(gè)方面的不足得到修正,進(jìn)步明顯。
維度四:利用知識(shí)結(jié)構(gòu)統(tǒng)計(jì)數(shù)據(jù)分析學(xué)情以調(diào)整策略
知識(shí)結(jié)構(gòu)的統(tǒng)計(jì)分析,可知道學(xué)生哪些知識(shí)掌握的不到位,以便及時(shí)查漏補(bǔ)缺。由于知識(shí)模塊范圍太大,在具體分析的時(shí)候可以結(jié)合雙向細(xì)目表及各小題得分率仔細(xì)分析,準(zhǔn)確找到薄弱環(huán)節(jié),再結(jié)合能力結(jié)構(gòu)統(tǒng)計(jì)數(shù)據(jù),分析是知識(shí)型問(wèn)題還是能力型問(wèn)題,以便更好的掌握學(xué)情。
上圖所示,樣本學(xué)生在“古代中國(guó)史”和“現(xiàn)代中國(guó)史”兩個(gè)方面存在不足。針對(duì)此問(wèn)題,查找薄弱環(huán)節(jié),詳盡分析,調(diào)整應(yīng)對(duì)策略,對(duì)相關(guān)知識(shí)進(jìn)行補(bǔ)充和加強(qiáng),如古代經(jīng)濟(jì),古代科技等。理清中國(guó)古代史的時(shí)代特點(diǎn)及線索和發(fā)展脈絡(luò),按通史時(shí)序梳理知識(shí)?,F(xiàn)代中國(guó)史教學(xué)中注重時(shí)政與歷史的關(guān)聯(lián),補(bǔ)充中國(guó)現(xiàn)代史中文化、教育、科技等相關(guān)內(nèi)容。利用對(duì)世界史的知識(shí)優(yōu)勢(shì),將中國(guó)史與世界史交叉起來(lái),通過(guò)中外關(guān)聯(lián)與對(duì)比,來(lái)加深理解。對(duì)基礎(chǔ)知識(shí)進(jìn)行再?gòu)?qiáng)化,加深知識(shí)的理解程度與深刻性。
在下階段訓(xùn)練跟蹤并在同一模型與難度下測(cè)試,數(shù)據(jù)統(tǒng)計(jì)后,發(fā)現(xiàn)效果較明顯。如上圖所示,樣本學(xué)生中“古代中國(guó)史”和 “現(xiàn)代中國(guó)史”兩個(gè)方面的不足得到修正,進(jìn)步明顯,超過(guò)了參照系的學(xué)生。
五:結(jié)語(yǔ):
課程改革實(shí)施下如何提升教學(xué)效果和學(xué)生的學(xué)科素養(yǎng),優(yōu)化教育流程,有效傳授知識(shí)、合理訓(xùn)練學(xué)科能力、恰當(dāng)傳授思想方法,培養(yǎng)學(xué)生的學(xué)科規(guī)范和學(xué)科素養(yǎng)、傳授技巧和思維方法、挖掘和熟練教材、夯實(shí)主干知識(shí)的根基、關(guān)注史學(xué)研究動(dòng)態(tài)、滲透史學(xué)研究的理論和方法、廣泛學(xué)習(xí)和借鑒、科學(xué)的訓(xùn)練、多元的思考、重視培養(yǎng)學(xué)生能力和史學(xué)素質(zhì)可能是一個(gè)必須面對(duì)的話題?!敖獭迸c“學(xué)”之間的相輔相成,對(duì)實(shí)際學(xué)情的理解和分析,因材施教,適時(shí)調(diào)整策略并進(jìn)行針對(duì)性教學(xué),是實(shí)現(xiàn)學(xué)科知識(shí)、學(xué)科能力和學(xué)科方法目標(biāo)的必經(jīng)之途。把握教育教學(xué)的有效性與長(zhǎng)效性,促進(jìn)學(xué)生的多元化發(fā)展、培養(yǎng)創(chuàng)新意識(shí),塑造高素質(zhì)人才則是教育教學(xué)的必然之由。
引注:
①《2013年文科?課程標(biāo)準(zhǔn)實(shí)驗(yàn)版?考試說(shuō)明(考試大綱)》
由于廣藥是當(dāng)初多家企業(yè)組成集團(tuán)公司,在各企業(yè)中都存在各自的系統(tǒng)。這就決定了它們產(chǎn)生的營(yíng)運(yùn)數(shù)據(jù)的不同。為了提高企業(yè)的整體管理水平、適應(yīng)社會(huì)能力和競(jìng)爭(zhēng)能力,高效快捷地進(jìn)行數(shù)據(jù)分析處理和預(yù)測(cè)建立一套用來(lái)“了解和掌握市場(chǎng)信息和企業(yè)內(nèi)部的變化情況和根據(jù)市場(chǎng)的變化迅速調(diào)整優(yōu)化企業(yè)的產(chǎn)品結(jié)構(gòu)和市場(chǎng)策略”的系統(tǒng)就非常重要。
系統(tǒng)目標(biāo)
幫助企業(yè)對(duì)內(nèi)部和外部的營(yíng)運(yùn)數(shù)據(jù)進(jìn)行收集、歸納、量化,并提供多種數(shù)據(jù)分析、數(shù)據(jù)挖掘工具,輔助企業(yè)管理者進(jìn)行科學(xué)分析預(yù)測(cè),提高企業(yè)的數(shù)量化管理水平、提高的市場(chǎng)競(jìng)爭(zhēng)力。主要功能有:關(guān)鍵指標(biāo)分析系統(tǒng)、財(cái)務(wù)分析系統(tǒng)、銷售分析系統(tǒng)、生產(chǎn)計(jì)劃和庫(kù)存分析系統(tǒng)、預(yù)測(cè)分析系統(tǒng)及多元統(tǒng)計(jì)分析系統(tǒng)。
體現(xiàn)價(jià)值
實(shí)現(xiàn)了關(guān)鍵性分析數(shù)據(jù)的集中存儲(chǔ)、管理和共享
廣藥以往用于關(guān)鍵性經(jīng)營(yíng)指標(biāo)分析的數(shù)據(jù)由于存放在不同平臺(tái)的業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫(kù)中,沒(méi)有統(tǒng)一的管理和規(guī)劃,幾乎沒(méi)有通用性和和兼容性,很難實(shí)現(xiàn)總部的管理利用,只能由人工進(jìn)行統(tǒng)計(jì)和計(jì)算,時(shí)間的延誤和計(jì)算的誤差無(wú)法避免,分析準(zhǔn)確性較差。在廣藥數(shù)據(jù)分析系統(tǒng)的實(shí)施與使用后,由系統(tǒng)自動(dòng)從不同的業(yè)務(wù)系統(tǒng)平臺(tái)定期收集所需相關(guān)數(shù)據(jù),存儲(chǔ)于數(shù)據(jù)庫(kù)中,實(shí)現(xiàn)了數(shù)據(jù)的集中存儲(chǔ)、管理和共享。
日常經(jīng)營(yíng)統(tǒng)計(jì)數(shù)據(jù)的靈活獲取
以往,要獲得不同分析角度不同側(cè)重點(diǎn)的可靠性指標(biāo)需要進(jìn)行大量重復(fù)工作,難度較大,很難做到及時(shí)準(zhǔn)確,同時(shí),分析角度稍有變化現(xiàn)有的數(shù)據(jù)可能就無(wú)法再次利用。在使用廣藥數(shù)據(jù)分析系統(tǒng)后,系統(tǒng)提供的多視角分析和數(shù)據(jù)挖掘功能使用戶多角度靈活分析其產(chǎn)品可靠性指標(biāo)的需求得到充分滿足。同時(shí),通過(guò)對(duì)分析角度之間任的意組合、對(duì)分析角度任意層次間的靈活鉆取和對(duì)分析結(jié)果的切片等操作,保證了靈活、高效地獲取所需的可靠性指標(biāo)信息。
使得管理者可以從復(fù)雜的觀察工作中抽身而出
以往是管理者想知道目前企業(yè)經(jīng)營(yíng)狀況,須叫有關(guān)人員統(tǒng)計(jì)大量報(bào)表,讓后管理者再?gòu)膱?bào)表中查找問(wèn)題。上了廣藥數(shù)據(jù)分析系統(tǒng)后,只要通過(guò)設(shè)定企業(yè)日常關(guān)注的一些重要指標(biāo)及這些指標(biāo)異常的參數(shù),每天本模塊會(huì)自動(dòng)檢查這些指標(biāo),發(fā)現(xiàn)問(wèn)題即時(shí)提示。這樣管理者每天只需打開(kāi)電腦,指標(biāo)告警模塊會(huì)提示目前企業(yè)共有有幾個(gè)異常,如果沒(méi)異常,管理者可騰出時(shí)間處理別的事情;如發(fā)現(xiàn)異常,告警模塊會(huì)指導(dǎo)管理者迅速找到問(wèn)題的所在。
對(duì)客戶進(jìn)行信用管理
以往對(duì)客戶僅是人為的管理,人的主觀因素較多,造成上一筆款還沒(méi)付就向他提供又一筆貨或向一個(gè)小客戶提供一大筆貨等等情況,而且有些客戶在集團(tuán)的一家企業(yè)中是長(zhǎng)期欠款,而在集團(tuán)的另一家企業(yè)中還能得到提貨。對(duì)于以上的情況,在使用廣藥數(shù)據(jù)分析系統(tǒng)后就再也沒(méi)有發(fā)生過(guò)。
用戶評(píng)價(jià)
廣藥集團(tuán)應(yīng)用廣藥數(shù)據(jù)分析系統(tǒng)后,應(yīng)收款周轉(zhuǎn)天數(shù)由70天下降到50天,對(duì)于提高企業(yè)的整體管理水平和科學(xué)決策水平起到了積極的作用。
關(guān)鍵詞:大數(shù)據(jù);統(tǒng)計(jì)學(xué);數(shù)據(jù)分析;抽樣理論;理論
重構(gòu)隨著信息科學(xué)技術(shù)的高速度發(fā)展,當(dāng)代獲取和儲(chǔ)存數(shù)據(jù)信息的能力不斷增強(qiáng)而成本不斷下降,這為大數(shù)據(jù)的應(yīng)用提供了必要的技術(shù)環(huán)境和可能.應(yīng)用大數(shù)據(jù)技術(shù)的優(yōu)勢(shì)愈來(lái)愈明顯,它的應(yīng)用能夠幫助人類獲取真正有價(jià)值的數(shù)據(jù)信息.近年來(lái),專家學(xué)者有關(guān)大數(shù)據(jù)技術(shù)問(wèn)題進(jìn)行了大量的研究工作[1],很多領(lǐng)域也都受到了大數(shù)據(jù)分析的影響.這個(gè)時(shí)代將大數(shù)據(jù)稱為未來(lái)的石油,它必將對(duì)這個(gè)時(shí)代和未來(lái)的社會(huì)經(jīng)濟(jì)以及科學(xué)技術(shù)的發(fā)展產(chǎn)生深遠(yuǎn)的意義和影響.目前對(duì)于大數(shù)據(jù)概念,主要是從數(shù)據(jù)來(lái)源和數(shù)據(jù)的處理工具與處理難度方面考慮,但國(guó)內(nèi)外專家學(xué)者各有各的觀點(diǎn),并沒(méi)有給出一致的精確定義.麥肯錫全球數(shù)據(jù)分析研究所指出大數(shù)據(jù)是數(shù)據(jù)集的大小超越了典型數(shù)據(jù)庫(kù)工具集合、存儲(chǔ)、管理和分析能力的數(shù)據(jù)集,大數(shù)據(jù)被Gartner定義為極端信息管理和處理一個(gè)或多個(gè)維度的傳統(tǒng)信息技術(shù)問(wèn)題[23].目前得到專家們認(rèn)可的一種觀點(diǎn),即:“超大規(guī)?!笔荊B級(jí)數(shù)據(jù),“海量”是TB級(jí)數(shù)據(jù),而“大數(shù)據(jù)”是PB及其以上級(jí)別數(shù)據(jù)[2].
一些研究學(xué)者把大數(shù)據(jù)特征進(jìn)行概括,稱其具有數(shù)據(jù)規(guī)模巨大、類型多樣、可利用價(jià)值密度低和處理速度快等特征,同時(shí)特別強(qiáng)調(diào)大數(shù)據(jù)區(qū)別于其他概念的最重要特征是快速動(dòng)態(tài)變化的數(shù)據(jù)和形成流式數(shù)據(jù).大數(shù)據(jù)技術(shù)發(fā)展所面臨的問(wèn)題是數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)處理和數(shù)據(jù)分析、數(shù)據(jù)顯示和數(shù)據(jù)安全等.大數(shù)據(jù)的數(shù)據(jù)量大、多樣性、復(fù)雜性及實(shí)時(shí)性等特點(diǎn),使得數(shù)據(jù)存儲(chǔ)環(huán)境有了很大變化[45],而大部分傳統(tǒng)的統(tǒng)計(jì)方法只適合分析單個(gè)計(jì)算機(jī)存儲(chǔ)的數(shù)據(jù),這些問(wèn)題無(wú)疑增加了數(shù)據(jù)處理和整合的困難.數(shù)據(jù)分析是大數(shù)據(jù)處理的核心過(guò)程,同時(shí)它也給傳統(tǒng)統(tǒng)計(jì)學(xué)帶來(lái)了巨大的挑戰(zhàn)[6].產(chǎn)生大數(shù)據(jù)的數(shù)據(jù)源通常情況下具有高速度性和實(shí)時(shí)性,所以要求數(shù)據(jù)處理和分析系統(tǒng)也要有快速度和實(shí)時(shí)性特點(diǎn),而傳統(tǒng)統(tǒng)計(jì)分析方法通常不具備快速和實(shí)時(shí)等特點(diǎn).基于大數(shù)據(jù)的特點(diǎn),傳統(tǒng)的數(shù)據(jù)統(tǒng)計(jì)理論已經(jīng)不能適應(yīng)大數(shù)據(jù)分析與研究的范疇,傳統(tǒng)統(tǒng)計(jì)學(xué)面臨著巨大的機(jī)遇與挑戰(zhàn),然而為了適應(yīng)大數(shù)據(jù)這一新的研究對(duì)象,傳統(tǒng)統(tǒng)計(jì)學(xué)必須進(jìn)行改進(jìn),以繼續(xù)和更好的服務(wù)于人類.目前國(guó)內(nèi)外將大數(shù)據(jù)和統(tǒng)計(jì)學(xué)相結(jié)合的研究文獻(xiàn)并不多.本文對(duì)大數(shù)據(jù)時(shí)代這一特定環(huán)境背景,統(tǒng)計(jì)學(xué)的抽樣理論和總體理論的存在價(jià)值、統(tǒng)計(jì)方法的重構(gòu)及統(tǒng)計(jì)結(jié)果的評(píng)價(jià)標(biāo)準(zhǔn)的重建等問(wèn)題進(jìn)行分析與研究.
1傳統(tǒng)意義下的統(tǒng)計(jì)學(xué)
廣泛的統(tǒng)計(jì)學(xué)包括三個(gè)類型的統(tǒng)計(jì)方法:①處理大量隨機(jī)現(xiàn)象的統(tǒng)計(jì)方法,比如概率論與數(shù)理統(tǒng)計(jì)方法.②處理非隨機(jī)非概率的描述統(tǒng)計(jì)方法,如指數(shù)編制、社會(huì)調(diào)查等方法.③處理和特定學(xué)科相關(guān)聯(lián)的特殊方法,如經(jīng)濟(jì)統(tǒng)計(jì)方法、環(huán)境科學(xué)統(tǒng)計(jì)方法等[7].受收集、處理數(shù)據(jù)的工具和能力的限制,人們幾乎不可能收集到全部的數(shù)據(jù)信息,因此傳統(tǒng)的統(tǒng)計(jì)學(xué)理論和方法基本上都是在樣本上進(jìn)行的.或者即使能夠得到所有數(shù)據(jù),但從實(shí)際角度出發(fā),因所需成本過(guò)大,也會(huì)放棄搜集全部數(shù)據(jù).然而,選擇最佳的抽樣方法和統(tǒng)計(jì)分析方法,也只能最大程度還原總體一個(gè)特定方面或某些方面的特征.事實(shí)上我們所察覺(jué)到的數(shù)據(jù)特征也只是總體大量特征中的一小部分,更多的其他特征尚待發(fā)掘.總之,傳統(tǒng)統(tǒng)計(jì)學(xué)是建立在抽樣理論基礎(chǔ)上,以點(diǎn)帶面的統(tǒng)計(jì)分析方法,強(qiáng)調(diào)因果關(guān)系的統(tǒng)計(jì)分析結(jié)果,推斷所測(cè)對(duì)象的總體本質(zhì)的一門科學(xué),是通過(guò)搜集、整理和分析研究數(shù)據(jù)從而探索數(shù)據(jù)內(nèi)部存在規(guī)律的一門科學(xué).
2統(tǒng)計(jì)學(xué)是大數(shù)據(jù)分析的核心
數(shù)的產(chǎn)生基于三個(gè)要素,分別是數(shù)、量和計(jì)量單位.在用數(shù)來(lái)表示事物的特征并采用了科學(xué)的計(jì)量單位后,就產(chǎn)生了真正意義上的數(shù)據(jù),即有根據(jù)的數(shù).科學(xué)數(shù)據(jù)是基于科學(xué)設(shè)計(jì),通過(guò)使用觀察和測(cè)量獲得的數(shù)據(jù),認(rèn)知自然現(xiàn)象和社會(huì)現(xiàn)象的變化規(guī)律,或者用來(lái)檢驗(yàn)已經(jīng)存在的理論假設(shè),由此得到了具有實(shí)際意義和理論意義的數(shù)據(jù).從數(shù)據(jù)中獲得科學(xué)數(shù)據(jù)的理論,即統(tǒng)計(jì)學(xué)理論.科學(xué)數(shù)據(jù)是通過(guò)統(tǒng)計(jì)學(xué)理論獲得的,而統(tǒng)計(jì)學(xué)理論是為獲得科學(xué)數(shù)據(jù)而產(chǎn)生的一門科學(xué).若說(shuō)數(shù)據(jù)是傳達(dá)事物特征的精確語(yǔ)言,進(jìn)行科學(xué)研究的必備條件,認(rèn)知世界的重要工具,那么大數(shù)據(jù)分析就是讓數(shù)據(jù)最大限度地發(fā)揮功能,充分表達(dá)并有效滿足不同需求的基本要求.基于統(tǒng)計(jì)學(xué)的發(fā)展史及在數(shù)據(jù)分析中的作用,完成將數(shù)據(jù)轉(zhuǎn)化為知識(shí)、挖掘數(shù)據(jù)內(nèi)在規(guī)律、通過(guò)數(shù)據(jù)發(fā)現(xiàn)并解決實(shí)際問(wèn)題、預(yù)測(cè)可能發(fā)生的結(jié)果等是研究大數(shù)據(jù)的任務(wù),而這必然離不開(kāi)統(tǒng)計(jì)學(xué).以大數(shù)據(jù)為研究對(duì)象,通過(guò)數(shù)據(jù)挖掘、提取、分析等手段探索現(xiàn)象內(nèi)在本質(zhì)的數(shù)據(jù)科學(xué)必須在繼承或改進(jìn)統(tǒng)計(jì)學(xué)理論的基礎(chǔ)上產(chǎn)生.
統(tǒng)計(jì)數(shù)據(jù)的發(fā)展變化經(jīng)歷了一系列過(guò)程,從只能收集到少量的數(shù)據(jù)到盡量多地收集數(shù)據(jù),到科學(xué)利用樣本數(shù)據(jù),再到綜合利用各類數(shù)據(jù),以至于發(fā)展到今天的選擇使用大數(shù)據(jù)的過(guò)程.而統(tǒng)計(jì)分析為了適應(yīng)數(shù)據(jù)可觀察集的不斷增大,也經(jīng)歷了相應(yīng)的各個(gè)不同階段,產(chǎn)生了統(tǒng)計(jì)分組法、大量觀察法、歸納推斷法、綜合指標(biāo)法、模型方程法和數(shù)據(jù)挖掘法等分析方法,并且借助計(jì)算機(jī)以及其他軟件的程度也越來(lái)越深.300多年來(lái),隨著數(shù)據(jù)量以指數(shù)速度的不斷增長(zhǎng),統(tǒng)計(jì)學(xué)圍繞如何搜集、整理和分析數(shù)據(jù)而展開(kāi),合理構(gòu)建了應(yīng)用方法體系,幫助各個(gè)學(xué)科解決了許多復(fù)雜問(wèn)題.現(xiàn)在進(jìn)入了大數(shù)據(jù)時(shí)代,統(tǒng)計(jì)學(xué)依舊是數(shù)據(jù)分析的靈魂,大數(shù)據(jù)分析是數(shù)據(jù)科學(xué)賦予統(tǒng)計(jì)學(xué)的新任務(wù).對(duì)于統(tǒng)計(jì)學(xué)而言,來(lái)自新時(shí)代的數(shù)據(jù)科學(xué)挑戰(zhàn)有可能促使新思想、新方法和新技術(shù)產(chǎn)生,這一挑戰(zhàn)也意味著對(duì)于統(tǒng)計(jì)學(xué)理論將面臨巨大的機(jī)遇.
3統(tǒng)計(jì)學(xué)在大數(shù)據(jù)時(shí)代下必須改革
傳統(tǒng)統(tǒng)計(jì)學(xué)是通過(guò)對(duì)總體進(jìn)行抽樣來(lái)搜索數(shù)據(jù),對(duì)樣本數(shù)據(jù)進(jìn)行整理、分析、描述等,從而推斷所測(cè)對(duì)象的總體本質(zhì),甚至預(yù)測(cè)總體未來(lái)的一門綜合性學(xué)科.從研究對(duì)象到統(tǒng)計(jì)結(jié)果的評(píng)判標(biāo)準(zhǔn)都是離不開(kāi)樣本的抽取,完全不能適應(yīng)大數(shù)據(jù)的4V特點(diǎn),所以統(tǒng)計(jì)學(xué)為適應(yīng)大數(shù)據(jù)技術(shù)的發(fā)展,必須進(jìn)行改革.從學(xué)科發(fā)展角度出發(fā),大數(shù)據(jù)對(duì)海量數(shù)據(jù)進(jìn)行存儲(chǔ)、整合、處理和分析,可以看成是一種新的數(shù)據(jù)分析方法.數(shù)據(jù)關(guān)系的內(nèi)在本質(zhì)決定了大數(shù)據(jù)和統(tǒng)計(jì)學(xué)之間必然存在聯(lián)系,大數(shù)據(jù)對(duì)統(tǒng)計(jì)學(xué)的發(fā)展提出了挑戰(zhàn),體現(xiàn)在大樣本標(biāo)準(zhǔn)的調(diào)整、樣本選取標(biāo)準(zhǔn)和形式的重新確定、統(tǒng)計(jì)軟件有待升級(jí)和開(kāi)發(fā)及實(shí)質(zhì)性統(tǒng)計(jì)方法的大數(shù)據(jù)化.但是也提供了一個(gè)機(jī)遇,體現(xiàn)在統(tǒng)計(jì)質(zhì)量的提高、統(tǒng)計(jì)成本的下降、統(tǒng)計(jì)學(xué)作用領(lǐng)域的擴(kuò)大、統(tǒng)計(jì)學(xué)科體系的延伸以及統(tǒng)計(jì)學(xué)家地位的提升[7].
3.1大數(shù)據(jù)時(shí)代抽樣和總體理論存在價(jià)值
傳統(tǒng)統(tǒng)計(jì)學(xué)中的樣本數(shù)據(jù)來(lái)自總體,而總體是客觀存在的全體,可以通過(guò)觀測(cè)到的或經(jīng)過(guò)抽樣而得到的數(shù)據(jù)來(lái)認(rèn)知總體.但是在大數(shù)據(jù)時(shí)代,不再是隨機(jī)樣本,而是全部的數(shù)據(jù),還需要假定一個(gè)看不見(jiàn)摸不著的總體嗎?如果將大數(shù)據(jù)看成一個(gè)高維度的大樣本集合,針對(duì)樣本大的問(wèn)題,按照傳統(tǒng)統(tǒng)計(jì)學(xué)的方法,可以采用抽樣的方法來(lái)減少樣本容量,并且可以達(dá)到需要的精度;對(duì)于維度高的問(wèn)題,可以采取對(duì)變量進(jìn)行選擇、降維、壓縮、分解等方法來(lái)降低數(shù)據(jù)的復(fù)雜程度.但實(shí)際上很難做得到,大數(shù)據(jù)涵蓋多學(xué)科領(lǐng)域、多源、混合的數(shù)據(jù),各學(xué)科之間的數(shù)據(jù)融合,學(xué)科邊界模糊,各范疇的數(shù)據(jù)集互相重疊,合成一體,而且大數(shù)據(jù)涉及到各種數(shù)據(jù)類型.因此想要通過(guò)抽樣而使數(shù)據(jù)量達(dá)到傳統(tǒng)統(tǒng)計(jì)學(xué)的統(tǒng)計(jì)分析能力范圍是一件相當(dāng)困難或是一件不可能的事.大量的結(jié)構(gòu)數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)交織在一起,系統(tǒng)首先要認(rèn)清哪個(gè)是有價(jià)值的信息,哪個(gè)是噪聲,以及哪些不同類型的數(shù)據(jù)信息來(lái)自于同一個(gè)地址的數(shù)據(jù)源,等等,傳統(tǒng)的統(tǒng)計(jì)學(xué)是無(wú)法做到的.在大數(shù)據(jù)時(shí)代下,是否需要打破傳統(tǒng)意義的抽樣理論、總體及樣本等概念和關(guān)系,是假設(shè)“樣本=總體”,還是“樣本趨近于總體”,還是不再使用總體和樣本這兩個(gè)概念,而重新定義一個(gè)更合適的概念,等等.人們?cè)撛鯓印鞍才拧背闃?、總體及樣本等理論,或人們?cè)撛鯓有拚闃?、總體、樣本的“公理化”定義,這個(gè)問(wèn)題是大數(shù)據(jù)時(shí)代下,傳統(tǒng)統(tǒng)計(jì)學(xué)面臨改進(jìn)的首要問(wèn)題.
3.2統(tǒng)計(jì)方法在大數(shù)據(jù)時(shí)代下的重構(gòu)問(wèn)題
在大數(shù)據(jù)時(shí)代下,傳統(tǒng)的高維度表達(dá)、結(jié)構(gòu)描述和群體行為分析方法已經(jīng)不能精確表達(dá)大數(shù)據(jù)在異構(gòu)性、交互性、時(shí)效性、突發(fā)性等方面的特點(diǎn),傳統(tǒng)的“假設(shè)-模型-檢驗(yàn)”的統(tǒng)計(jì)方法受到了質(zhì)疑,而且從“數(shù)據(jù)”到“數(shù)據(jù)”的統(tǒng)計(jì)模式還沒(méi)有真正建立,急切需要一個(gè)新的理論體系來(lái)指引,從而建立新的分析模型.去除數(shù)據(jù)噪聲、篩選有價(jià)值的數(shù)據(jù)、整合不同類型的數(shù)據(jù)、快速對(duì)數(shù)據(jù)做出分析并得出分析結(jié)果等一系列問(wèn)題都有待于研究.大數(shù)據(jù)分析涉及到三個(gè)維度,即時(shí)間維度、空間維度和數(shù)據(jù)本身的維度,怎樣才能全面、深入地分析大數(shù)據(jù)的復(fù)雜性與特性,掌握大數(shù)據(jù)的不確定性,構(gòu)建高效的大數(shù)據(jù)計(jì)算模型,變成了大數(shù)據(jù)分析的突破口.科學(xué)數(shù)據(jù)的演變是一個(gè)從簡(jiǎn)單到復(fù)雜的各種形式不斷豐富、相互包容的過(guò)程,是一個(gè)循序漸進(jìn)的過(guò)程,而不是簡(jiǎn)單的由一種形式取代另一種形式.研究科學(xué)數(shù)據(jù)的統(tǒng)計(jì)學(xué)理論也是一樣,也是由簡(jiǎn)單到復(fù)雜的各種形式相互包容、不斷豐富的發(fā)展過(guò)程,而絕不是完全否定一種理論、由另一種理論形式所代替.大數(shù)據(jù)時(shí)代的到來(lái)統(tǒng)計(jì)學(xué)理論必須要進(jìn)行不斷的完善和發(fā)展,以適應(yīng)呈指數(shù)增長(zhǎng)的數(shù)據(jù)量的大數(shù)據(jù)分析的需要.
3.3如何構(gòu)建大數(shù)據(jù)時(shí)代下統(tǒng)計(jì)結(jié)果的評(píng)價(jià)標(biāo)準(zhǔn)框架
大數(shù)據(jù)時(shí)代下,統(tǒng)計(jì)分析評(píng)價(jià)的標(biāo)準(zhǔn)又該如何變化?傳統(tǒng)統(tǒng)計(jì)分析的評(píng)價(jià)標(biāo)準(zhǔn)有兩個(gè)方面,一是可靠性評(píng)價(jià),二是有效性評(píng)價(jià),然而這兩種評(píng)價(jià)標(biāo)準(zhǔn)都因抽樣而生.可靠性評(píng)價(jià)是指用樣本去推斷總體有多大的把握程度,一般用概率來(lái)衡量.可靠性評(píng)價(jià)有時(shí)表現(xiàn)為置信水平,有時(shí)表現(xiàn)為顯著性水平[8].怎么確定顯著性水平一直是個(gè)存在爭(zhēng)議的問(wèn)題,特別是在模型擬合度評(píng)價(jià)和假設(shè)檢驗(yàn)中,因?yàn)楦髯詤⒄盏姆植碱愋筒灰粯?其統(tǒng)計(jì)量就不一樣,顯著性評(píng)價(jià)的臨界值也就不一樣,可是臨界值又與顯著性水平的高低直接相關(guān).而大數(shù)據(jù)在一定程度上是全體數(shù)據(jù),因此不存在以樣本推斷總體的問(wèn)題,那么在這種情況下,置信水平、可靠性問(wèn)題怎么確定?依據(jù)是什么?有效性評(píng)價(jià)指的是真實(shí)性,即為誤差的大小,它與準(zhǔn)確性、精確性有關(guān).通常準(zhǔn)確性是指觀察值與真實(shí)值的吻合程度,一般是無(wú)法衡量的,而精確性用抽樣分布的標(biāo)準(zhǔn)差來(lái)衡量.顯然,精確性是針對(duì)樣本數(shù)據(jù)而言的,也就是說(shuō)樣本數(shù)據(jù)有精確性問(wèn)題,同時(shí)也有準(zhǔn)確性問(wèn)題.抽樣誤差和非抽樣誤差都可能存在于樣本數(shù)據(jù)中,抽樣誤差可以計(jì)算和控制,但是非抽樣誤差只能通過(guò)各種方式加以識(shí)別或判斷[910].大多數(shù)情況下,對(duì)于樣本量不是太大的樣本,非抽樣誤差可以得到較好的防范,然而對(duì)于大數(shù)據(jù)的全體數(shù)據(jù)而言,沒(méi)有抽樣誤差問(wèn)題,只有非抽樣誤差問(wèn)題,也就是說(shuō)大數(shù)據(jù)的真實(shí)性只表現(xiàn)為準(zhǔn)確性.但是由于大數(shù)據(jù)特有的種種特性,使得大數(shù)據(jù)的非抽樣誤差很難進(jìn)行防范、控制,也很難對(duì)其進(jìn)行準(zhǔn)確性評(píng)價(jià).總之,對(duì)于大數(shù)據(jù)分析來(lái)說(shuō),有些統(tǒng)計(jì)分析理論是否還有意義,確切說(shuō)有哪些統(tǒng)計(jì)學(xué)中的理論可以適用于大數(shù)據(jù)分析,而哪些統(tǒng)計(jì)學(xué)中的理論需要改進(jìn),哪些統(tǒng)計(jì)學(xué)中的理論已不再適用于大數(shù)據(jù)統(tǒng)計(jì)研究,等等,都有待于研究.所以大數(shù)據(jù)時(shí)代的統(tǒng)計(jì)學(xué)必是在繼承中求改進(jìn),改進(jìn)中求發(fā)展,重構(gòu)適應(yīng)大數(shù)據(jù)時(shí)代的新統(tǒng)計(jì)學(xué)理論.
4結(jié)論
來(lái)自于社會(huì)各種數(shù)據(jù)源的數(shù)據(jù)量呈指數(shù)增長(zhǎng),大數(shù)據(jù)對(duì)社會(huì)發(fā)展的推動(dòng)力呈指數(shù)效應(yīng),大數(shù)據(jù)已是生命活動(dòng)的主要承載者.一個(gè)新事物的出現(xiàn),必然導(dǎo)致傳統(tǒng)觀念和傳統(tǒng)技術(shù)的變革.對(duì)傳統(tǒng)統(tǒng)計(jì)學(xué)來(lái)說(shuō),大數(shù)據(jù)時(shí)代的到來(lái)無(wú)疑是一個(gè)挑戰(zhàn),雖然傳統(tǒng)統(tǒng)計(jì)學(xué)必須做出改變,但是占據(jù)主導(dǎo)地位的依然會(huì)是統(tǒng)計(jì)學(xué),它會(huì)引領(lǐng)人類合理分析利用大數(shù)據(jù)資源.大數(shù)據(jù)給統(tǒng)計(jì)學(xué)帶來(lái)了機(jī)遇和挑戰(zhàn),統(tǒng)計(jì)學(xué)家們應(yīng)該積極學(xué)習(xí)新事物,適應(yīng)新環(huán)境,努力為大數(shù)據(jù)時(shí)代創(chuàng)造出新的統(tǒng)計(jì)方法,擴(kuò)大統(tǒng)計(jì)學(xué)的應(yīng)用范圍.
參考文獻(xiàn):
[1]陳冬玲,曾文.頻繁模式挖掘中基于CFP的應(yīng)用模型[J]沈陽(yáng)大學(xué)學(xué)報(bào)(自然科學(xué)版),2015,27(4):296300.
[3]卞友江.“大數(shù)據(jù)”概念考辨[J].新聞研究導(dǎo)刊,2013,35(5):2528.
[5]靳小龍,王元卓,程學(xué)旗.大數(shù)據(jù)的研究體系與現(xiàn)狀[J].信息通信技術(shù),2013(6):3543.
[6]覃雄派,王會(huì)舉,杜小勇,等.大數(shù)據(jù)分析:Rdbms與Mapreduce的競(jìng)爭(zhēng)與共生[J].軟件學(xué)報(bào),2012,23(1):32-45.
[7]游士兵,張佩,姚雪梅.大數(shù)據(jù)對(duì)統(tǒng)計(jì)學(xué)的挑戰(zhàn)和機(jī)遇[J].珞珈管理評(píng)論,2013(2):165171.
[8]李金昌.大數(shù)據(jù)與統(tǒng)計(jì)新思維[J].統(tǒng)計(jì)研究,2014,31(1):1017.
關(guān)鍵詞:計(jì)算機(jī);統(tǒng)計(jì);數(shù)據(jù)信息
中圖分類號(hào):F22文獻(xiàn)標(biāo)志碼:A文章編號(hào):1673-291X(2009)17-0250-02
在計(jì)算機(jī)“醫(yī)院信息系統(tǒng)”網(wǎng)絡(luò)工程實(shí)行以來(lái),基層醫(yī)院醫(yī)務(wù)統(tǒng)計(jì)工作者用得最多的兩個(gè)模塊是“醫(yī)務(wù)統(tǒng)計(jì)”和“數(shù)據(jù)上報(bào)”?!搬t(yī)務(wù)統(tǒng)計(jì)”模塊是“醫(yī)院信息系統(tǒng)”中為醫(yī)務(wù)統(tǒng)計(jì)部門設(shè)計(jì)的醫(yī)務(wù)統(tǒng)計(jì)系統(tǒng),該系統(tǒng)分三大模塊,即日統(tǒng)計(jì)模塊、月統(tǒng)計(jì)模塊和年統(tǒng)計(jì)模塊;“數(shù)據(jù)上報(bào)”模塊是“綜合統(tǒng)計(jì)信息服務(wù)系統(tǒng)”內(nèi)容之一,該模塊充分利用“醫(yī)院信息系統(tǒng)”工程各網(wǎng)絡(luò)站運(yùn)轉(zhuǎn)工程中產(chǎn)生的數(shù)據(jù)資源進(jìn)行核查和上報(bào)。在醫(yī)院統(tǒng)計(jì)工作中,對(duì)大量數(shù)據(jù)的整理分析的基礎(chǔ)正是源于“醫(yī)務(wù)統(tǒng)計(jì)”、“數(shù)據(jù)上報(bào)”所提供的數(shù)據(jù),我們更可以依次為醫(yī)院管理層提供可供參考的有價(jià)數(shù)據(jù),為醫(yī)院的今后發(fā)展作出貢獻(xiàn)。
醫(yī)院醫(yī)務(wù)統(tǒng)計(jì)工作除了要收集、統(tǒng)計(jì)各類資料,監(jiān)測(cè)、分析客觀描述與分析本單位醫(yī)院管理工作情況,介紹先進(jìn)經(jīng)驗(yàn),提出存在問(wèn)題,提出科學(xué)管理的可靠的數(shù)據(jù)依據(jù)與合理建議,向醫(yī)院各級(jí)提供依據(jù)和進(jìn)行統(tǒng)計(jì)分析外,還有一個(gè)十分重要的工作就是完成規(guī)定的院內(nèi)統(tǒng)計(jì)和各類報(bào)表。要想即時(shí)、準(zhǔn)確、規(guī)范地做好各類報(bào)表工作,作為統(tǒng)計(jì)工作者必須支持保證“醫(yī)院信息統(tǒng)計(jì)”工程中的“醫(yī)務(wù)統(tǒng)計(jì)”模塊和“數(shù)據(jù)上報(bào)”模塊的完整性,筆者認(rèn)為,可以從以下幾個(gè)方面著手:
1.堅(jiān)持每日做好對(duì)各醫(yī)療部門日志報(bào)表的監(jiān)測(cè)工作
這是工作中必須要做好的,運(yùn)用“醫(yī)療統(tǒng)計(jì)”子系統(tǒng),在規(guī)定的時(shí)間內(nèi)做好后臺(tái)統(tǒng)計(jì)工作,對(duì)每天的日志報(bào)表進(jìn)行調(diào)整。與之相關(guān)的其他模塊有:住院登記、門診掛號(hào)、病案編目和各科室的護(hù)士站以及醫(yī)技科室,其中,尤為重要、需要區(qū)別處理的是門診醫(yī)生工作日?qǐng)?bào)的出診和復(fù)診新、舊病例必須在統(tǒng)計(jì)員的監(jiān)督下保持一致性,對(duì)于疾病名稱的填寫要實(shí)事求是,不要漏報(bào)以造成不必要的數(shù)據(jù)流失。同時(shí),對(duì)每天可能發(fā)生數(shù)據(jù)變化的部門進(jìn)行及時(shí)溝通,補(bǔ)充統(tǒng)計(jì)資料使得統(tǒng)計(jì)工作做到及時(shí)、準(zhǔn)確、完整。
2.每日做好對(duì)各醫(yī)療部門日志報(bào)表的整理、分析工作
這項(xiàng)工作首先要錄入當(dāng)日所收集報(bào)表信息。錄入前統(tǒng)計(jì)室對(duì)流動(dòng)日?qǐng)?bào)每天都要做到三查:一查病人數(shù),按各科系核對(duì)入院、出院、死亡、轉(zhuǎn)科人數(shù);二查編碼,即醫(yī)療體系編碼、科室編碼和醫(yī)師編碼;三查分類,即病種分類和類別分類是否正確,以備計(jì)算輸出報(bào)表時(shí)查對(duì)。
3.做好對(duì)每個(gè)出院病人的病案編目工作
出院病人信息錄入,這項(xiàng)工作與各個(gè)醫(yī)生工作站、護(hù)士工作站、門診住院登記、住院收費(fèi)系統(tǒng)、病案編目系統(tǒng)等發(fā)生聯(lián)系,也就是說(shuō)以上這些工作質(zhì)量的好壞,直接影響到數(shù)據(jù)的質(zhì)量。首先,門診住院登記錄入首頁(yè)基本信息,項(xiàng)目應(yīng)完整;其次,護(hù)士工作站應(yīng)按時(shí)、按規(guī)定做好病人出院的工作,在這里特別要注意的是對(duì)出院、撤銷出院、轉(zhuǎn)科等要特別慎重,往往就是日?qǐng)?bào)、月報(bào)出錯(cuò)的主要原因;再次,各醫(yī)生工作站按規(guī)定要求,錄入填寫好各項(xiàng)首頁(yè)內(nèi)容,注意應(yīng)完整、準(zhǔn)確。
住院收費(fèi)處做好收費(fèi)結(jié)賬統(tǒng)計(jì)工作后,由病案室再出院三日內(nèi)進(jìn)行病案編目工作,完成全部病案首頁(yè)編目工作后,同時(shí),對(duì)已經(jīng)編目的病案進(jìn)行核對(duì)、檢查。
統(tǒng)計(jì)人員應(yīng)對(duì)每天的病案編目情況進(jìn)行檢查,隨時(shí)檢出超三日歸檔的病歷,按時(shí)進(jìn)行病案編目工作。
4 .做好輔助科室及門急診、手術(shù)等綜合數(shù)據(jù)錄入工作
為了能在“醫(yī)務(wù)統(tǒng)計(jì)”和“綜合查詢”模塊中能夠準(zhǔn)確看到每天醫(yī)技工作情況,各個(gè)醫(yī)技科室對(duì)每天產(chǎn)生的醫(yī)技工作情況進(jìn)行數(shù)據(jù)錄入(在“綜合統(tǒng)計(jì)服務(wù)系統(tǒng)”中“病案統(tǒng)計(jì)查詢”系統(tǒng)可以進(jìn)行查看)。統(tǒng)計(jì)人員進(jìn)行數(shù)據(jù)核準(zhǔn),同時(shí),在“上報(bào)數(shù)據(jù)”系統(tǒng)中進(jìn)行基本情況、護(hù)理情況、醫(yī)技情況等數(shù)據(jù)錄入工作。
5 嚴(yán)格進(jìn)行數(shù)據(jù)核查及核對(duì)病歷首頁(yè)
“數(shù)據(jù)上報(bào)”系統(tǒng)的數(shù)據(jù)內(nèi)容來(lái)自兩個(gè)途徑,一個(gè)是通過(guò)手工錄入實(shí)現(xiàn)數(shù)據(jù)上報(bào),另一部分是通過(guò)網(wǎng)絡(luò)采集實(shí)現(xiàn)數(shù)據(jù)上報(bào)。各類數(shù)據(jù)上報(bào)必須對(duì)通過(guò)網(wǎng)絡(luò)采集實(shí)現(xiàn)上報(bào)的數(shù)據(jù)進(jìn)行核查,對(duì)數(shù)據(jù)上報(bào)系統(tǒng)中病案首頁(yè)單項(xiàng)或全項(xiàng)進(jìn)行核對(duì),對(duì)上報(bào)首頁(yè)數(shù)據(jù)進(jìn)行逐項(xiàng)檢查,找出數(shù)據(jù)出錯(cuò)源頭并進(jìn)行修改。這里值得強(qiáng)調(diào)的是,首先,注意各個(gè)數(shù)據(jù)項(xiàng)目間的邏輯關(guān)系;其次,為規(guī)范數(shù)據(jù)統(tǒng)一數(shù)據(jù)上報(bào),使用“數(shù)據(jù)上報(bào)”前,必須與“醫(yī)院信息統(tǒng)計(jì)系統(tǒng)”工程所使用字典的項(xiàng)目、名稱一致,費(fèi)用分類字典必須按四版常規(guī)要求設(shè)置;再次,搶救次數(shù)及搶救成功判定,分清一次、二次搶救成功的概念及搶救無(wú)效失敗和慢性消耗性疾病臨終搶救的概念;再有病案室出院病案是否按時(shí)歸檔入機(jī),編碼是否符合編碼原則;最后,分清主要診斷、第一診斷、最后診斷的概念,正確選擇和確定主要診斷。
核對(duì)病歷首頁(yè),病歷是統(tǒng)計(jì)數(shù)據(jù)的基礎(chǔ),而病歷首頁(yè)是統(tǒng)計(jì)工作最重要的信息員。保證錄入首頁(yè)的數(shù)據(jù)質(zhì)量十分重要。質(zhì)量不高會(huì)給日后工作帶來(lái)無(wú)法補(bǔ)救的損失。在首頁(yè)錄入計(jì)算機(jī)之前,由統(tǒng)計(jì)室再填寫住院卡片過(guò)程中,對(duì)所有病歷逐份進(jìn)行審查,發(fā)現(xiàn)問(wèn)題及時(shí)糾正,保證數(shù)據(jù)準(zhǔn)確可靠。首頁(yè)項(xiàng)目繁多,逐項(xiàng)核對(duì)確有困難,檢查時(shí)應(yīng)全面完整、重點(diǎn)突出。主要做到七對(duì):一對(duì)病案號(hào),防止出現(xiàn)缺號(hào)、錯(cuò)號(hào);二對(duì)疾病診斷,關(guān)鍵是主要診斷的選擇和確定;三對(duì)疾病編碼,發(fā)現(xiàn)漏項(xiàng)或有疑問(wèn)時(shí)及時(shí)與病案室聯(lián)系;四對(duì)治療結(jié)果,尤其是注意非病人和產(chǎn)科病人治療結(jié)果的判定;五對(duì)診斷符合情況,主要核對(duì)判定的是否正確;六對(duì)手術(shù)情況,核對(duì)切口分類、愈合等級(jí)和手術(shù)日期是否有誤;七對(duì)住院費(fèi)用,發(fā)現(xiàn)漏項(xiàng)及時(shí)補(bǔ)上。以上幾點(diǎn)的準(zhǔn)確與否直接影響到統(tǒng)計(jì)準(zhǔn)確及病種質(zhì)量和分析,甚至影響到領(lǐng)導(dǎo)的決策。
做好“醫(yī)務(wù)統(tǒng)計(jì)”和“數(shù)據(jù)上報(bào)”的前提必須是“醫(yī)院信息系統(tǒng)”正常運(yùn)行,網(wǎng)絡(luò)管理技術(shù)人員必須保證網(wǎng)絡(luò)正常運(yùn)行和網(wǎng)絡(luò)維護(hù)系統(tǒng)完善,系統(tǒng)軟件計(jì)算公式正確。流程優(yōu)化按照“以病人為中心”的現(xiàn)代醫(yī)院管理思想進(jìn)行業(yè)務(wù)流程優(yōu)化,通過(guò)統(tǒng)一單據(jù)信息、統(tǒng)一數(shù)據(jù)來(lái)源、簡(jiǎn)化記賬過(guò)程、減少單據(jù)流轉(zhuǎn)環(huán)節(jié),從而最大限度地提高醫(yī)院運(yùn)行效率和醫(yī)院管理水平。
【關(guān)鍵詞】數(shù)據(jù)統(tǒng)計(jì)分析;港口管理;重要作用
一、前言
在港口的日常管理中,考慮到貨物的流動(dòng)性較大,并且貨物種類較多的特點(diǎn),要想保證港口的日常管理取得積極效果,滿足港口管理需要,就要在港口日常管理中積極引入數(shù)據(jù)統(tǒng)計(jì)分析手段,實(shí)現(xiàn)對(duì)港口貨物的有效統(tǒng)計(jì),保證港口管理能夠有第一手的數(shù)據(jù)作為支撐,為港口分析整體效益和制定經(jīng)營(yíng)策略提供有力保證。從這一點(diǎn)來(lái)看,港口管理中應(yīng)對(duì)數(shù)據(jù)統(tǒng)計(jì)分析引起足夠的重視,應(yīng)從港口管理實(shí)際出發(fā),分析數(shù)據(jù)統(tǒng)計(jì)分析對(duì)港口管理的重要作用和意義,將數(shù)據(jù)統(tǒng)計(jì)分析作為重要的管理手段,提高港口管理的整體效果。
二、數(shù)據(jù)統(tǒng)計(jì)分析手段在港口管理中的應(yīng)用
目前來(lái)看,數(shù)據(jù)統(tǒng)計(jì)分析手段在港口管理的應(yīng)用主要表現(xiàn)在以下幾個(gè)方面:
1.數(shù)據(jù)采集與數(shù)據(jù)傳輸。目前各港貨物吞吐量的統(tǒng)計(jì)已基本實(shí)現(xiàn)了數(shù)據(jù)采集的信息化,做到數(shù)據(jù)文件傳輸?shù)臏?zhǔn)確及時(shí)。如廈門港已開(kāi)發(fā)了港口生產(chǎn)統(tǒng)計(jì)管理系統(tǒng),各碼頭公司也相應(yīng)擁有自己的統(tǒng)計(jì)系統(tǒng),數(shù)據(jù)源直接可以通過(guò)碼頭一線操作系統(tǒng)傳入碼頭公司內(nèi)部統(tǒng)計(jì)管理系統(tǒng),加工處理后,再和管理局的生產(chǎn)統(tǒng)計(jì)系統(tǒng)對(duì)接。
2.數(shù)據(jù)存儲(chǔ)。由于要做到詳細(xì)掌握每條船每批次貨品的具體數(shù)量和儲(chǔ)存情況,每月每年累計(jì)下來(lái),將會(huì)形成大量的基礎(chǔ)數(shù)據(jù),因此必須配備專門設(shè)備進(jìn)行存儲(chǔ)。廈門港已在港口生產(chǎn)統(tǒng)計(jì)管理系統(tǒng)投入使用后,配套配備了專門的存儲(chǔ)器進(jìn)行處理和存儲(chǔ),并進(jìn)行定期的維護(hù)。
3.數(shù)據(jù)分析應(yīng)用。該層可以進(jìn)行統(tǒng)計(jì)查詢、統(tǒng)計(jì)服務(wù),通過(guò)對(duì)數(shù)據(jù)庫(kù)中的各種數(shù)據(jù)進(jìn)行分析、統(tǒng)計(jì)、建模、歸類等工作,?可以為管理人員提供決策支持,幫助管理人員做出好的決策,提供了聯(lián)機(jī)分析處理和數(shù)據(jù)挖掘服務(wù)。
三、數(shù)據(jù)統(tǒng)計(jì)分析對(duì)港口管理的重要作用
從數(shù)據(jù)統(tǒng)計(jì)分析手段在港口管理中的應(yīng)用來(lái)看,數(shù)據(jù)統(tǒng)計(jì)分析對(duì)港口管理的重要作用主要表現(xiàn)在以下兩個(gè)方面:
1.數(shù)據(jù)統(tǒng)計(jì)分析能夠綜合分析港口的吞吐量。數(shù)據(jù)統(tǒng)計(jì)分析的具體做法是對(duì)港口貨物的種類和數(shù)量進(jìn)行全面計(jì)算,并最終形成每日或者周期性的通過(guò)圖表等形式反映出來(lái)的吞吐量完成情況,為港口日常管理提供直觀的數(shù)據(jù)支撐。所以,數(shù)據(jù)統(tǒng)計(jì)分析對(duì)分析港口吞吐量具有重要作用。
2.數(shù)據(jù)統(tǒng)計(jì)分析能夠正確計(jì)算港口的整體效益。在數(shù)據(jù)統(tǒng)計(jì)分析中,不但能夠計(jì)算港口的吞吐量,還能計(jì)算港口的整體經(jīng)營(yíng)收入。通過(guò)固定的收費(fèi)項(xiàng)目和收費(fèi)標(biāo)準(zhǔn),計(jì)算出港口的基本收入情況,進(jìn)而驗(yàn)證港口的實(shí)際收入是否存在出入,形成對(duì)整體經(jīng)營(yíng)管理效益的合理核算。所以,數(shù)據(jù)統(tǒng)計(jì)分析手段對(duì)港口的日常管理具有重要的促進(jìn)作用。
四、數(shù)據(jù)統(tǒng)計(jì)分析對(duì)港口管理的重要意義
考慮到數(shù)據(jù)統(tǒng)計(jì)分析的作用及其在港口管理中的應(yīng)用,數(shù)據(jù)統(tǒng)計(jì)分析手段對(duì)港口的管理具有重要意義,具體表現(xiàn)在以下幾個(gè)方面:
1.數(shù)據(jù)統(tǒng)計(jì)分析對(duì)提升港口經(jīng)營(yíng)管理水平具有重要意義。港口作為重要的交通貨運(yùn)樞紐,其經(jīng)營(yíng)管理水平不但關(guān)系到港口的整體效益,還關(guān)系到港口的未來(lái)發(fā)展。為此,通過(guò)港口數(shù)據(jù)統(tǒng)計(jì)分析直接反映港口的實(shí)際經(jīng)營(yíng)情況,對(duì)提升港口經(jīng)營(yíng)管理水平具有重要的促進(jìn)作用和指導(dǎo)意義。
2.數(shù)據(jù)統(tǒng)計(jì)分析對(duì)促進(jìn)港口持續(xù)健康發(fā)展具有重要意義。考慮到數(shù)據(jù)統(tǒng)計(jì)分析的重要作用,在港口日常管理中,數(shù)據(jù)統(tǒng)計(jì)分析手段得到了充分應(yīng)用。由此可見(jiàn),數(shù)據(jù)統(tǒng)計(jì)分析為促進(jìn)港口持續(xù)健康發(fā)展具有重要意義。
五、結(jié)論
通過(guò)本文的分析可知,在港口日常管理中,數(shù)據(jù)統(tǒng)計(jì)分析作為一種基礎(chǔ)手段應(yīng)該得到應(yīng)有的重視。為此,我們應(yīng)立足港口管理實(shí)際,認(rèn)識(shí)到數(shù)據(jù)統(tǒng)計(jì)分析在港口管理的中作用和意義,重點(diǎn)做好統(tǒng)計(jì)分析工作,滿足港口管理需要,為港口發(fā)展提供有力的支持。
參考文獻(xiàn):
[1]白雪潔.中國(guó)港口經(jīng)營(yíng)與管理發(fā)展特征和趁勢(shì)[J].港口經(jīng)濟(jì), 2009年04期
[2]高素爭(zhēng).港口統(tǒng)計(jì)數(shù)據(jù)質(zhì)量的評(píng)價(jià)分析[D].大連海事大學(xué), 2010年
[3]黃始堅(jiān).完善企業(yè)統(tǒng)計(jì)制度促進(jìn)施工企業(yè)發(fā)展[J].企業(yè)科技與發(fā)展,2011年14期
[4]黃杰.沿海港口吞吐量與國(guó)民經(jīng)濟(jì)關(guān)系研究[D].大連海事大學(xué),2011年
關(guān)鍵詞:數(shù)據(jù)備份;數(shù)據(jù)去重;數(shù)據(jù)碎片;去重技術(shù)
中圖分類號(hào):TP309.3 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-7712 (2012) 18-0043-01
一、數(shù)據(jù)去重技術(shù)
(一)全局去重和局部去重技術(shù)。可分為全局去重和局部去重技術(shù)。全局去重主要應(yīng)用在有多個(gè)去重設(shè)備的環(huán)境里,它會(huì)對(duì)多個(gè)已去重的庫(kù)、目標(biāo)和站點(diǎn)進(jìn)行數(shù)據(jù)的比對(duì),然后對(duì)重復(fù)數(shù)據(jù)進(jìn)行刪除。它可以刪除多節(jié)點(diǎn)間的冗余數(shù)據(jù)。使用全局去重后,如果數(shù)據(jù)從第一個(gè)節(jié)點(diǎn)傳遞到第二個(gè)節(jié)點(diǎn),那么第一個(gè)節(jié)點(diǎn)存儲(chǔ)過(guò)的數(shù)據(jù),第二個(gè)節(jié)點(diǎn)將不再存儲(chǔ)。
局部去重則不考慮多個(gè)節(jié)點(diǎn)間的冗余數(shù)據(jù),它僅刪除同一臺(tái)機(jī)器、同一個(gè)客戶端、或同一個(gè)存儲(chǔ)節(jié)點(diǎn)上的冗余數(shù)據(jù)。
這兩種去重方式,全局去重的壓縮率要比局部去重的壓縮率高,因?yàn)槿秩ブ乇染植咳ブ厮鶆h除掉的重復(fù)數(shù)據(jù)要多;但是局部去重的開(kāi)銷要比全局去重的開(kāi)銷少,因?yàn)槿秩ブ匦枰獙?duì)多個(gè)存儲(chǔ)節(jié)點(diǎn)上的數(shù)據(jù)進(jìn)行查詢,刪除多個(gè)節(jié)點(diǎn)之間存在的重復(fù)數(shù)據(jù),其帶來(lái)的開(kāi)銷也會(huì)比局部去重大很多。也正是因?yàn)檫@一點(diǎn),很多公司,實(shí)現(xiàn)的全局去重所關(guān)注的存儲(chǔ)節(jié)點(diǎn)數(shù)也非常有限的。
(二)文件級(jí)和數(shù)據(jù)塊級(jí)(字節(jié)級(jí))去重技術(shù)。根據(jù)重復(fù)數(shù)據(jù)的鑒別粒度,數(shù)據(jù)去重可分為文件級(jí)的去重技術(shù)(單實(shí)例存儲(chǔ)技術(shù))和數(shù)據(jù)塊級(jí)(字節(jié)級(jí))去重技術(shù)。
文件級(jí)的重復(fù)數(shù)據(jù)去重技術(shù)使用哈希函數(shù)計(jì)算每個(gè)文件內(nèi)容的哈希值,然后根據(jù)索引檢查需要備份的文件屬性,并與已經(jīng)存儲(chǔ)的文件進(jìn)行比較,如果兩個(gè)文件的哈希值相同,則刪除相同內(nèi)容的文件來(lái)減少數(shù)據(jù)存儲(chǔ)量,節(jié)約存儲(chǔ)空間,如果哈希值不同,就將其存儲(chǔ)。
數(shù)據(jù)塊級(jí)的重復(fù)數(shù)據(jù)去重技術(shù)是在子文件的級(jí)別上運(yùn)行的,主要通過(guò)刪除內(nèi)容相同的數(shù)據(jù)塊來(lái)減少數(shù)據(jù)量。正如它的名字,文件或數(shù)據(jù)流通常在這里會(huì)被分割為較小的數(shù)據(jù)塊(每個(gè)供應(yīng)商檢查的數(shù)據(jù)塊大小不一,一些供應(yīng)商固定數(shù)據(jù)塊的大小,一些則使用不同大小的塊,數(shù)據(jù)塊的平均大小一般在4KB~8KB左右),然后使用哈希函數(shù)求取每個(gè)數(shù)據(jù)塊的哈希值,這些哈希值常被稱為數(shù)據(jù)塊指紋。數(shù)據(jù)塊指紋是用來(lái)唯一標(biāo)識(shí)一個(gè)數(shù)據(jù)塊的,具有相同指紋的兩個(gè)數(shù)據(jù)塊即為重復(fù)數(shù)據(jù)塊。
這兩種去重技術(shù),其中文件級(jí)的重復(fù)數(shù)據(jù)去重技術(shù)能達(dá)到的壓縮率較低,因?yàn)樗荒軇h除相似文件之間的重復(fù)數(shù)據(jù)。而數(shù)據(jù)塊級(jí)的數(shù)據(jù)去重技術(shù)由于不僅能刪除相同的文件,還能刪除相似文件中的相同數(shù)據(jù)塊因此有較高的壓縮率,它是目前為止使用最廣泛的數(shù)據(jù)去重技術(shù)。但是,由于數(shù)據(jù)塊級(jí)去重技術(shù)的鑒別和刪除粒度更細(xì),因此它帶來(lái)的開(kāi)銷也比文件級(jí)的更大。
(三)在線去重技術(shù)和離線去重技術(shù)。根據(jù)重復(fù)數(shù)據(jù)的刪除時(shí)間劃分,數(shù)據(jù)去重技術(shù)可分為在線去重和離線去重技術(shù)。
在線去重技術(shù)是指在數(shù)據(jù)到達(dá)存儲(chǔ)設(shè)備之前就對(duì)重復(fù)數(shù)據(jù)進(jìn)行查找和刪除,存儲(chǔ)設(shè)備上不存儲(chǔ)重復(fù)的數(shù)據(jù)塊。由于査找和刪除重復(fù)數(shù)據(jù)這一過(guò)程發(fā)生在數(shù)據(jù)寫的關(guān)鍵路徑上,因而數(shù)據(jù)去重會(huì)對(duì)存儲(chǔ)系統(tǒng)的存儲(chǔ)性能產(chǎn)生一定的影響,嚴(yán)重的會(huì)影響存儲(chǔ)系統(tǒng)的數(shù)據(jù)寫性能。
離線去重需要額外的存儲(chǔ)空間做緩沖,是屬于后處理的去重模式,在運(yùn)行時(shí)不影響上層應(yīng)用程序的存儲(chǔ)性能,但需要額外的存儲(chǔ)空間做緩沖區(qū)。
目前,數(shù)據(jù)備份系統(tǒng)一般都使用在線去重技術(shù),因?yàn)楫?dāng)前的數(shù)據(jù)備份系統(tǒng)都不是實(shí)時(shí)應(yīng)用系統(tǒng),對(duì)存儲(chǔ)的性能要求也不高。如果是實(shí)時(shí)關(guān)鍵應(yīng)用或?qū)Υ鎯?chǔ)系統(tǒng)存儲(chǔ)性能要求很高,離線去重技術(shù)更合適。
(四)源端去重和目標(biāo)端去重技術(shù)。依據(jù)重復(fù)數(shù)據(jù)的刪除地點(diǎn),數(shù)據(jù)去重可以分為源端去重技術(shù)和目標(biāo)端去重技術(shù)。
源端去重技術(shù)即在數(shù)據(jù)的發(fā)送端,一般指客戶端,對(duì)數(shù)據(jù)進(jìn)行查找并刪除重復(fù)的數(shù)據(jù)。這種去重技術(shù)非常適合廣域網(wǎng)寬帶較低的網(wǎng)絡(luò)環(huán)境下的備份系統(tǒng),由于重復(fù)的數(shù)據(jù)不參與傳輸和運(yùn)輸,它可以減少傳輸?shù)臄?shù)據(jù)量,加快數(shù)據(jù)傳輸。但由于源端去重需要現(xiàn)在發(fā)送端進(jìn)行查找和刪除重復(fù)數(shù)據(jù),所以會(huì)占用源端機(jī)器資源,進(jìn)而影響源端機(jī)器的應(yīng)用性能。
目標(biāo)端去重即在數(shù)據(jù)的接收端、存儲(chǔ)端,查找并刪除重復(fù)的數(shù)據(jù)。由于目標(biāo)端去重只需要在目標(biāo)端,即服務(wù)器端對(duì)重復(fù)數(shù)據(jù)進(jìn)行查找和刪除,不需要源端進(jìn)行任何去重處理。因此在數(shù)據(jù)傳輸帶寬較高的情況下,目標(biāo)端去重更占優(yōu)勢(shì)。
二、數(shù)據(jù)去重技術(shù)面臨的挑戰(zhàn)
(一)數(shù)據(jù)去重的可擴(kuò)展性尚待提高。隨著數(shù)據(jù)量的不斷增長(zhǎng),數(shù)據(jù)備份系統(tǒng)仍需要應(yīng)對(duì)超大數(shù)據(jù)量這一問(wèn)題。因此如何在多個(gè)存儲(chǔ)節(jié)點(diǎn)之間快速去重仍然是熱點(diǎn)研究問(wèn)題。如何充分利用現(xiàn)有的存儲(chǔ)設(shè)備、建立多層次索引、減少去重開(kāi)銷,快速查找重復(fù)數(shù)據(jù)仍是數(shù)據(jù)去重技術(shù)面臨的最大的問(wèn)題。
(二)如何減少數(shù)據(jù)去重引起的數(shù)據(jù)碎片有待解決。數(shù)據(jù)去重需要?jiǎng)h除多個(gè)文件之間的重復(fù)數(shù)據(jù),首先由于現(xiàn)有大多數(shù)去重方法都傾向于利用數(shù)據(jù)冗余局部性來(lái)緩解數(shù)據(jù)去重過(guò)程中所遇到的磁盤瓶頸,提高數(shù)據(jù)去重吞吐率,但是隨著數(shù)據(jù)碎片逐漸增多,備份數(shù)據(jù)流之間出現(xiàn)的數(shù)據(jù)冗余局部性會(huì)減弱,從而導(dǎo)致依賴數(shù)據(jù)冗余局部性來(lái)緩解數(shù)據(jù)去重中磁盤瓶頸的數(shù)據(jù)去重方法失去其有效性,嚴(yán)重影響數(shù)據(jù)去重的性能。
其次由于數(shù)據(jù)去重的處理,一個(gè)文件產(chǎn)生的大量數(shù)據(jù)碎片將導(dǎo)致一個(gè)文件的讀取需要大量的磁盤1/0,甚至可能每讀取一個(gè)數(shù)據(jù)塊都需要一次磁盤1/0,大大降低了系統(tǒng)的數(shù)據(jù)讀性能。
(三)數(shù)據(jù)去重技術(shù)有待規(guī)范化。數(shù)據(jù)去重方法是否有效性取決于數(shù)據(jù)集中重復(fù)數(shù)據(jù)的特征,目前有很多種數(shù)據(jù)去重方法。然而,要使數(shù)據(jù)去重技術(shù)能廣泛應(yīng)用,無(wú)疑需要對(duì)目前所使用的數(shù)據(jù)去重技術(shù)以及對(duì)應(yīng)數(shù)據(jù)集的特征通過(guò)一個(gè)統(tǒng)一的標(biāo)準(zhǔn)來(lái)規(guī)范,給研究者提供一個(gè)標(biāo)準(zhǔn),給存儲(chǔ)用戶提供規(guī)范的接口,以便于未來(lái)數(shù)據(jù)去重技術(shù)的推廣。
本文通過(guò)探討當(dāng)前數(shù)據(jù)備份系統(tǒng)中的幾種數(shù)據(jù)去重技術(shù)的原理及其優(yōu)缺點(diǎn),分析目前數(shù)據(jù)去重技術(shù)所面臨的挑戰(zhàn),希望能為數(shù)據(jù)備份系統(tǒng)中的數(shù)據(jù)去重技術(shù)做一個(gè)總結(jié)和展望,以期未來(lái)更好的去應(yīng)對(duì)去重技術(shù)面臨的挑戰(zhàn)。
【關(guān)鍵詞】 高速數(shù)據(jù)通信 系統(tǒng)加固技術(shù) 分析 研究
在系統(tǒng)設(shè)計(jì)中數(shù)據(jù)通信是經(jīng)常可見(jiàn)到的,特別是在現(xiàn)代的數(shù)字系統(tǒng)中的影響力已不容忽視,是其中的關(guān)鍵技術(shù)之一。系統(tǒng)加固是由設(shè)計(jì)系統(tǒng)的可靠性的概念而發(fā)展起來(lái)的,與數(shù)據(jù)通信相比,系統(tǒng)加固對(duì)于平常的系統(tǒng)來(lái)說(shuō)是不重要的,但是在星載設(shè)備的設(shè)計(jì)中它的作用是非常重要的。由于航天技術(shù)的飛速發(fā)展,系統(tǒng)加固技術(shù)也日益成為學(xué)者們關(guān)注的重點(diǎn)。
一、高速數(shù)據(jù)通信技術(shù)的發(fā)展現(xiàn)狀
在以前的電路設(shè)計(jì)中比較常用的是并行總線技術(shù),它是以TTL或CMOS電平為基礎(chǔ)的,它的接口比較簡(jiǎn)單,易于實(shí)現(xiàn)。但是隨著設(shè)計(jì)處理機(jī)的復(fù)雜度的加大和數(shù)字技術(shù)的飛速發(fā)展,并行總線技術(shù)也就顯得不靈活,串行總線正在取而代之。串行總線是在發(fā)送數(shù)據(jù)時(shí),運(yùn)用串化的方法將數(shù)據(jù)按照高低位次串在一條數(shù)據(jù)鏈上進(jìn)行發(fā)送,這樣做就使系統(tǒng)互聯(lián)的復(fù)雜度得到了簡(jiǎn)化,使數(shù)據(jù)傳輸?shù)馁|(zhì)量得到了很大程度的提高。但是之前的串行技術(shù)還是會(huì)受到干擾,直到出現(xiàn)了低電壓差分信號(hào)(LVDS),使數(shù)據(jù)傳輸?shù)乃俣扔辛诵碌耐黄?,為高速?shù)據(jù)通信的發(fā)展提供了新的途徑。
二、系統(tǒng)加固技術(shù)的研究現(xiàn)狀
系統(tǒng)加固是通過(guò)加入設(shè)計(jì)或者是改變?cè)?,使系統(tǒng)抵抗核子輻照或者宇宙輻照的功能得到加強(qiáng),使設(shè)備在運(yùn)行時(shí)的穩(wěn)定性增強(qiáng)并且提高設(shè)備的使用壽命的一種技術(shù)。
導(dǎo)致航天電子設(shè)備出現(xiàn)故障的一個(gè)重要的原因就是輻照,它是由于各種宇宙的射線和核爆炸造成的。到目前為止,抗輻照加固技術(shù)的研究主要有兩個(gè)方面:運(yùn)用模型仿真和實(shí)際的實(shí)驗(yàn)驗(yàn)證。我國(guó)雖然很早之前就對(duì)抗輻照加固技術(shù)進(jìn)行了研究,但是由于條件不允許,對(duì)輻照的傷害原理和模型方面以及抗輻照的方法方面研究的較多,而實(shí)際的實(shí)驗(yàn)進(jìn)行的很少。
三、數(shù)據(jù)通信加固的研究
抗輻照系統(tǒng)加固的設(shè)計(jì)催生了數(shù)據(jù)通信加固的出現(xiàn),數(shù)據(jù)通信加固與系統(tǒng)加固的目的是一樣的,都是使系統(tǒng)的穩(wěn)定性增強(qiáng),但是與系統(tǒng)加固相比,通信的加固要簡(jiǎn)單一些,在無(wú)線的應(yīng)用方面主要是運(yùn)用信道編碼使接受的誤碼率降低,在有線的運(yùn)用方面是在傳輸中,改善信道的質(zhì)量,使信號(hào)的傳輸質(zhì)量提高。到目前為止,大多數(shù)的高速數(shù)據(jù)通信實(shí)現(xiàn)同步傳輸?shù)姆绞蕉际沁\(yùn)用信道編碼調(diào)制技術(shù),這樣雖然可以使傳輸?shù)乃俾屎头€(wěn)定性得到很大程度的提高,但是會(huì)使誤碼衍生。
四、輻照和數(shù)據(jù)通信對(duì)系統(tǒng)穩(wěn)定性的影響
4.1 輻照對(duì)系統(tǒng)穩(wěn)定性的影響
太陽(yáng)輻射是空間輻射的主要因素,是由于太陽(yáng)的活動(dòng)造成的,它可以引起電子元件的損傷或者誤翻轉(zhuǎn);銀河宇宙射線也會(huì)對(duì)設(shè)備的電子元件造成損傷或者誤翻轉(zhuǎn);捕獲帶是由地磁場(chǎng)和星際磁場(chǎng)的相互作用造成的,它在太陽(yáng)緩變型時(shí)是很穩(wěn)定的,但是當(dāng)太陽(yáng)發(fā)生爆發(fā)型活動(dòng)時(shí),捕獲帶內(nèi)的粒子會(huì)激增并且爆發(fā),使近地面的衛(wèi)星發(fā)生故障。
4.2 數(shù)據(jù)通信對(duì)系統(tǒng)穩(wěn)定性的影響
在系統(tǒng)的設(shè)計(jì)中大量數(shù)據(jù)和運(yùn)算,需要更高的要求,數(shù)據(jù)通信也變得越來(lái)越重要,甚至影響到系統(tǒng)設(shè)計(jì)的成敗。在分步處理的系統(tǒng)中,傳輸數(shù)據(jù)的質(zhì)量會(huì)影響到下一步的工作,從而影響系統(tǒng)的效果,使系統(tǒng)的穩(wěn)定性受到影響。串行總線使并行總線的缺陷得到了改善,提高了數(shù)據(jù)的傳輸速度和質(zhì)量,提升了傳輸?shù)木嚯x。因此數(shù)據(jù)通信對(duì)系統(tǒng)穩(wěn)定性的影響成了關(guān)鍵的因素。
五、研究的發(fā)展空間
現(xiàn)階段由于技術(shù)條件的限制,我國(guó)對(duì)于高速數(shù)據(jù)通信與系統(tǒng)的加固技術(shù)的研究大多數(shù)只是內(nèi)容方面的研究、分析和設(shè)計(jì),而對(duì)于實(shí)踐經(jīng)歷方面的研究很少,因此在以后的研究中,研究者們應(yīng)該加強(qiáng)實(shí)踐方面的研究。
六、總結(jié)
數(shù)字信息的處理和航天技術(shù)的發(fā)展,使系統(tǒng)設(shè)計(jì)面臨著更大的挑戰(zhàn),更高質(zhì)量、更高速度、更遠(yuǎn)距離的信息傳輸是現(xiàn)代數(shù)據(jù)通信的要求,而系統(tǒng)的穩(wěn)定性也受到了很大的關(guān)注,提高系統(tǒng)加固技術(shù)也是一項(xiàng)非常重要的技術(shù),對(duì)我國(guó)的航空航天事業(yè)等信息事業(yè)的發(fā)展有著很大的影響。
參 考 文 獻(xiàn)
[1] 馮彥君,華更新,劉淑芬. 航天電子抗輻射研究綜述[J]. 宇航學(xué)報(bào),2010,(18):97-98
關(guān)鍵詞 以太網(wǎng)技術(shù);通信數(shù)據(jù)采集;移動(dòng)互聯(lián)網(wǎng)
中圖分類號(hào):TP274 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1671—7597(2013)022-053-1
1 以太網(wǎng)技術(shù)
中國(guó)有超過(guò)三分之一的人口使用互聯(lián)網(wǎng),內(nèi)容消費(fèi)驅(qū)動(dòng)下的網(wǎng)絡(luò)流量正呈線性增長(zhǎng)趨勢(shì)。這為中國(guó)的電信運(yùn)營(yíng)商和數(shù)據(jù)中心帶來(lái)了巨大的挑戰(zhàn):如何快速部署高密度的網(wǎng)絡(luò)設(shè)備,以提供更高的帶寬和新的應(yīng)用,來(lái)滿足互聯(lián)網(wǎng)用戶多樣化的需求;如何應(yīng)對(duì)成本壓力以及更好的實(shí)現(xiàn)用戶流量管控。以太網(wǎng)具有價(jià)格低廉、穩(wěn)定可靠、通信速率高、軟硬件產(chǎn)品豐富、應(yīng)用廣泛以及支持技術(shù)成熟等優(yōu)點(diǎn),已成為最受歡迎的通信網(wǎng)絡(luò)之一。近期的全新10/40 GbE以太網(wǎng)交換解決方案-StrataXGS Trident II系列,則被該公司視作在上述領(lǐng)域取得的空前突破。
2 基于以太網(wǎng)技術(shù)的通信數(shù)據(jù)采集方案體系建立
2.1 體系方案
基于以太網(wǎng)技術(shù)的企業(yè)數(shù)據(jù)采集網(wǎng)絡(luò)是以國(guó)際標(biāo)準(zhǔn)工業(yè)控制系統(tǒng)規(guī)程為構(gòu)架,以局域網(wǎng)和數(shù)據(jù)采集網(wǎng)為依托的實(shí)時(shí)監(jiān)控管理系統(tǒng),采用MIS層/監(jiān)控層/現(xiàn)場(chǎng)層的網(wǎng)絡(luò)體系,系統(tǒng)內(nèi)數(shù)據(jù)傳輸采用安全可靠、技術(shù)成熟的TCP/IP協(xié)議和以太網(wǎng)技術(shù),可直接接入企業(yè)的管理網(wǎng),不需任何網(wǎng)關(guān)轉(zhuǎn)換,實(shí)現(xiàn)數(shù)據(jù)信息的共享。
2.2 系統(tǒng)硬件選擇
系統(tǒng)采用64位微控制器S3C451OB作為硬件設(shè)計(jì)的核心。
備用電源系統(tǒng)。當(dāng)AC220掉電時(shí),將自動(dòng)切換到備用電池供電。可持續(xù)工作8個(gè)小時(shí)。
具有報(bào)警功能。按照設(shè)置的報(bào)警上、下限觸發(fā)報(bào)警功能,并可以及時(shí)上報(bào)到中心(方法有GPRS/CDMA實(shí)時(shí)在線上報(bào)),且報(bào)警出現(xiàn)時(shí)自動(dòng)按較小的間隔時(shí)間記錄監(jiān)測(cè)數(shù)據(jù)。
數(shù)據(jù)存儲(chǔ)時(shí)間間隔可設(shè)置。歷史數(shù)據(jù)存儲(chǔ)間隔時(shí)間1-24小時(shí)設(shè)置,報(bào)警數(shù)據(jù)1-60分鐘設(shè)置。
顯示下端儀器的工作狀態(tài)。數(shù)據(jù)采集儀自帶8個(gè)按鍵、8位數(shù)碼管以及8個(gè)狀態(tài)指示燈。可在現(xiàn)場(chǎng)設(shè)置工作參數(shù)、指示設(shè)備的運(yùn)行狀態(tài)。
AD轉(zhuǎn)換器。10通道,12位分辨率,光電隔離型。
外部通訊接口。RS232/RS485/HART協(xié)議,支持波特率1200-9600 bps。
操作系統(tǒng)。使用實(shí)時(shí)操作系統(tǒng),完成現(xiàn)場(chǎng)數(shù)據(jù)采集、保存與無(wú)線數(shù)據(jù)上報(bào)等任務(wù)。
文件系統(tǒng)。引入了文件系統(tǒng)的技術(shù)對(duì)NandFlash的數(shù)據(jù)存取進(jìn)行管理,大大地提高了歷史數(shù)據(jù)存儲(chǔ)和讀取的性能。
2.3 系統(tǒng)軟件設(shè)計(jì)
在系統(tǒng)的硬件做好之后,通過(guò)JTAG接口,使用H.JTAG調(diào)試軟件和AXD對(duì)系統(tǒng)進(jìn)行調(diào)試。系統(tǒng)的工作方式為,先將程序燒寫入bootloader中,上電后程序首先從main程序入口開(kāi)始執(zhí)行,運(yùn)行Bootloader,通過(guò)變量初始化,將以太網(wǎng)初始化映射到SDRAM中運(yùn)行,然后通過(guò)信號(hào)處理、采集程序來(lái)完成以太網(wǎng)數(shù)據(jù)報(bào)收發(fā),如果數(shù)據(jù)發(fā)生錯(cuò)誤需要重新初始化。
2.4 系統(tǒng)主要功能
數(shù)據(jù)采集、傳輸一體化設(shè)計(jì)。GPRS實(shí)時(shí)在線功耗低,在線平均電流≤10 mA。支持域名解析功能。支持各家組態(tài)軟件和用戶自行開(kāi)發(fā)軟件系統(tǒng)。
3 基于以太網(wǎng)技術(shù)的通信數(shù)據(jù)采集方案的配套措施
3.1 強(qiáng)化采集設(shè)備的管理流程
在信息資源規(guī)劃的基礎(chǔ)上,建立統(tǒng)一信息分類編碼,數(shù)據(jù)項(xiàng)齊全,為將來(lái)發(fā)展需要預(yù)留接口,杜絕手工操作,保證了數(shù)據(jù)的準(zhǔn)確性。實(shí)現(xiàn)結(jié)算單自動(dòng)生成,有效保證結(jié)算質(zhì)量,提高結(jié)算速度。并與財(cái)務(wù)系統(tǒng)進(jìn)行了接口,數(shù)據(jù)操作控制嚴(yán)密,防止了由于操作失誤而引起系統(tǒng)內(nèi)數(shù)據(jù)邏輯錯(cuò)誤。可以監(jiān)測(cè)用戶進(jìn)入、退出系統(tǒng)的時(shí)間、當(dāng)前操作模塊等,每一步增、刪、改都有詳細(xì)的記錄。實(shí)現(xiàn)了與計(jì)算機(jī)IP綁定的功能,大大提高系統(tǒng)信息的安全性與穩(wěn)定性。在公共管理領(lǐng)域,大數(shù)據(jù)將對(duì)政府部門的精細(xì)化管理和科學(xué)決策發(fā)揮重要作用,從而提高政府的服務(wù)水平。輿情監(jiān)測(cè)、交通安防、醫(yī)療服務(wù)等將是公共管理領(lǐng)域重點(diǎn)應(yīng)用領(lǐng)域。在零售行業(yè),對(duì)消費(fèi)歷史數(shù)據(jù)的分析可以使零售商掌握客戶的購(gòu)物習(xí)慣,并實(shí)對(duì)市場(chǎng)動(dòng)態(tài)做出應(yīng)對(duì)。廣告精準(zhǔn)推送、商品促銷策略制定及物流將是大數(shù)據(jù)在零售行業(yè)的主要應(yīng)用領(lǐng)域。用戶體驗(yàn)和用戶黏性對(duì)于互聯(lián)網(wǎng)公司來(lái)說(shuō)是至關(guān)重要的測(cè)評(píng)指標(biāo),面對(duì)當(dāng)今快速增長(zhǎng)的海量互聯(lián)網(wǎng)數(shù)據(jù)和復(fù)雜的網(wǎng)絡(luò)社群關(guān)系,如何從中提取有價(jià)值信息,建用戶模型,針對(duì)不同用戶提供針對(duì)性產(chǎn)品,以此來(lái)提高用戶體驗(yàn),增加用戶黏性,是當(dāng)前互聯(lián)網(wǎng)行業(yè)面對(duì)的主要挑戰(zhàn)之一。社交網(wǎng)站、電商網(wǎng)站將是最需要大數(shù)據(jù)技術(shù)的兩類網(wǎng)站,用戶間關(guān)聯(lián)性和消費(fèi)行為是其關(guān)注的主要方面。
3.2 完善通信數(shù)據(jù)采集的政府管理
相關(guān)政府部門要積極幫助企業(yè)查找在用數(shù)據(jù)采集系統(tǒng)的薄弱環(huán)節(jié),派專門的技術(shù)人員在現(xiàn)場(chǎng)對(duì)數(shù)據(jù)采集系統(tǒng)的配備、管理等方面進(jìn)行指導(dǎo),同時(shí)督促企業(yè)做好數(shù)據(jù)采集系統(tǒng)的自查工作。目前我國(guó)信息化應(yīng)用水平參差不齊,政府不同部門、企業(yè)間都存在“信息孤島”問(wèn)題,阻礙了數(shù)據(jù)互通互聯(lián)。若要推廣大數(shù)據(jù)應(yīng)用,首先要消除“信息孤島”,這就需要政府部門在制定大數(shù)據(jù)發(fā)展戰(zhàn)略時(shí),要將數(shù)據(jù)標(biāo)準(zhǔn)問(wèn)題放在重要地位加以解決。此外,數(shù)據(jù)安全問(wèn)題在大數(shù)據(jù)時(shí)代將更加凸顯,如何解決數(shù)據(jù)安全問(wèn)題,將成為大數(shù)據(jù)能否健康發(fā)展的關(guān)鍵問(wèn)題之一。而加強(qiáng)數(shù)據(jù)安全不僅是技術(shù)問(wèn)題,更牽涉法律問(wèn)題,因此針對(duì)數(shù)據(jù)安全的技術(shù)將成為大數(shù)據(jù)技術(shù)發(fā)展中一個(gè)最重要的分支。
總之,本文首先分析了以太網(wǎng)技術(shù)內(nèi)涵與通信數(shù)據(jù)采集策略,建立了基于以太網(wǎng)技術(shù)的通信數(shù)據(jù)采集方案體系,實(shí)現(xiàn)了多個(gè)功能,最后提出了相關(guān)配套措施。
參考文獻(xiàn)
[1]呂西臣,孫俊杰,等.基于嵌入式技術(shù)的新型高速多通道數(shù)據(jù)數(shù)據(jù)采集系統(tǒng)的研制[J].現(xiàn)代制造技術(shù)與裝備,2012(5):15-18.
[2]代勇,李昌禧.基于嵌入式以太網(wǎng)接口的數(shù)據(jù)采集處理系統(tǒng)[J].微機(jī)發(fā)展,2010,15(5):125-127.
[3]蓋國(guó)強(qiáng).循序漸進(jìn)Oracle數(shù)據(jù)庫(kù)管理、優(yōu)化與備份恢復(fù)[J].人民郵電出版社,2007,2(9):54-56.
[關(guān)鍵詞]數(shù)據(jù)挖掘 時(shí)序回歸算法 交通流量
[中圖分類號(hào)] C37 [文獻(xiàn)碼] B [文章編號(hào)] 1000-405X(2014)-8-210-2
1引言
隨著城市的發(fā)展,城市交通系統(tǒng)趨于智能化、自動(dòng)化、復(fù)雜化,以交通信息的高度集成為基礎(chǔ),將計(jì)算機(jī)技術(shù)、傳感器控制技術(shù)、信息技術(shù)和通信技術(shù)等綜合利用的智能交通體系逐漸完善。信息技術(shù)的發(fā)展使我們對(duì)這個(gè)復(fù)雜系統(tǒng)有了更多的連續(xù)觀察和記錄其動(dòng)態(tài)過(guò)程的可能性。例如,散布在交通網(wǎng)絡(luò)上的視頻檢測(cè)系統(tǒng)、感性線圈、以及紅外線檢測(cè)系統(tǒng)提供了被檢測(cè)路段的實(shí)時(shí)交通流信息;最近幾年迅速發(fā)展的浮動(dòng)車數(shù)據(jù)(即FCD,主要包括安裝在出租車、公交車、和私車上的GPS定位記錄)則更加全面和連續(xù)的提供了整個(gè)交通網(wǎng)絡(luò)的實(shí)時(shí)交通流信息;正在被探索的個(gè)人手機(jī)定位數(shù)據(jù)有著詳細(xì)了解居民出行特征和實(shí)時(shí)檢測(cè)交通流的巨大潛力。這些信息采集手段共同產(chǎn)生了海量的實(shí)時(shí)動(dòng)態(tài)交通信息。隨之帶來(lái)的就是海量交通信息的存儲(chǔ)、管理、分析與共享問(wèn)題。
2數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘技術(shù)就是從大量不完全的隨機(jī)模糊數(shù)據(jù)中提取人類所需要的信息,將信息應(yīng)用于人類的生產(chǎn)實(shí)踐的過(guò)程。需要強(qiáng)調(diào)的是這些信息隱含在數(shù)據(jù)中,人事先不清楚,不了解,但信息的獲取對(duì)于人們的生產(chǎn)實(shí)踐有很大幫助。數(shù)據(jù)挖掘技術(shù)應(yīng)用于交通流量分析一方面可以提取人們出行需求及客流時(shí)空分部信息,掌握客流規(guī)律,進(jìn)行客流預(yù)測(cè);另一方面可以評(píng)價(jià)一個(gè)城市甚至一個(gè)區(qū)域的交通規(guī)劃,為城市建設(shè)提供依據(jù);再者,從技術(shù)層面講,數(shù)據(jù)挖掘技術(shù)已經(jīng)成為多元實(shí)時(shí)動(dòng)態(tài)的交通系統(tǒng)獲取信息源的唯一方法。
數(shù)據(jù)挖掘技術(shù)是基于先驗(yàn)知識(shí)理論,作為前瞻的技術(shù)預(yù)測(cè)一個(gè)活動(dòng)的趨勢(shì),他包括關(guān)聯(lián)分析、聚類分析、分類預(yù)測(cè)、趨勢(shì)分析。關(guān)聯(lián)分析是將數(shù)據(jù)中某兩個(gè)或者多個(gè)變量之間存在的一些重要的隱藏的規(guī)律找出來(lái),找出關(guān)聯(lián)規(guī)則,這些規(guī)則展示屬性值頻繁地在給定數(shù)據(jù)集中一起出現(xiàn)的條件。聚類分析是未定義訓(xùn)練樣本,直接面向源數(shù)據(jù),所有記錄都根據(jù)其相似程度加以歸類。分類預(yù)測(cè)是對(duì)歷史數(shù)據(jù)建立模型,分析其類別屬性,建立分組,再用新數(shù)據(jù)為自變量,獲取因變量的變化趨勢(shì)或值域范圍。趨勢(shì)分析是時(shí)序數(shù)據(jù)挖掘基本內(nèi)容,他利用長(zhǎng)時(shí)序的歷史數(shù)據(jù),尋找活動(dòng)的發(fā)展規(guī)律及趨勢(shì)。
本文利用出租車GPS數(shù)據(jù),選擇時(shí)序回歸算法,通過(guò)分析連續(xù)的出租車GPS浮動(dòng)車數(shù)據(jù),創(chuàng)建數(shù)據(jù)挖掘模型預(yù)測(cè)連續(xù)列,分析其客流量變化特征和客流時(shí)空分布,探討數(shù)據(jù)挖掘技術(shù)的交通流量分析中的應(yīng)用。
3數(shù)據(jù)的采集、處理及結(jié)果
3.1數(shù)據(jù)的來(lái)源及獲取
出租車客流分布可以最直觀的體現(xiàn)一個(gè)城市地面交通系統(tǒng)情況,利用出租車客流時(shí)空分布解決復(fù)雜的城市交通問(wèn)題是一個(gè)快速有效地手段。本節(jié)所用到的數(shù)據(jù)主要是車輛GPS實(shí)時(shí)數(shù)據(jù)信息。原始數(shù)據(jù)表主要保存了出租車上裝配的GPS終端所采集的數(shù)據(jù),這些數(shù)據(jù)包括車牌號(hào)、采集時(shí)間點(diǎn)、經(jīng)度、緯度、車輛狀態(tài)、車速、行車方向、空重車狀態(tài)等。由于每輛車每分鐘采集一次數(shù)據(jù),每輛車每天的數(shù)據(jù)量龐大,同一城市同時(shí)運(yùn)行的出租車達(dá)上萬(wàn)輛,如此海量的數(shù)據(jù)需要利用數(shù)據(jù)挖掘技術(shù)獲取有用信息。
3.2數(shù)據(jù)處理及挖掘技術(shù)實(shí)現(xiàn)
首先利用微軟SQL Server2005創(chuàng)建數(shù)據(jù)庫(kù)項(xiàng)目,根據(jù)數(shù)據(jù)源向?qū)?chuàng)建連接到數(shù)據(jù)庫(kù)服務(wù)器上的數(shù)據(jù)庫(kù)。利用數(shù)據(jù)庫(kù)編程語(yǔ)言對(duì)原始數(shù)據(jù)進(jìn)行篩選、優(yōu)化,然后利用SQL Server提供的時(shí)序回歸算法創(chuàng)建數(shù)據(jù)挖掘模型預(yù)測(cè)連續(xù)列。
原始數(shù)據(jù)篩選、優(yōu)化程序:
INSERT INTO [FCDdata].[dbo].[temp5]
SELECT ROW_NUMBER()over(order by [列 0],[列 3])Num,[列 0],[列 1],[列 2],[列 3],[列 7]
from [FCDdata].[dbo].[2011-8-4src_1TOtxt]
INSERT into [FCDdata].[dbo].[temp6]
SELECT ROW_NUMBER()over(order by b.[列 0],b.[列 3])Num,ID=b.[列 0],O_X=b.[列 1],O_Y=b.[列 2],O_T=b.[列 3]
from [FCDdata].[dbo].[temp5] a ,[FCDdata].[dbo].[temp5] b
where (b.[列 7]='true' and (b.Num=a.Num-1) and b.[列 7]!=a.[列 7])
INSERT into [FCDdata].[dbo].[temp7]
SELECT ROW_NUMBER()over(order by b.[列 0],b.[列 3])Num,ID=b.[列 0],D_X=b.[列 1],D_Y=b.[列 2],D_T=b.[列 3]
from [FCDdata].[dbo].[temp5] a ,[FCDdata].[dbo].[temp5] b
where (b.[列 7]='true' and (b.Num=a.Num+1) and b.[列 7]!=a.[列 7])
INSERT into [FCDdata].[dbo].[temp4]
SELECT ROW_NUMBER()over(order by ID)rn
ID
FROM [FCDdata].[dbo].[temp6]
Group By ID
GO
DECLARE @n AS INT =2;
DECLARE @id AS INT ;
WHILE @n
BEGIN
SELECT @id=ID FROM [FCDdata].[dbo].[temp4] WHERE rn=@n
INSERT into [FCDdata].[dbo].[F20110804]
SELECT ROW_NUMBER()over(order by a.O_T)TripID
,TaxiID=a.ID,O_X=a.O_X,O_Y=a.O_Y,O_T=a.O_T ,D_X =b.D_X ,D_Y =b.D_Y,D_T =b.D_T
FROM [FCDdata].[dbo].[temp6] a inner join [FCDdata].[dbo].[temp7] b on a.Num=b.TripID and a.ID=@id and b.ID=@id;
SELECT @n=@n+1
END
原始數(shù)據(jù)經(jīng)過(guò)篩選優(yōu)化后得到的數(shù)據(jù)排列如下:
其中TripID字段代表的是某一輛出租車在一天內(nèi)載客的次數(shù),TaxiID字段代表的ID編號(hào),O_X、O_Y字段代表出租車在這一趟載客的起點(diǎn)經(jīng)緯度坐標(biāo),O_T字段代表車租車載客起點(diǎn)的時(shí)間點(diǎn),D_X、D_Y字段代表出租車在這一趟載客的終點(diǎn)經(jīng)緯度坐標(biāo)D_X的空重車狀態(tài),D_T字段代表車租車載客終點(diǎn)的時(shí)間點(diǎn),其中時(shí)間全部使用UNIX時(shí)間戳格式,即從1970年1月1日(UTC/GMT的午夜)開(kāi)始所經(jīng)過(guò)的秒數(shù),不考慮閏秒。
3.3實(shí)驗(yàn)結(jié)果
本文隨機(jī)抽取了2011年60多天的出租車數(shù)據(jù),以某交通樞紐站為出租車上下客的位置,利用數(shù)據(jù)挖掘技術(shù)分析預(yù)測(cè)此樞紐站每日不同時(shí)間段的客流量,得到如圖1。
根據(jù)已掌握的65天的浮動(dòng)車數(shù)據(jù)建立了出租車一日內(nèi)不同時(shí)段客流預(yù)測(cè)模型,當(dāng)然,預(yù)測(cè)數(shù)據(jù)只能體現(xiàn)常規(guī)客流情況,不能預(yù)測(cè)特殊時(shí)期的客流變化情況。單日不同時(shí)段的客流模型反映出客流進(jìn)站出現(xiàn)早高峰,出站出現(xiàn)晚高峰,客流高峰時(shí)兩個(gè)小時(shí)的客流量在150輛左右。調(diào)查發(fā)現(xiàn),這與該樞紐站的功能正相關(guān),該樞紐站主要用于城際短途客流與城市客流的交換,該樞紐站主要是商務(wù)客流,早上乘坐長(zhǎng)途車出差到周邊城市,下午返回后乘坐出租車融入城市客流。
4結(jié)論與展望
通過(guò)對(duì)出租車GPS數(shù)據(jù)進(jìn)行分析處理,利用數(shù)據(jù)挖掘技術(shù),得到了城市某樞紐站的客流分析與預(yù)測(cè)結(jié)果,為城市交通規(guī)劃、區(qū)域規(guī)劃、出租車交通管理提供了數(shù)據(jù)支持。數(shù)據(jù)挖掘技術(shù)應(yīng)用于交通流量分析具有可行性,研究結(jié)果可信。本研究成果得到以下的結(jié)論:
(1)通過(guò)數(shù)據(jù)挖掘技術(shù)得到的出租車在樞紐站內(nèi)進(jìn)出站的情況,可以一定程度上反映出租車在交通樞紐站內(nèi)的出行需求,為出租車的調(diào)度提供科學(xué)依據(jù);
(2)通過(guò)出租車的進(jìn)出站時(shí)間分布,可以了解出租車在交通樞紐站的主要服務(wù)對(duì)象,為樞紐站的規(guī)劃及客流預(yù)測(cè)提供依據(jù);
(3)數(shù)據(jù)挖掘技術(shù)可以用于樞紐站內(nèi)其他交通工具的客流預(yù)測(cè),例如長(zhǎng)途汽車、私家車、地鐵等。參考文獻(xiàn)
[1]夏火松.數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)[M].北京:科學(xué)出版社,2004.
[2]胡小文,馮均佳,基于GPS數(shù)據(jù)采集的出租汽車交通運(yùn)行特點(diǎn)研究[J],城市交通,2007.
[3]蘆方強(qiáng),陳學(xué)武,胡曉健,基于公交OD數(shù)據(jù)的居民公交出行特征研究[J],交通運(yùn)輸工程與信息學(xué)報(bào),2010.