前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的計算機大數(shù)據(jù)論文主題范文,僅供參考,歡迎閱讀并收藏。
1.1大數(shù)據(jù)的發(fā)展
通過對大數(shù)據(jù)的匯集、智能分析和挖掘技術,發(fā)現(xiàn)數(shù)據(jù)中的潛在價值信息,幫助人們做出正確決策,這就是大數(shù)據(jù)產業(yè)的利益。國外大數(shù)據(jù)的起步比較早,比較成功的大數(shù)據(jù)應用案例有:商業(yè)龍頭沃爾瑪公司通過對消費者的購物數(shù)據(jù)進行分析,了解顧客的行為喜好,對超市的商品結構進行搭配重置以增加銷售額;亞馬遜公司通過大數(shù)據(jù)構建自己的推薦系統(tǒng),每年可以靠此多收益20%;奧巴馬通過大數(shù)據(jù)分析系統(tǒng)進行數(shù)據(jù)挖掘,用科學的手段獲取選票、募集資金,贏得了總統(tǒng)競選的勝利。相比于國外,國內的大數(shù)據(jù)研究和應用還處于起步和發(fā)展中的階段,比較成功的案例有:淘寶數(shù)據(jù)魔方平臺,通過大數(shù)據(jù),為買家量身打造完善的購物體驗產品;新浪微博大數(shù)據(jù)產品,通過大量的社交數(shù)據(jù),創(chuàng)造不同的社會經(jīng)濟價值等。
1.2云計算的發(fā)展
云計算可以像電力資源一樣提供彈性的按需服務,事實上它是集合了一系列的服務提供給用戶。云計算的核心可分為三個層次,分別為基礎設施層、平臺層、應用層,如圖2所示。云計算將基礎設施、軟件運行環(huán)境、應用程序抽象成服務,具有可靠性高、可用性強、規(guī)??缮炜s等特點,滿足了不同企業(yè)的發(fā)展需求,各個云服務提供商根據(jù)各自服務對象的差別分別開發(fā)了各具特色的云服務。(1)基礎設施即服務層基礎設施即服務(InfrastructureasaService,IaaS)層通過部署硬件基礎設施對外提供服務,用戶可以根據(jù)各自的需求購買虛擬或實體的計算、存儲、網(wǎng)絡等資源。用戶可以在購買的空間內部署和運行軟件,包括操作系統(tǒng)和應用程序。消費者不能管理或控制任何云計算基礎設施,但能控制操作系統(tǒng)的選擇、存儲空間、部署的應用,也有可能獲得有限制的網(wǎng)絡組件(如防火墻、負載均衡器等)的控制。云服務提供商為了使硬件資源得到更有效的利用,引入了Xen、KVM、VMware等虛擬化技術,使得云服務商可以提供更個性化的IaaS服務。亞馬遜彈性云計算(AmazonElasticComputeCloud,AmazonEC2)是亞馬遜Web服務產品之一,AmazonEC2利用其全球性的數(shù)據(jù)中心網(wǎng)絡,為客戶提供虛擬主機服務,讓使用者可以租用云服務運行所需應用的系統(tǒng)。(2)平臺即服務層平臺即服務(PlatformasaService,PaaS)層是指云計算應用程序開發(fā)和部署的平臺,包括應用設計、應用開發(fā)、應用測試和應用托管,都作為一種服務提供給客戶。開發(fā)者只需要上傳代碼和數(shù)據(jù)就可以使用云服務,而無需關注底層的具體實現(xiàn)方式和管理模式。鑒于PaaS平臺的重要意義,國內外廠商根據(jù)各自的戰(zhàn)略提出了相應的PaaS平臺,國外的如GoogleAppEngine(GAE),通過GAE,即使在重載和數(shù)據(jù)量極大的情況下,也可以輕松構建能安全運行的應用程序。國內也有新浪的SAE(SinaAppEngine)、阿里的ACE(AliyunCloudEnginee)等。(3)軟件即服務層軟件即服務(SoftasaService,SaaS)層是為云計算終端用戶提供基于互聯(lián)網(wǎng)軟件應用服務的平臺。隨著Web服務、HTML5、AJAX、Mashup等技術的成熟與標準化,SaaS應用近年來發(fā)展迅速,典型的SaaS應用包括GoogleApps、SalesforceCRM等。國外云計算平臺比較成功的應用案例有:亞馬遜電子商務網(wǎng)站根據(jù)用戶的購買行為和搜索技術搭建Hadoop集群,構建推薦系統(tǒng);Twitter社交網(wǎng)站搭建Hadoop分布式系統(tǒng)用于用戶關聯(lián)的建立。國內云計算平臺的成功案例有:阿里巴巴目前整個集群達到1700個節(jié)點,數(shù)據(jù)容量達到24.3PB,并且以每天255TB的速率不斷攀升;2013年,華為推出國內首個運營云平臺,目前為止與該平臺簽訂協(xié)議的ISV有3000多家。
1.3云計算相關技術
(1)分布式文件系統(tǒng)分布式文件系統(tǒng)(GoogleFileSystem,GFS)[3]是Google公司針對云計算過程處理海量數(shù)據(jù)而專門設計的。一個GFS集群由一個主節(jié)點和多個從節(jié)點組成,用戶可以通過客戶端訪問文件系統(tǒng),進行正常的文件處理工作。在云計算中,海量數(shù)據(jù)文件被分割成多個固定大小的數(shù)據(jù)塊,這些數(shù)據(jù)塊被自動分配到不同的從節(jié)點存儲,并會在多個節(jié)點進行備份存儲,以免數(shù)據(jù)丟失。主服務器管理文件系統(tǒng)記錄文件的各種屬性,包括文件名、訪問控制權限、文件存儲塊映射、塊物理信息等數(shù)據(jù)。正是通過這個表,文件系統(tǒng)可以準確地找到文件存儲的位置,避免數(shù)據(jù)丟失,保證數(shù)據(jù)安全。圖3是GFS的體系結構示意,每一個節(jié)點都是普通的Linux服務器,GFS的工作就是協(xié)調成百上千的服務器為各種應用提供服務。(2)分布式并行數(shù)據(jù)庫BigTableBigTable[4]是一個為管理大規(guī)模結構化數(shù)據(jù)而設計的分布式存儲系統(tǒng),可以擴展到PB級數(shù)據(jù)和上千臺服務器。很多Google的項目使用BigTable存儲數(shù)據(jù),這些應用對BigTable提出了不同的挑戰(zhàn),比如對數(shù)據(jù)規(guī)模的要求、對時延的要求。BigTable能滿足這些多變的要求,為這些產品成功地提供了靈活、高性能的存儲解決方案。BigTable采用的鍵是三維的,分別是行鍵(RowKey)、列鍵(ColumnKey)和時間戳(Timestamp)。行鍵和列鍵都是字節(jié)串,時間戳是64位整型;值是一個字節(jié)串,可以用(row:string,column:string,time:int64)string來表示一條鍵值對記錄。(3)分布式計算框架MapReduceMapReduce[5]是Google公司提出的大數(shù)據(jù)技術計算框架,被廣泛應用于數(shù)據(jù)挖掘、海量數(shù)據(jù)處理以及機器學習等領域,由于其并行化處理數(shù)據(jù)的強大能力,越來越多的廠商根據(jù)MapReduce思想開發(fā)了各自的云計算平臺,其中以Apache公司的Hadoop最為典型。MapReduce由Map和Reduce兩個階段組成。用戶只需要編寫簡單的map()和reduce()函數(shù)就可以完成復雜分布式程序設計,而不用了解計算框架的底層實現(xiàn)。MapReduce的數(shù)據(jù)分析流程如圖4所示。分布在不同服務器節(jié)點上的海量數(shù)據(jù)首先通過split()函數(shù)被拆分成Key/Value鍵值對,map()函數(shù)以該鍵值對為輸入,將該鍵值對進行函數(shù)處理,產生一系列的中間結果并存入磁盤。MapReduce的中間過程shuffle()將所有具有相同Key值的鍵值對傳遞給Reduce環(huán)節(jié),Reduce會收集中間結果,并將相同的Value值合并,完成所有工作后將結果輸出給用戶。MapReduce是一個并行的計算框架,主要體現(xiàn)在不同的服務器節(jié)點同時啟動相同的工作,并且在每個獨立的服務器節(jié)點上又可以啟動多個map()、reduce()并行計算。
2基于云計算的大數(shù)據(jù)處理
目前大數(shù)據(jù)處理的基本流程如圖5所示,整個流程經(jīng)過數(shù)據(jù)源的采集,用不同的方式進行處理和加工,形成標準的格式,存儲下來;然后用合適的數(shù)據(jù)計算處理方式將數(shù)據(jù)推送到數(shù)據(jù)分析和挖掘平臺,通過有效的數(shù)據(jù)分析和挖掘手段,找出大數(shù)據(jù)中有價值的信息;最后通過可視化技術將信息展現(xiàn)給人們。
2.1數(shù)據(jù)采集存儲
大數(shù)據(jù)具有不同結構的數(shù)據(jù)(包括結構、半結構、非結構),針對不同類型的數(shù)據(jù),在進行云計算的分布采集時,需要選擇不同的數(shù)據(jù)采集方式收集數(shù)據(jù),這也是大數(shù)據(jù)處理中最基礎的一步。采集到的數(shù)據(jù)并不是都適合推送到后面的平臺,需要對其進一步處理,例如來源不同的數(shù)據(jù),需要對其進行加載合并;數(shù)據(jù)存在噪聲或者干擾點的,需要對其進行“清洗”和“去噪”等操作,從而保障數(shù)據(jù)的有效性;數(shù)據(jù)的格式或者量綱不統(tǒng)一的,需要對其進行標準化等轉換處理;最后處理生成的數(shù)據(jù),通過特定的數(shù)據(jù)庫,如NoSQL數(shù)據(jù)(Google的BigTable,Amazon的Dynamo)進行存儲,方便進行下一步的數(shù)據(jù)讀取。由于傳統(tǒng)的數(shù)據(jù)倉庫無法適應大數(shù)據(jù)的存儲要求,目前基于云計算的數(shù)據(jù)倉庫都是采用列式存儲。列式存儲的數(shù)據(jù)具有相同的數(shù)據(jù)類型,可以大大提高數(shù)據(jù)的壓縮率,例如華為的云存儲服務MOS(MassiveObjectService)的數(shù)據(jù)持久性高達99.9%,同時提供高效率的端到端保障。
2.2數(shù)據(jù)計算模式
這一環(huán)節(jié)需要根據(jù)處理的數(shù)據(jù)類型和既定目標,選擇合適的計算模型處理數(shù)據(jù)。由于數(shù)據(jù)量的龐大,會消耗大量的計算資源,因此,傳統(tǒng)的計算技術很難使用大數(shù)據(jù)的環(huán)境條件,取而代之的是分而治之的分布式計算模式,具有代表性的幾種計算模式的特點見表1。采用批處理方式計算的Hadoop平臺,例如,F(xiàn)acebook擁有全球最大規(guī)模的Hadoop集群,集群機器目前超過3000臺,CPU核心更是超過30000個,可以存儲的數(shù)據(jù)量能夠達到驚人的40PB;采用流處理方式計算的Storm平臺分布式計算的時延比Hadoop更?。粚崟r處理方式計算的Spark是一種基于內存的計算模式,例如,Yahoo運用Spark技術在廣告營銷中實時尋找目標用戶,目前在Yahoo部署的Spark集群有112臺節(jié)點和9.2TB內存;交互處理方式計算的Dremel在處理PB級別的數(shù)據(jù)時耗時可以縮短至秒級,并且無需大量的并發(fā)。
2.3數(shù)據(jù)分析挖掘
數(shù)據(jù)分析挖掘環(huán)節(jié)是從海量數(shù)據(jù)中發(fā)現(xiàn)隱藏規(guī)律和有價值信息的過程,這個環(huán)節(jié)是大數(shù)據(jù)處理流程最為有價值和核心的部分,傳統(tǒng)的數(shù)據(jù)分析方法有機器學習、商業(yè)智能等。傳統(tǒng)的數(shù)據(jù)挖掘十大算法[6](其中有K-Means、Na觙veBayes、SVM、EM、Apriori等)在云計算環(huán)境下都得到了大幅度的并行優(yōu)化,在大數(shù)據(jù)的背景下,計算速度得到了很大程度的提升?,F(xiàn)在新興的深度學習是原始機器學習的一個新領域,動機是在于建立、模擬人腦進行分析學習的神經(jīng)網(wǎng)絡,它模仿人腦的機制來解釋數(shù)據(jù),這種新的數(shù)據(jù)分析挖掘技術已經(jīng)在計算機視覺、語音識別、自然語言處理等領域有了成功的應用。
2.4數(shù)據(jù)解釋展現(xiàn)
將挖掘出來的復雜信息進行數(shù)據(jù)解釋和展現(xiàn)是整個大數(shù)據(jù)處理流程的最后一個環(huán)節(jié),數(shù)據(jù)分析的結果需要向客戶進行恰當?shù)恼宫F(xiàn)。與傳統(tǒng)的數(shù)據(jù)輸出和文本展示等方式不同,現(xiàn)在絕大部分的企業(yè)都通過引進“數(shù)據(jù)可視化”技術來展示大數(shù)據(jù)分析的結果信息,這種方式以圖像、動畫等方式,形象地向客戶展現(xiàn)數(shù)據(jù)處理分析的結果,也容易被客戶理解和接受,更為先進的是,現(xiàn)在逐步形成的“交互式可視化技術”,大大地方便了數(shù)據(jù)與人之間的“親密交流”。目前面向大數(shù)據(jù)主流應用的可視化技術見表2。
3大數(shù)據(jù)和云計算的未來挑戰(zhàn)
大數(shù)據(jù)需要超大存儲容量的計算能力,云計算作為一種新的計算模式,為大數(shù)據(jù)的應用研究提供了技術支持,大數(shù)據(jù)和云計算的完美結合,相得益彰,發(fā)揮了各自的最大優(yōu)勢,為社會創(chuàng)造了巨大的價值。雖然國內大數(shù)據(jù)和云計算的研究還是處于初步階段,但隨著研究的不斷進行,所面臨的問題也越來越多。在大數(shù)據(jù)向前不斷邁進的階段里,如何讓我們對大數(shù)據(jù)的研究朝著有利于全人類的方向發(fā)展成為了重中之重。
3.1重要戰(zhàn)略資源
在這個信息社會里,大數(shù)據(jù)將會成為眾多企業(yè)甚至是國家層面的重要戰(zhàn)略資源。國家層面要將大數(shù)據(jù)上升為國家戰(zhàn)略。奧巴馬在2012年3月將“大數(shù)據(jù)戰(zhàn)略”上升為最高國策,像陸權、海權、空權一樣,將數(shù)據(jù)的占有和控制作為重要的國家核心能力。大數(shù)據(jù)資源也會成為各種機構和企業(yè)的重要資產以及提升企業(yè)社會競爭力的有力武器。在大數(shù)據(jù)市場里,客戶的各種數(shù)據(jù)信息都會為企業(yè)創(chuàng)造價值,也會在促進消費水平、提高廣告效應等方面扮演重要的角色。
3.2數(shù)據(jù)隱私安全
大數(shù)據(jù)如果運用得當,可以有效地幫助相關領域做出幫助和決策,但若這些數(shù)據(jù)被泄露和竊取,隨之而來的將是個人信息及財產的安全問題得不到保障。2011年索尼公司遭到黑客攻擊,造成一億份客戶資料泄露,經(jīng)濟虧損約1.71億美元。為了解決大數(shù)據(jù)的數(shù)據(jù)隱私安全問題,Roy等在2010年提出了一種隱私保護系統(tǒng),將信息流控制和差分隱私保護技術融入到云計算平臺中,防止MapReduce計算過程中的數(shù)據(jù)泄露問題。在數(shù)據(jù)更新飛速的情況下,如何維護數(shù)據(jù)的隱私安全成為大數(shù)據(jù)時代研究的重點方向。
3.3智慧城市
人口的增長給城市交通、醫(yī)療、建筑等各方面帶來了不小的壓力,智慧城市就是依靠大數(shù)據(jù)和云計算技術,實現(xiàn)城市高效的管理、便捷的民生服務、可持續(xù)的產業(yè)發(fā)展。在剛剛結束的“兩會”的政府工作報告中,總理也特意強調了智慧城市發(fā)展的重要性,目前國家智慧城市試點已遍布全國各地,多達409個。智慧安防、智慧交通、智慧醫(yī)療等都是智慧城市應用領域。智慧城市的建設也趨使大數(shù)據(jù)人才的培養(yǎng)。據(jù)預測,到2015年,大數(shù)據(jù)將會出現(xiàn)約100萬的人才缺口,全球將新增440萬個與大數(shù)據(jù)相關的工作崗位來填補這個空缺。
3.4能源消耗
統(tǒng)計學論文2300字(一):統(tǒng)計學方法的發(fā)展及其在大數(shù)據(jù)中的應用論文
【摘要】現(xiàn)階段,統(tǒng)計學方法在我國企業(yè)管理中有廣泛應用。本文嘗試對統(tǒng)計學方法的誕生以及發(fā)展情況進行了簡要的分析,同時還對統(tǒng)計學方法在現(xiàn)今大數(shù)據(jù)時代的應用情況進行了探索。
【關鍵詞】統(tǒng)計學方法發(fā)展大數(shù)據(jù)應用
對于統(tǒng)計學方法來說,誕生的最初只是為了進行單純的計數(shù)以及描述,隨著統(tǒng)計學方法的不斷發(fā)展,其所涉及到的內容更加多樣化。在統(tǒng)計學家以及各個領域專家的不懈努力之下,統(tǒng)計學方法正在不斷的進步以及完善,在實際應用的過程中也發(fā)揮出了較為理想的效果。在現(xiàn)階段大數(shù)據(jù)的時代背景之下,對統(tǒng)計學進行深入探究是非常重要的,會對今后多個行業(yè)的快速發(fā)展起到促進作用。
一、統(tǒng)計學基本發(fā)展探析
對世界統(tǒng)計學的發(fā)展情況進行分析,會發(fā)現(xiàn),其與科學界的發(fā)展趨勢較為類似,隨著統(tǒng)計學的不斷完善,也開始與其他科學進行融合發(fā)展。對統(tǒng)計學進行總結,可以發(fā)現(xiàn),其主要具備兩個基本結合趨勢,即與實質性學科結合的趨勢以及與計算機學結合的趨勢。對于統(tǒng)計學來說,其與經(jīng)濟學結合發(fā)展我國有廣泛的應用,并且產生了經(jīng)濟統(tǒng)計這一專業(yè);而統(tǒng)計學與教育的結合產生了教育統(tǒng)計。對于這些分支學科來說,其具有雙重屬性。一方面是統(tǒng)計學的分支;另一方面是實質性學科的分支。隨著計算機信息技術的不斷發(fā)展,其運算能力不斷提升,這也使得大規(guī)模的統(tǒng)計調查工作在實際展開的過程中取得了理想效果,不僅保證了數(shù)據(jù)計算的準確性,同時也保證了計算的高效性。因此,在進行統(tǒng)計學技術研究發(fā)展的過程中,與計算機技術的深入結合應用是重要發(fā)展途徑。通過對計算機軟件的有效應用可以使統(tǒng)計計算過程中一些疑難的部分得到有效解決,同時也使得統(tǒng)計計算的展開更加方便。從現(xiàn)階段我國經(jīng)濟類統(tǒng)計專業(yè)的教育情況來看,一方面在對統(tǒng)計方法進行創(chuàng)新教育,另一方面在對學生利用商品化統(tǒng)計軟件包裝能力進行提升。由此我們可以看出,在今后統(tǒng)計學的發(fā)展過程中,勢必不能離開計算機技術的支持。在今后統(tǒng)計學相關專業(yè)的教育過程中,應該對學生的計算機程序設計以及利用能力進行培養(yǎng)提升,使得在展開統(tǒng)計工作的時候可以通過統(tǒng)計模型的編程來實現(xiàn)。
二、統(tǒng)計學方法在大數(shù)據(jù)中的應用趨勢
(一)統(tǒng)計學方法及相關領域的動態(tài)分析
目前,國內外對統(tǒng)計學都有較為廣泛的應用,主要應用在教育行業(yè)、生產制造行業(yè)以及企業(yè)管理當中,取得了較為理想的應用效果。根據(jù)CNKI數(shù)據(jù)庫中統(tǒng)計方法、機器學習分布情況可以看出,在機器學習領域的論文數(shù)量從2013年以后一直呈現(xiàn)出持續(xù)增長的勢頭,并且在2016年超過了統(tǒng)計方法領域的論文數(shù)量。由此可以說明,我國在機器學習領域的發(fā)展速度正現(xiàn)出穩(wěn)定提升的趨勢,反映了我國在大數(shù)據(jù)領域研究方面越來越深入,所應用的研究方法也開始呈現(xiàn)出多樣化的特點。從總體上來看國內在統(tǒng)計學方法研究過程中已經(jīng)取得了階段性的成果,并且其所面臨的拐點與國家上的統(tǒng)計學發(fā)展拐點基本保持一致,大概都是在2013年開始對大數(shù)據(jù)以及將其學習等方面有了深入的探究,并且開始逐漸取得突破性的成果。而機器學習方法的論文數(shù)量都是在2016年開始超過統(tǒng)計方法的論文數(shù)量。但是與此同時,我們也看出其差異性也很明顯,國內在統(tǒng)計方面研究的論文以及在機器學習方法方面研究的論文與國際相比較尚且存在較為明顯的差距,并且這種差距呈現(xiàn)出了持續(xù)性的特點,這也使得我國在這兩個領域方面還有很大的發(fā)展空間。
(二)統(tǒng)計學方法及相關領域研究方向分析
經(jīng)過對CNKI數(shù)據(jù)庫中的統(tǒng)計方法以及大數(shù)據(jù)領域期刊論文分布情況進行分析之后,可以看出,統(tǒng)計方法領域中出現(xiàn)頻次最高的是“統(tǒng)計分析”以及“數(shù)理統(tǒng)計”、“人工智能”;在大數(shù)據(jù)領域出現(xiàn)頻次較高的是“云計算”、“圖書館”以及“物聯(lián)網(wǎng)”等關鍵詞。通過上述關鍵詞來看,其所涉及到的內容都是反映當前我國統(tǒng)計以及大數(shù)據(jù)技術所研究的重點以及熱點,同時我們也可以看出,現(xiàn)階段我國在統(tǒng)計與大數(shù)據(jù)領域方向的研究存在著一定的重合。在進行的數(shù)據(jù)研究的時候,需要應用到統(tǒng)計學方法,同時統(tǒng)計學方法在利用的時候往往也需要與大數(shù)據(jù)進行結合。
(三)統(tǒng)計學方法的發(fā)展展望
有數(shù)據(jù)的地方勢必就會涉及到統(tǒng)計學。從17世紀開始,國勢學派以及算數(shù)學派的爭論到今天大數(shù)據(jù)計算、計算機技術的相互作用,使得統(tǒng)計學的內容正在不斷完善,并且其應用領域也在不斷擴大,隨著大數(shù)據(jù)時代的來臨,使得傳統(tǒng)的統(tǒng)計學發(fā)展方向發(fā)生了一定轉變,開始從小樣本的統(tǒng)計推斷分析走向大數(shù)據(jù)量的挖掘分析,從而使其所掌控的數(shù)據(jù)量不斷提升。在未來統(tǒng)計學方法發(fā)展的過程中,應該注意將統(tǒng)計學與新的數(shù)據(jù)思維相結合,從而產生一種新型的、應用范圍更廣的大數(shù)據(jù)算法。從現(xiàn)階段我國大數(shù)據(jù)方法創(chuàng)新發(fā)展的情況來看,其與國際研究在深度以及廣度上還存在不小的差距,這也恰恰說明了我國在大數(shù)據(jù)統(tǒng)計學方面還有很大的進步空間?,F(xiàn)階段,國內的大數(shù)據(jù)研究更多的是停留在信息化產業(yè)上,與其他行業(yè)的融合發(fā)展趨勢尚且不明顯,這也使得信息服務以及數(shù)據(jù)產業(yè)的創(chuàng)新發(fā)展受到了一定影響。在今后統(tǒng)計學發(fā)展的過程中,其研究熱點勢必會從數(shù)據(jù)分析以及數(shù)據(jù)發(fā)掘向算法方向轉移,這樣也使得大數(shù)據(jù)技術與統(tǒng)計學方法二者之間的聯(lián)系更加緊密。
結束語
綜上所述,我國統(tǒng)計學方法在今后發(fā)展過程中應該充分考慮到實際需求,積極適應時代變化,現(xiàn)階段大數(shù)據(jù)時代已經(jīng)全面到來,并且大數(shù)據(jù)技術在我國有廣泛應用,在實際應用的過程中取得了較為理想的效果。將大數(shù)據(jù)與統(tǒng)計方法進行結合可以使統(tǒng)計學方法的作用得到更好的體現(xiàn),也使得統(tǒng)計學方法不斷的進步以及拓展,在大時代背景之下,其功能性得到了更加充分的展現(xiàn)。
統(tǒng)計學畢業(yè)論文范文模板(二):線上線下混合式教學在生物統(tǒng)計學教學中的實踐與研究論文
[摘要]為提升生物統(tǒng)計學課程的教學水平,針對傳統(tǒng)生物統(tǒng)計學教學中的局限,分析和實踐基于線上網(wǎng)絡教學+線下面授教學的混合式教學模式在生物統(tǒng)計學教學中的應用策略和方法。實踐表明,通過線上+線下的互動與教學,能激發(fā)學生學習的興趣與動力,豐富生物統(tǒng)計學的教學形式與內容,促進生物統(tǒng)計學教學質量的提升。
[關鍵詞]線上線下;混合式教學;生物統(tǒng)計學;實踐
[作者簡介]嚴明(1981—),女,重慶人,博士,講師,研究方向:生物技術。
[中圖分類號]G642[文獻標識碼]A[文章編號]1674-9324(2020)25-0273-02[收稿日期]2020-03-18
生物統(tǒng)計學是生物醫(yī)學類專業(yè)的必修課程,學生通過學習本課程掌握實驗設計的原理和方法,并學會對實驗數(shù)據(jù)進行統(tǒng)計分析和處理。然而,生物統(tǒng)計學涉及到大量基礎理論,單純通過教師講解,學生理解度較低,學習效果不佳。如何在有限的課時內,改革傳統(tǒng)的以講授為主的教學方式,有效提高教學效果是生物統(tǒng)計學教學亟待解決的難題。
近年來,隨著互聯(lián)網(wǎng)信息技術的發(fā)展,一種基于線上網(wǎng)絡教學+線下面授教學的混合式教學模式應運而生。該模式可避免傳統(tǒng)教學模式中以教師為主導,學生學習主動性差的缺點,又可克服學生完全在線學習缺乏監(jiān)管、學習效果不佳的困難。本文嘗試將混合式教學方法運用到生物統(tǒng)計學教學中,以期在有限的教學時間內最大限度實現(xiàn)教學目標,提升課程教學效果。
一、線上線下混合式教學的概念及內涵
線上線下混合式教學是一種新興的教學模式,授課教師利用網(wǎng)絡教學平臺向學生提供教學視頻和課件等教學資源,并設置作業(yè)、調查等互動模塊,學生利用課外時間自主完成學習任務,并通過平臺與教師交流。在線下課堂,教師根據(jù)學生在線學習的情況,對疑難問題進行有針對性的講授,幫助學生理解、掌握教學難點。
線上線下混合教學模式打破了教學的時空限制,學生可以靈活安排學習時間,通過學習在線資料提出問題,并帶著問題進行課堂學習,有效提升學習效率。線上線下混合教學還可幫助教師動態(tài)掌握學生學習情況,生成客觀的過程性評價材料,并豐富課程的教學形式,拓寬教學路徑,因此正逐漸成為高等教育領域的一大趨勢。
二、生物統(tǒng)計學課程教學面臨的困境
1.教學時長受限。目前,本校生物統(tǒng)計學面向生物醫(yī)學工程和醫(yī)學信息工程專業(yè)開設,每學期共32個課時。由于教學內容抽象,而且學生要通過大量實踐才能掌握統(tǒng)計學原理在生物研究中的應用,因此,教學難度高,課堂教學時間很難滿足教學需求。
2.教與學不同步。傳統(tǒng)教學模式下,教師與學生之間的溝通以課堂為主,教師按照教學安排按部就班地進行教學,對學生需求重視不足;學生缺乏主動反饋的意識,教師很難掌握學生的真實學習狀況,教與學處于不同步狀態(tài)。
上述困境對如何拓展教學時間,完成課程教學并指導學生學以致用提出了新的挑戰(zhàn)。
三、線上線下混合式教學在生物統(tǒng)計學教學中的實踐探究
1.構建線上教學平臺,實現(xiàn)課前線上自主學習。授課教師首先以超星泛雅平臺和學習通APP為依托構建線上教學平臺。教師在平臺上將課程每章的重難點列示出來,搭建課程框架體系,并上傳包括課件和教師根據(jù)課程知識體系錄制的教學視頻等資料。教學視頻時長控制在15分鐘以內,并保證精煉、易懂,讓學生不會因視頻過長而放棄觀看,提高學習時效。同時,在教學平臺提供視頻配套的課件資料,方便學生下載并配套觀看。教師還在平臺設置了視頻彈幕問答和闖關式章節(jié)測試,學生通過答題和測試后才能進入后續(xù)章節(jié)的學習。
在教學實踐中發(fā)現(xiàn),線上教學平臺還可以為理論教學提供良好的拓展實踐平臺。教師可以在線上平臺提供實驗設計及實驗數(shù)據(jù)分析的實例供學生練習,實現(xiàn)對課時壓縮的有效彌補。學生普遍反映網(wǎng)絡教學平臺十分有利于自主學習,尤其是遇到知識難點時,學生可以通過反復線上觀看教學視頻來幫助理解,能達到較好的學習效果。
此外,線上教學平臺可以通過視頻回放次數(shù)、測試完成程度等數(shù)據(jù)統(tǒng)計幫助教師了解學生之間的差異性,既方便教師掌握學生學習狀態(tài),分析存在的問題,也為線下課堂教學提供依據(jù),在后續(xù)教學中因材施教,滿足不同層次學生的個性化學習需求提供依據(jù)。
2.線下檢測自主學習效果,實施針對性教學。采用線上線下混合模式教學,課堂教學的任務發(fā)生轉移。教師要集中精力對知識點進行梳理和歸納,并針對重難點以及學生在線上學習過程中的困難進行答疑解惑和查漏補缺。在教學實踐中,為完成上述任務,在每個章節(jié)的線上學習完成后均安排答疑和小組討論,讓每位學生通過多種方式修正和完善遺漏或理解錯誤的知識點。全部授課結束后,授課教師向學生發(fā)放了關于教學效果的調查問卷,結果顯示,78.2%(18/23)的學生認為采用混合式教學方法可以把重要知識點學透,在課堂上有更充裕的時間進行消化吸收,更有利于教學內容的掌握。
在線下教學中,教師還對教學場景進行了編排和優(yōu)化。教師提供具體的實驗案例,并以某一具體實驗案例(如抗癌藥物篩選)為背景貫穿整個課程教學始終,模擬真實實驗場景,讓學生從實驗參與者的角度設計實驗流程、整理實驗數(shù)據(jù)、統(tǒng)計分析和解讀呈現(xiàn)的全部流程。幫助學生實踐生物學研究提出假說—實驗驗證—得出結論的基本流程,理解生物統(tǒng)計學對生物學研究的重要指導作用,培養(yǎng)學生知識遷移、應用和分析并解決科學問題的能力。
3.課后回顧學習并提升。在課堂教學完成后,師生的教學活動都還沒有結束。教師要對線上線下教學過程中容易出現(xiàn)的問題進行整理總結,并將解決方案到網(wǎng)絡平臺,供學生回顧性學習。學生要對課堂上遇到的問題,搜集學習資料進一步思考和鞏固。教師還要對學生課后學習情況進行挖掘,并根據(jù)學生的不同情況進行個性化的學習支持。對于有困難的學生,教師要單獨輔導和監(jiān)管,幫助學生完成課程學習;對于學有余力的學生,可以鼓勵學生走進實驗室,跟隨教師的科研工作,完成真正的動手實踐,實現(xiàn)素質提升。最終通過師生配合,完成對課程教學效果的提升。
4.教學考核。由于教學形式發(fā)生變化,課程的教學考核模式也要隨之做出調整和改變。在實踐中,教師改變傳統(tǒng)的期末考核模式,充分利用線上線下教學記錄,實現(xiàn)全過程考核??荚嚦煽儼W(wǎng)絡平臺學習考核(25%)、線下課堂表現(xiàn)(25%)和期末閉卷考試(50%)三部分。其中網(wǎng)絡平臺學習考核由系統(tǒng)根據(jù)學習時間、頻率以及測試情況生成;課堂表現(xiàn)根據(jù)學生聽課及參與討論情況,綜合學生互評和教師考核給分。上述考核方式,降低了期末考試在總成績中的比重,更加側重于學生的平時學習積累和實踐能力的培養(yǎng)。因此,可避免學生“突擊考試”的僥幸心理,促進學生向平時主動學習轉變,更符合現(xiàn)代教學模式和人才培養(yǎng)的需求。
1 前言
信息管理與信息系統(tǒng)專業(yè)雖然屬于管理學,但其主干學科包括計算機科學與技術、經(jīng)濟學、管理學等三個,該專業(yè)的綜合性、實踐性很強,但是目前各高校該專業(yè)的實踐教學體系不完備,還未自成一家、各具特色,以致畢業(yè)生實踐能力不突出,特色彰顯不夠,就業(yè)競爭力不強,培養(yǎng)應用型人才是當務之急,核心是要培養(yǎng)學生的應用能力、創(chuàng)新能力和工程素養(yǎng)。要達到本目標,就要大力加強和完善實踐教學環(huán)節(jié),建立多層次、一體化的實踐教學體系。
曲靖師范學院信息管理與信息系統(tǒng)專業(yè)從2008年開辦至今,已經(jīng)培養(yǎng)5屆學生,一直以來,我們不斷加強和完善該專業(yè)的實踐教學環(huán)節(jié),形成了四位一體的實踐教學體系,取得了良好的效果。
2實踐教學體系的“硬件位”
實踐教學體系的“硬件位”強調實驗室建設。實驗室是開展教研的硬件基礎,沒有這個基礎,一切教研工作就是空中樓閣。我們一直重視信息管理與信息系統(tǒng)專業(yè)的實驗室建設。采購實驗設備的指導思想是實驗設備要先進、實用,充分滿足學生的學習和教師的教學科研的需要。
該專業(yè)已經(jīng)建成硬件實驗室有2個:計算機組成原理實驗室、計算機組裝與維護實驗室,通信與網(wǎng)絡實驗室有2個:計算機通信實驗室、計算機網(wǎng)絡實驗室,信息管理類的實驗室有3個:數(shù)字庫應用實驗室、信息管理與軟件實驗室、信息技術創(chuàng)新實驗室。同時為適應當今云計算、大數(shù)據(jù)的大趨勢,我們投資200多萬建立了云計算平臺。
這些實驗室的更新及新建,能充分滿足學生的學習和教師的教學及科研的需要。
3實踐教學體系的 “抓手位”
專業(yè)技能訓練提升學生實踐能力的抓手,在學生的整個大學四年期間,為了在不同學期提升學生的綜合實踐能力,我們開展了貫穿大學4年的專業(yè)技能訓練。
專業(yè)技能訓練是實踐教學體系的抓手,專業(yè)技能訓練的目的是根據(jù)訓練大綱,我們應以項目為驅動來創(chuàng)新該專業(yè)的實踐教學體系[1],提升學生應具備的專業(yè)素養(yǎng)和能力,形成幾大子抓手,再作專項的打造。
我院的專業(yè)技能訓練主要包括兩個級別,一是課程設計訓練,本訓練以課程為依托,制定課程級別的訓練大綱和測試方案;二是綜合設計訓練,訓練學生綜合能力,要求學生能靈活應用所學課程,完成一個綜合性、設計性項目。
3.1 課程設計訓練
“課程設計”一個多義詞詞條。它可以指“為掌握某一課程內容所進行的設計”[2]。課程設計是課程實驗的高級環(huán)節(jié),課程實驗是提升學生立體實踐能力的根本,課程實驗分為驗證性實驗、綜合性實驗和課程設計實驗,我們在傳統(tǒng)驗證性實驗的基礎上開展課程設計實驗,提升學生的課程綜合實踐能力。
信息管理與信息系統(tǒng)專業(yè)的核心課程有6門,分別是:Java程序設計、管理信息系統(tǒng)、數(shù)據(jù)庫原理、計算機網(wǎng)絡及實驗、管理學、經(jīng)濟學。我們針對這些課程,在編寫實驗大綱時,就要求編寫課程對應的課程設計,設計方案要經(jīng)過教研室的審核和信息工程學院教授委員的討論及審定。以審定通過的課程設計為依托,為后續(xù)綜合實踐能力的提升打下堅實的基礎。
以《Java程序設計》課程設計為例,課程設計的目的:利用Java語言的語法特性,結合數(shù)據(jù)結構算法、網(wǎng)絡知識、文件處理和數(shù)據(jù)庫等知識完成綜合題目的設計和代碼實現(xiàn),并培養(yǎng)鍛煉分析程序、撰寫報告等能力。
3.2 綜合設計訓練
綜合設計訓練的目的是鍛煉學生綜合所學知識,設計和開發(fā)一個小項目的能力。這些項目有“ERP企業(yè)應用”、“Oracle運維管理”、“大數(shù)據(jù)管理”、“Java Web開發(fā)”等,這些小項目的訓練要基于幾門課的知識和技能,如“Java Web開發(fā)”就需要學生綜合數(shù)據(jù)庫、數(shù)據(jù)結構、軟件工程、計算機程序設計等知識與技能。
綜合設計訓練要與畢業(yè)設計區(qū)別開來,此訓練的主要目的是讓學生體驗和掌握項目開發(fā)流程,同時鍛煉綜合應用所學課程來完成一個具體的小項目。
3.3 信息管理與信息系統(tǒng)專業(yè)技能訓練安排
為鼓勵學生多渠道獲得技能分,我們規(guī)定,學生在校期間,通過全國計算機技術與軟件專業(yè)技術資格(水平)考試的中級資格、全國計算機等級考試的四級證書、思科(微軟、ORACLE、華為、H3C或銳捷)的工程師級別認證、中級會計師,可獲得3個學分;通過全國計算機技術與軟件專業(yè)技術資格(水平)考試的高級資格、思科(微軟、ORACLE、華為、H3C或銳捷)的高級工程師級別認證,可獲得4個學分。
4實踐教學體系的“信息系統(tǒng)開發(fā)能力位”
本專業(yè)的學生要求具體一定和信息系統(tǒng)開發(fā)能力,該能力通過畢業(yè)論文(設計)來煉成。畢業(yè)論文(設計)是教學過程的最后階段采用的一種總結性的實踐教學環(huán)節(jié)。通過畢業(yè)設計,學生可以綜合應用所學的各種理論知識和技能,進行全面、系統(tǒng)、嚴格的技術及基本能力的練習。[3]畢業(yè)論文(設計)是實踐教學體系的技能整合,我院對畢業(yè)論文(設計)作重大改革,著力打造學生綜合實踐能力
參加畢業(yè)論文(設計)的學生分兩部分,一部分在公司實習,同時要在公司完成畢業(yè)設計工作,余下的學生在校內完成畢業(yè)論文工作,為提高畢業(yè)論文(設計)的質量,經(jīng)向教務處請示,允許我院結合專業(yè)實踐性強的實際,改革本專業(yè)畢業(yè)論文(設計)工作。改革思路包括三點,一是我院學生的畢業(yè)論文(設計)以畢業(yè)設計為主,弱化對學生文本的要求,強化對實踐動作能力的提升和檢查,二是做好規(guī)范管理工作,制定相關文件,如:“信息工程學院畢業(yè)論文(設計)工作規(guī)定”、 “信息工程學院畢業(yè)設計開發(fā)文檔的撰寫與打印規(guī)范” 、“信息工程學院畢業(yè)設計開發(fā)文檔”等。
5實踐教學體系的“校企合作位”
為提升學生的實習水平,滿足用人單位的需求。我們自2013年開始,與四川華迪信息技術有限公司開展畢業(yè)實習合作,該公司是一家集軟件外包、信息服務、學生專業(yè)技能培訓為一體的軟件公司,在全國小有名氣。學生參加校企合作實習有兩種類型,一是為期三個月的專業(yè)實習,二是為期四個月的就業(yè)培訓。三個月的專業(yè)實習分為軟件開發(fā)方向和網(wǎng)絡方向,軟件開發(fā)實訓重點是提升學生的軟件開發(fā)實踐能力和水平,網(wǎng)絡方向的實訓重點是提升學生的網(wǎng)絡設計、實施、部署能力。
從2013年開始,每年大概有一半的學生參加校企合作的實習,取得了良好效果,學生的專業(yè)實踐能力提升了,就業(yè)質量明顯提高,很多學生就在四川成都就業(yè)、創(chuàng)業(yè)。
關鍵詞 大數(shù)據(jù)應用背景 超級計算機 數(shù)據(jù)處理
在電子信息技術的推動下,大數(shù)據(jù)已成為了當代潮流前線的主流技術,所謂大數(shù)據(jù),從狹義上理解主要是指各種大規(guī)模的數(shù)據(jù),具體來說是指難以在既定的時間范圍內使用常規(guī)軟件以及技術進行收集、統(tǒng)計、儲存以及管理的數(shù)據(jù)集合,必須通過新型處理模式才可將其決策力、洞察力、發(fā)現(xiàn)力以及流程化進行充分發(fā)揮、具有規(guī)模大、復雜程度高、實時性強、高增長率以及多元化等特征的信息資產。由此可見,大數(shù)據(jù)是一種不同于傳統(tǒng)數(shù)據(jù)的信息化數(shù)據(jù)資產,僅僅應用傳統(tǒng)的軟件或工具進行統(tǒng)計或管理是難以顯效的,我們必須針對大數(shù)據(jù)的特征以及需求設計一款超級計算機,用于滿足大數(shù)據(jù)的計算需求。
通過超級計算機來構建大數(shù)據(jù)處理中心,是現(xiàn)階段最為主流的應用趨勢。相比于傳統(tǒng)計算機來說,超級計算機在性能方面具有顯著優(yōu)勢,可以為大數(shù)據(jù)提供高效的計算以及處理服務。超級計算機早在二十世紀七十年代初就已被很多國家作為了一種戰(zhàn)略性資源而進行使用,在國家經(jīng)濟建設、國防安全、社會發(fā)展、科學研究等方面得到了廣泛的應用,并作出了極大的貢獻,因此現(xiàn)階段,超級計算機技術基本已經(jīng)成為了衡量國家科技水平以及國防力量的重要指標之一。天河二號超級計算機是由我國國防科學技術大學研制而成的,它實現(xiàn)了每秒鐘三點山九億億次的浮點運算速度,并以此成績蟬聯(lián)五次奪得全球運行速度最快超級計算機獎項。但是,超級計算機雖然具有如此高效的運行速率,它仍然只能在自己所擅長的以科學與工程運算為主的領域中發(fā)揮作用,例如一些計算密集型的任務中。此外,超級計算機具有計算模式單一的特點,它的處理過程通常由批量處理計算、流式運算、迭代運算、圖運算等數(shù)據(jù)密集型運算方式組成,因此傳統(tǒng)上的超級計算機很難直接被應用在大數(shù)據(jù)的計摘 要 在大數(shù)據(jù)應用時代背景當中,超級計算機迎來了前所未有的挑戰(zhàn),這些挑戰(zhàn)主要體現(xiàn)在數(shù)據(jù)的計算、存儲、通信以及編程方面,因此基于大數(shù)據(jù)的實際特征以及需求來設計一個超級計算機系統(tǒng)是十分有必要的。本文圍繞如何基于大數(shù)據(jù)特征以及需求進行超級計算機設計、大數(shù)據(jù)時代應用背景下編程模型的設計兩個方面展開討論,對大數(shù)據(jù)應用背景下的超級計算機設計進行了分析,并提出了一些筆者自己的見解,希望能夠對大數(shù)據(jù)應用背景下的數(shù)據(jù)處理問題提供一些對策建議。
關鍵詞 大數(shù)據(jù)應用背景 超級計算機 數(shù)據(jù)處理算以及處理中。
1如何基于大數(shù)據(jù)特征以及需求進行超級計算機設計
顯而易見,大數(shù)據(jù)的出現(xiàn)給人類技術帶來了極大的挑戰(zhàn),而超級計算機具有十分強大的計算能力以及極其高效的數(shù)據(jù)處理能力,它將海量的信息高度集中在自己的系統(tǒng)當中,并通過工具媒介、數(shù)據(jù)存儲等多元化角度對這些龐大的數(shù)據(jù)進行處理、分析以及應用,由此可見,不同的超級計算機在對信息處理以及計算時所呈現(xiàn)出的性能水平也是有所差異的。我們之所以要通過超級計算機來實現(xiàn)高性能數(shù)據(jù)計算,主要目的就在于提升數(shù)據(jù)計算效率,并通過對大數(shù)據(jù)的應用來增強通信效率。在本文中,筆者將圍繞硬件和軟件兩個層面來設計大數(shù)據(jù)應用背景下的超級計算機。
1.1硬件體系結構
信息量大以及操作簡單是大數(shù)據(jù)應用的顯著特征,大數(shù)據(jù)應用能夠確保計算指令維持在一個相對來說較低的狀態(tài),實際上間接增加了數(shù)據(jù)訪問所需的成本,由此可見,在使用超級計算機管理大數(shù)據(jù)的過程中主要存在的問題在于數(shù)據(jù)吞吐率與數(shù)據(jù)計算效率之間的失衡性。針對這一問題,我們可以重點以兩個切入點進行解決,一是針對片上緩存實施徹底優(yōu)化處理。大數(shù)據(jù)應用指令等級相對較低,跳轉頻率較高,且不具備充分的局部性,再加上大數(shù)據(jù)通常只能使用一次,我們可以基于上述特點來降低指令緩存,并構建一個連接處理器與二級緩存的通道,以確保數(shù)據(jù)吞吐率與計算效率之間的失衡狀態(tài)得到相對改善;二是提高大數(shù)據(jù)計算能力。在大數(shù)據(jù)的影響下,信息逐漸呈現(xiàn)出高密集化狀態(tài),這使得傳統(tǒng)的處理器已無法滿足信息處理需求。因此必須通過超級計算機來部署一個具備良好實時性的處理器,其中異構并行處理器是一項很好的選擇,具體來說,也就是把R檔募鈾倨韉既脛鐐ㄓ么理器核心當中,在加速器的推動作用下,使數(shù)據(jù)處理過程中能夠實現(xiàn)數(shù)據(jù)并行的效果。大數(shù)據(jù)應用過程中,對于數(shù)據(jù)的處理頻率相對較高,因此必須想方設法改善節(jié)點計算效率并強化通信效率。顧名思義,大數(shù)據(jù)就是代表龐大的數(shù)據(jù)信息量,因此相應的儲存模式也較為復雜,種類繁多,其中最為常見的數(shù)據(jù)儲存模式為集中式存儲模式以及分布共享式存儲模式。為了較好地應對大數(shù)據(jù)通信頻率較高這一問題,必須通過合理的手段來提高節(jié)點與節(jié)點或與設備之間的連接效率以及。對上文內容進行總結后得知,要想有效解決大數(shù)據(jù)應用中存在的問題,其中最關鍵的環(huán)節(jié)在于加大互聯(lián)通信技術層面的研究開發(fā)力度,提高在節(jié)點連接效率優(yōu)化方面的研究力度,一般可以通過兩種方式來實現(xiàn),一種為研發(fā)一款軟硬件結合的多借口網(wǎng)絡芯片,另一種為通過光互連技術來改善數(shù)據(jù)傳送過程中的問題。
1.2硬件體系架構
在大數(shù)據(jù)中包含著海量的結構化數(shù)據(jù)、非結構化數(shù)據(jù)以及半結構化數(shù)據(jù)。這三種數(shù)據(jù)類型對應的存儲方式也各不相同,結構化數(shù)據(jù)通常使用數(shù)據(jù)庫結構實現(xiàn)存儲,而非結構化以及半結構化數(shù)據(jù)的存儲則更多地以依靠于不同文件與系統(tǒng)之間的協(xié)調與配合來實現(xiàn)。數(shù)據(jù)處理與數(shù)據(jù)計算是兩個完全不同的過程,在數(shù)據(jù)計算的過程中,當數(shù)據(jù)加載已經(jīng)結束時,則需要對各系統(tǒng)之間的交互頻率進行合理地調整和控制,所以說應該選擇單一的分布式文件系統(tǒng)來實現(xiàn)。而針對大數(shù)據(jù)的處理方式則相對來說更為豐富,同時也更加復雜,其中使用頻率最高的數(shù)據(jù)處理方式有圖處理以及批處理兩種,這樣據(jù)必須得到不同文件與系統(tǒng)之間的良好配合已結支持。由此可見,在設計超級計算機時,單一的文化系統(tǒng)完全不能滿足計算機運行需求,應將多種文件組合在一起進行超級計算機系統(tǒng)的設計。
通過對非結構化數(shù)據(jù)的存儲模式進行深入研究后可以發(fā)現(xiàn),它所使用的存儲結構通常為分布式文件系統(tǒng)。為了能夠進一步提升大數(shù)據(jù)的處理效率,Google對大數(shù)據(jù)儲存的文件系統(tǒng)進行了一定的創(chuàng)新,在原有基礎上設計了一款具有擴展功能的GFS文件系統(tǒng),創(chuàng)新后的文件系統(tǒng)在對應用層的運用下實現(xiàn)了對控制流以及數(shù)據(jù)量進行分離的目的,可以說是一個真正意義上的分布式文件系統(tǒng),即使面對規(guī)模龐大的數(shù)據(jù)信息,該文件系統(tǒng)也能夠實現(xiàn)高校的儲存以及處理。GFS文件系統(tǒng)由以下三個基本部分構成,分別為若干塊服務器、單一的主控服務器以及客戶端。本論文以GFS文件系統(tǒng)為出發(fā)點,對目前已研發(fā)上市且具有代表意義的阿里巴巴分支ADFS系統(tǒng)進行了分析。在阿里巴巴的ADFS系統(tǒng)中,主要針對HDFSNameNode在使用過程中暴露出來的單點故障以及內存不足等一系列問題實施優(yōu)化,工作原理主要為將內存中不屬于熱點范圍內的數(shù)據(jù)轉移至外部數(shù)據(jù)庫當中,通過這種方式來緩解NalneNode所承受的內存壓力,從而提升數(shù)據(jù)的處理質量以及效率。而在對半結構化數(shù)據(jù)以及結構化數(shù)據(jù)進行研究后發(fā)現(xiàn),半結構化數(shù)據(jù)以及結構化數(shù)據(jù)在存儲方式上有著十分顯著的共性特征,他們通常都優(yōu)先選擇數(shù)據(jù)庫以及分布式表結構作為存儲方式,只有一些結構相對較為簡單的半結構化數(shù)據(jù)更傾向于選擇Key/Value分布式系統(tǒng),其中較為典型的為亞馬遜公司的Dynamo系統(tǒng)以及Facebook的Cassandra系統(tǒng),亞馬遜的Dynamo主要是運用Key/Value作為數(shù)據(jù)存儲模式,這一存儲模式相比于其它模式的優(yōu)點在于具有強大的可擴展性以及可用性。Facebook的Cassandra系統(tǒng)同樣也是采用Key/Value作為數(shù)據(jù)存儲模式,通過對這一存儲模式的運用進一步實現(xiàn)了數(shù)據(jù)存儲可擴展性以及一致性的增強。
2大數(shù)據(jù)時代應用背景下編程模型的設計
在大數(shù)據(jù)時代@一背景下,編程模型所面臨的挑戰(zhàn)也是日益凸顯出來,傳統(tǒng)的編程模型也開始表現(xiàn)出一定的動力不足趨勢,并無法滿足大數(shù)據(jù)的編程要求,為了有效解決這一矛盾,必須基于大數(shù)據(jù)的特征以及需求來設計一種有別于傳統(tǒng)編程模型的全新的編程模型。大數(shù)據(jù)時代下的編程模型必須滿足簡單易操作的基本原則,并在此基礎上盡可能提高性能水平,構建一個清晰明確的編程抽象,確保程序員的編程工作能夠更加順暢,在這一過程中,程序員并不需要關注程序在集群中運行的具體狀態(tài)以及情況,只需要針對每一項問題進行一一解決即可。在新的編程模型中,程序員的主要工作與任務在于關注一切有待解決的問題,以此來確保編程過程中各項任務的清晰化、明了化,同時還可以使代碼后期的維護管理工作得到極大程度的簡化,使程序員的工作更加方便、簡潔、高效。此外,在構建編程模型時還應考慮到系統(tǒng)數(shù)據(jù)計算能力以及處理能力提升的目的,我們不僅要確保程序能夠在集群上實現(xiàn)高效穩(wěn)定的運行,同時也要保證不同類型的作業(yè)與任務能夠在集群上并發(fā)運行,這樣可以大大提高集群內部資源的共享有效率。但是在這一模型下,我們也會面臨許多新的問題,需要后期通過探索與研究進行慢慢攻破,例如如何有效處理異構性問題、如何提升本地數(shù)據(jù)的有效利用率等。因此在基于大數(shù)據(jù)應用背景下進行新編程模型構建的同時,我們的考慮內容不能過于單一,必須綜合衡量各方面的影響與利弊,在此基礎上作出適當?shù)娜∩嵋约芭袛?,從而構建一個簡單、便捷、可靠、高效的大數(shù)據(jù)編程模型。
為了使效率得到進一步提升,超級計算機一般來說都會選擇應用并行編程模型,例如Open MP以及MPI,其中,Open MP通常會與共享存儲模式的融合而被廣泛地應用在對稱多處理器等架構的相關設備當中,而MPI所涉及的編程模型則相對來說更為復雜,一般來說需要在切換至信息通信計算模型下,要求編程工程人員針對所有的程序問題根據(jù)一定的規(guī)則進行一一分類,隨后再將這些分類號的問題映射至分布式進程集合當中。Open MP以及MPI等并行編程模型并不適用于大數(shù)據(jù)的計算以及處理過程中,因此一些規(guī)模較大的互聯(lián)網(wǎng)企業(yè)會根據(jù)自身公司的實際情況以及需求來研制具有針對性的大數(shù)據(jù)處理模型,這樣一來不僅可以使工作人員的工作效率得到提升,同時也在很大程度上促進了大數(shù)據(jù)應用的有效實現(xiàn)。
3結語
綜上所述,在大數(shù)據(jù)應用背景之下,對于超級計算機的設計可以適當導入一些高效模塊結構,例如多核結構以及眾核結構等。此外,寬帶網(wǎng)絡速度的提升也有利于超級計算機運行速度的改善,為其提供基本的保障條件??偠灾?,在大數(shù)據(jù)時代背景之下,要想使數(shù)據(jù)處理以及計算速率得到有效提升,超級計算機的應用是必然的趨勢所在,并取消以往計算機系統(tǒng)中的計算密集模式,取而代之的是數(shù)據(jù)密集模式。筆者相信在大家的共同努力之下,大數(shù)據(jù)應用背景下的數(shù)據(jù)處理以及計算問題自會得以有效解決。
參考文獻
[1] 張聽,袁曉如.樹圖可視化[J].計算機輔助設計與圖形學學報,2012(9):1113- 1124.
關鍵字:計算機;物聯(lián)網(wǎng);網(wǎng)絡;應用領域;大數(shù)據(jù)
既然計算機物聯(lián)網(wǎng)技術對于社會發(fā)展、科技進步、人類生活等多個方面都有積極的影響,那么當下我們就應該將物聯(lián)網(wǎng)技術的進一步發(fā)展作為科研重點。物聯(lián)網(wǎng)技術的運用不能是盲目的,它的目的是為了在滿足市場需求的前提下、建立更為完善的技術產業(yè)。只有這樣,才能進一步推廣物聯(lián)網(wǎng)技術。另外,物聯(lián)網(wǎng)技術的普遍應用并不是沒有生活問題的,為了使其發(fā)展的更為快速,我們需要認清當下物聯(lián)網(wǎng)運用的特點,分析物聯(lián)網(wǎng)包含的主要技術,還要了解當前物聯(lián)網(wǎng)技術的一些應用領域。
一、計算機物聯(lián)網(wǎng)概述
計算機物聯(lián)網(wǎng)就如其名稱所示的一樣,是在大數(shù)據(jù)時代,將有形物體接入互聯(lián)網(wǎng)的一種技術。計算機物聯(lián)網(wǎng)包含兩個含義,第一方面,計算機物聯(lián)網(wǎng)技術以網(wǎng)絡為核心。在某種程度上,計算機物聯(lián)網(wǎng)是互聯(lián)網(wǎng)絡的擴展。眾所周知,計算機物聯(lián)網(wǎng)是在大數(shù)據(jù)時代下應運而生的,因此其另一方面的含義就與計算機信息化有關,具體來說,就是計算機物聯(lián)網(wǎng)可以通過大量的數(shù)據(jù),促進與客戶信息交流和溝通。計算機物聯(lián)網(wǎng)技術在世界上被公認為最有發(fā)展前景的先進創(chuàng)新,它就像是一筆無形的財富。
(一)從技術層次看待計算機物聯(lián)網(wǎng)
計算機物聯(lián)網(wǎng)僅從字面上分析是無法真正理解的,還需要從計算機物聯(lián)網(wǎng)的技術結構、關鍵技術、應用領域等方面來深入探究。從技術層次上來看,計算機物聯(lián)網(wǎng)包含感知層、網(wǎng)絡層和應用層三大層次。計算機物聯(lián)網(wǎng)技術的三個技術層即相輔相成。每個技術層次都包含其特有的技術的,例如,其中網(wǎng)絡層還可以分為兩大層次,即傳輸層和處理層,主要負責信息數(shù)據(jù)的傳輸工作,由私有網(wǎng)絡、互聯(lián)網(wǎng)、有線和無線通信網(wǎng)組成。感知層就如同人體的神經(jīng)末梢,負責信息資料的采集,其包含的技術最為豐富,有條形碼、傳感器、智能機械、識別碼等。網(wǎng)絡層是信息交換與通訊的重要平臺,應用也最為廣泛,其中的傳輸層包括衛(wèi)星通信、移動通訊網(wǎng)等技術,處理層包括GIS/GRS技術、云計算等技術。另外,計算機物聯(lián)網(wǎng)的技術層次上還包括一些常見的感知終端,例如二氧化碳濃度傳感器、溫度、濕度傳感器、RFID標簽和讀寫器、攝像頭、GPS等。
(二)計算機物聯(lián)網(wǎng)關鍵技術
在近幾年來,物聯(lián)網(wǎng)所涉及的領域面越來越廣。其實現(xiàn)的基礎是計算機物聯(lián)網(wǎng)所包含的一些關鍵技術。具體有傳感器技術、RFID標簽、嵌入式系統(tǒng)技術。所謂傳感器技術,是計算機能夠處理海量數(shù)據(jù)的關鍵,也是計算機的主要應用程序。我們知道,計算機處理的數(shù)據(jù)需要時數(shù)學信號,這就要求計算機具備將模擬信號轉變?yōu)閿?shù)據(jù)信號的功能,故有了傳感器技術。近些年來,隨著計算機物聯(lián)網(wǎng)的發(fā)展,另一種傳感器技術得以問世,即RFID標簽,其是一種整合技術,主要應用于自動識別、物品物流管理等領域。計算機信息化建設使得物聯(lián)網(wǎng)技術也在不斷發(fā)展,目前已經(jīng)形成一種集信息技術設備、傳感器技術、一體化技術為一體的尖端技術,即嵌入式系統(tǒng)技術。其是計算機物聯(lián)網(wǎng)技術發(fā)展成熟的體現(xiàn),在長期的的演變、法杖過程中,嵌入式系統(tǒng)得以廣泛運用,涉及到工業(yè)生產和國防工業(yè),小到人類的生活,大到可以運用在衛(wèi)星系統(tǒng)。
(三)計算機物聯(lián)網(wǎng)的應用技術
除了傳感器技術、RFID標簽、嵌入式系統(tǒng)技術之外,計算機物聯(lián)網(wǎng)的核心技術還包括RFID等標識技術以及云計算技術,而其應用技術的發(fā)展也尤為迅速,較為成熟的包括無線傳感網(wǎng)絡技術、射頻技術、網(wǎng)絡通訊技術等。我們知道,隨著社會的發(fā)展,要想利用計算機技術更好的服務于人類,必須考慮技術的功能性,保證其能適應科技時代的進步。傳統(tǒng)的傳感器并不成熟,其無法實現(xiàn)功能多樣性。發(fā)展至今的無線傳感網(wǎng)絡技術已經(jīng)能夠滿足軍民,主要由許多個不同的無線傳感器節(jié)點組成。為了順應科技潮流,無線傳感網(wǎng)絡技術已經(jīng)在努力向微型化、智能化的目標發(fā)展。相信在不久的將來,無線傳感網(wǎng)絡技術能夠實現(xiàn)從傳統(tǒng)傳感器到智能傳感器的完全蛻變。近些年來,計算機物聯(lián)網(wǎng)技術的發(fā)展還體現(xiàn)在射頻技術的應用上,較常見的應用有無線射頻識別技術。這類技術主要用于電子晶片、感應卡。射頻技術的原理比較難以理解,需要為由掃描器發(fā)射以特定頻率進行無線電波能量的發(fā)射,還要驅動接收器電路將內部的代碼送出。射頻技術的先進在于其接收器的特殊性,且其晶片密碼為世界唯一無法復制,安全性高、長壽命。除此之外,計算機物聯(lián)網(wǎng)的應用技術還有網(wǎng)絡通訊技術,具體是指利用現(xiàn)有的計算機設備,在相關網(wǎng)絡通訊設備的輔助下,進行圖文數(shù)據(jù)的采集、存儲、處理和傳輸。網(wǎng)絡通訊設備可以使資源實現(xiàn)其效用最大化,使信息資源達到充分共享。
二、物聯(lián)網(wǎng)的應用
(一)城市交通管理
物聯(lián)網(wǎng)技術最初就運用在交通行業(yè),在其技術支持下,交通管制實現(xiàn)智能化。例如,物聯(lián)網(wǎng)技術可以使交通管制系統(tǒng)更加自動化、智能化,能進行道路交通的實時監(jiān)控。能在短時間內,對公路、橋梁、公交、停車場等場所進行系統(tǒng)管理??梢栽谌我鈺r段估測道路交通流量,及時發(fā)現(xiàn)事故、交通堵塞等情況,并進行快速的自動判斷,從而利于采取有效的解決措施。相信在不久的將來,全世界的交通都能實現(xiàn)智能化。
(二)家庭生活
科學技術的發(fā)展使得社會經(jīng)濟發(fā)展的速度越來越大,在計算機技術的推動下,我們來到了數(shù)字化的二十一世紀。在物聯(lián)網(wǎng)技術的帶領下,我們不管是在家庭生活,還是工作中,都感受到了巨大的便捷。通過計算機物聯(lián)網(wǎng)技術,我們過上了智能化生活。可以通過手機來職能的控制家里的電器設備。通過手機端傳送指令,來遠程控制電器工作、監(jiān)控家里的一切。近些年來,隨著物聯(lián)網(wǎng)生活生產領域的應用,其長足發(fā)展已成必然。
(三)節(jié)能減排
計算機物聯(lián)網(wǎng)的發(fā)展,勢必會使人類的生活發(fā)生改變。因此,一些由于人類生活方式而造成的空氣污染、資源浪費問題將迎刃而解。我們知道,空氣污染一直是全球環(huán)保工作的棘手難題。計算機物聯(lián)網(wǎng)技術在應對空氣污染上正好發(fā)揮了是特有的功能。近些年來,已經(jīng)有科研學者針對空氣污染進行了合理的分析,并認為,可以通過計算機物聯(lián)網(wǎng)技術來改善。具體是通過物聯(lián)網(wǎng)技術,對反應空氣質量的數(shù)據(jù)進行收集。與此同時,要研發(fā)出一種新型的空氣實時監(jiān)測系統(tǒng)。這樣就既能通過智能的實時監(jiān)測系統(tǒng)來進行檢測工作,又能物聯(lián)網(wǎng)技術下對空氣質量數(shù)據(jù)進行自動分析、統(tǒng)計。
三、結論
綜上所述,計算機物聯(lián)網(wǎng)的優(yōu)勢顯而易見。其包含多種功能,符合大數(shù)據(jù)時代的先進科技技術。就目前來看,計算機物聯(lián)網(wǎng)在人類生活和工業(yè)中都發(fā)揮著巨大的作用。其帶動著多個行業(yè)的發(fā)展,使得智能化產品走向多樣化。另外,從計算機物聯(lián)網(wǎng)在多個領域的應用可以看出,物聯(lián)網(wǎng)技術已經(jīng)逐漸成熟起來,其在未來的發(fā)展趨勢十分良好。作為計算機行業(yè)的工作者,我們應該永不止步,全身心的致力于更多像物聯(lián)網(wǎng)技術的科技項目研究。希望在不久的將來,我們能讓物聯(lián)網(wǎng)在未來發(fā)展的更為快速,讓我國所自主研發(fā)的智能化設備越來越多,給我們帶來更多高科技體驗。
作者:譚秦紅 單位:貴州省銅仁職業(yè)技術學院
參考文獻:
[1]朱順強.中國物聯(lián)網(wǎng)發(fā)展狀況分析[A].中國通信學會2010年光纜電纜學術年會論文集[C].2010年.
關鍵字:大數(shù)據(jù) 情報研究 情報研究技術
中圖分類號: G250.2 文獻標識碼: A 文章編號: 1003-6938(2012)06-0001-08
1 引言
當數(shù)據(jù)和黃金一樣,成為一種新的經(jīng)濟資產[1],當科研處于以數(shù)據(jù)為基礎進行科學發(fā)現(xiàn)的第四范式[2],當數(shù)據(jù)開始變革教育[3],這些無不宣告著我們已經(jīng)進入了大數(shù)據(jù)(big data)時代。不同的學科領域,正在不同的層面上廣泛地關注著大數(shù)據(jù)對自己的研究和實踐帶來的深刻影響,情報研究領域也不例外。
大數(shù)據(jù),顧名思義是大規(guī)模的數(shù)據(jù)集,但它又不僅僅是一個簡單的數(shù)量的概念,IBM公司指出,大數(shù)據(jù)的特點是4個V:Volume(大量)、Velocity(高速)、Variety(多樣)及Veracity(真實),它提供了在新的和正在出現(xiàn)的數(shù)據(jù)和內容中洞悉事物的機會,使業(yè)務更加靈活,并回答以往沒有考慮到的問題[4]。Gartner公司的報告也提出,大數(shù)據(jù)是大容量、高速和多樣化的信息資產,它們需要新的處理方式,以提高決策能力、洞察力和流程優(yōu)化[5]。
由此可見,大數(shù)據(jù)強調的不單純只是數(shù)據(jù)量多少的問題,其背后隱藏了更為復雜和深刻的理念,這些理念包括:①將對數(shù)據(jù)和信息的分析提升到了前所未有的高度。這里的分析不是一般的統(tǒng)計計算,而是深層的挖掘。大數(shù)據(jù)時代,如何充分利用好積累的數(shù)據(jù)和信息,以創(chuàng)造出更多的價值,已經(jīng)成為企業(yè)管理者、政府機構以及科研工作者首要關注的問題?!皹I(yè)務就是數(shù)據(jù)”、“數(shù)據(jù)就是業(yè)務”、“從大數(shù)據(jù)中發(fā)掘大洞察”等意味著對數(shù)據(jù)分析提出了新的、更高的要求。可以這么說,大數(shù)據(jù)時代就是數(shù)據(jù)分析的時代。②多種數(shù)據(jù)的整合和融合利用。大數(shù)據(jù)時代,數(shù)據(jù)的多樣性是一種真實的存在,數(shù)據(jù)既包括結構化的數(shù)據(jù),也包括非結構化的數(shù)據(jù),表現(xiàn)方式可以是數(shù)據(jù)庫、數(shù)據(jù)表格、文本、傳感數(shù)據(jù)、音頻、視頻等多種形式。同一個事實或規(guī)律可以同時隱藏在不同的數(shù)據(jù)形式中,也可能是每一種數(shù)據(jù)形式分別支持了同一個事實或規(guī)律的某一個或幾個側面,這既為數(shù)據(jù)和信息分析的結論的交叉驗證提供了契機,也要求分析者在分析研究過程中有意識地融集各種類型的數(shù)據(jù),從多種信息源中發(fā)現(xiàn)潛在知識。只有如此,才能真正地提高數(shù)據(jù)分析的科學性和準確性。③更加廣泛地應用新技術和適用技術。數(shù)據(jù)量大(Volume)、類型多樣(Variety)、增長速度快(Velocity)是大數(shù)據(jù)的突出特點,這必然會帶來數(shù)據(jù)獲取、整合、存儲、分析等方面的新發(fā)展,產生相應的新技術或者將已有的技術創(chuàng)新地應用于大數(shù)據(jù)的管理與分析。同時,大數(shù)據(jù)的這些特點也決定了傳統(tǒng)的、以人工分析為主的工作模式將遇到瓶頸,計算機輔助分析或基于計算機的智能化分析,將成為大數(shù)據(jù)時代數(shù)據(jù)與信息分析的主流模式。
對于在數(shù)據(jù)分析領域扮演重要角色的情報研究工作而言,大數(shù)據(jù)的理念和技術既帶來了機遇,也帶來了挑戰(zhàn)。一方面,在大數(shù)據(jù)時代,情報研究工作正在得到空前的重視,大數(shù)據(jù)為情報研究的新發(fā)展提供了機會,從更為廣闊的視野來看待情報研究的定位,研究新技術新方法,解決新問題,將極大地促進情報研究理論與實踐前進的步伐。另一方面,大數(shù)據(jù)時代本身也要求各行各業(yè)重視情報研究工作,這就必然使得眾多學科有意識地涉足到以往作為專門領域的情報研究之中,并將其作為本學科的重要組成部分加以建設。文獻分析(本質是文本分析)不再為情報研究所獨占,以往情報研究領域積累的相關理論和方法很有可能優(yōu)勢不再。因此,如何把握住自身的優(yōu)勢,并抓住機會有所拓展,是情報學在大數(shù)據(jù)時代需要思考的問題。
2 大數(shù)據(jù)環(huán)境下情報研究的發(fā)展趨勢
大數(shù)據(jù)帶來的新觀念,正在引報研究的新發(fā)展,而且,研究人員也在不斷地從情報研究的實踐中總結經(jīng)驗教訓,引導情報研究的未來走向。英國萊斯特大學的Mark Phythian教授在2008年10月作 了題為“情報分析的今天和明天”的報告[6],指出:①獲知情境是至關重要的。忽略戰(zhàn)略環(huán)境、領導風格和心理因素等更為廣泛的問題,將導致情報研究的失誤;②要加強信息之間的關聯(lián)。美國政府部門內部的信息共享障礙,致使分析人員無法獲取充足的信息來支持分析活動,導致情報研究中的預測失??;③要汲取更多外界的專業(yè)知識。這一舉措雖然不能保證分析的成功性,但將是競爭分析的重要信息來源。
綜合大數(shù)據(jù)背景的要求和以往情報研究的經(jīng)驗教訓,結合國內外同行的研究成果,本文將情報研究的發(fā)展趨勢總結為以下五個方面:單一領域情報研究轉向全領域情報研究;綜合利用多種數(shù)據(jù)源;注重新型信息資源的分析;強調情報研究的嚴謹性;情報研究的智能化。
2.1 單一領域情報研究轉向全領域情報研究
隨著學科的深入交叉融合及社會發(fā)展、經(jīng)濟發(fā)展與科技發(fā)展一體化程度的增強,情報研究正從單一領域分析向全領域分析的方向發(fā)展。
首先,表現(xiàn)在各領域中的情報研究從視角、方法上的相互借鑒。從方法上看,社交網(wǎng)絡分析方法、空間信息分析等其他學科的分析方法,廣泛應用于軍事情報、科技情報等領域,心理學等領域的理論也用于情報分析的認知過程,以指導情報分析及其工具的研發(fā)。同時,情報學中的引文分析等文獻計量方法也被借鑒用于網(wǎng)站影響力評估。從技術上看,可視化、數(shù)據(jù)挖掘等計算機領域的技術,為情報研究提供了有力的技術視角,情報研究獲得的知識反過來又給予其他技術領域的發(fā)展以引導。可見,無論從思想上、方法上、技術上,各領域之間的交叉點越來越多,雖然這種相互借鑒早就存在,但現(xiàn)在意識更強、手段更為綜合。
其次是分析內容的擴展,這也是最為重要和顯著的變化。在情報研究過程中,不僅僅局限于就本領域問題的分析而分析,而將所分析的內容置于一個更大的情景下做通盤考慮,從而得出更為嚴謹?shù)慕Y論。聯(lián)合國的創(chuàng)新倡議項目Global Pulse在其白皮書“Big Data for Development: Opportunities & Challenges”[7]中指出,情境是關鍵,基于沒有代表性樣本而獲得的結論是缺乏外部合法性的,即不能反映真實的世界。在情報研究領域,一些數(shù)據(jù)往往因為一些不可抗力的原因而不完整,如早期的科技數(shù)據(jù),可能由于國際形勢等外部因素,導致一些國家的科技信息無法獲取,基于這樣缺失的分析樣本來評估該國的科技影響力,如果僅就數(shù)據(jù)論數(shù)據(jù),無疑是會得“正確”的錯誤結論,這時應針對這樣的異常情況,將研究問題放置在當時的時代背景下,揭示背后的原因,從其他方面收集信息來補充,才能得出符合實際的結論。也就是說,必須要考察不同時間戳下的相關信息,再對分析內容加以擴充,這實質是一種基于時間軸的擴展。另外,將內容擴展至本領域的上下游則是一種更為重要的擴展。例如,考察某項技術的發(fā)展前景,如果僅就該技術本身來討論,可能會得出正面的結論,但如果結合特定地區(qū)人們對該技術的態(tài)度、當?shù)氐募夹g水平、物理條件、發(fā)展定位等,卻可能會得出相反的結論。這就說明,在很多領域中,環(huán)境不同,發(fā)展程度不同,要解決的問題也就不同。一些地區(qū)當前關注的問題不一定就是其他地區(qū)要關注的問題,某些欠發(fā)達地區(qū)當前不一定就必須照搬另一些所謂發(fā)達地區(qū)的當前做法。這需要通盤考察,分析相關思想、觀點和方法產生的土壤、使用的條件,結合當前環(huán)境再做出判斷,否則可能會對決策者產生誤導。
2.2 綜合利用多種數(shù)據(jù)源
綜合利用多種信息源已經(jīng)成為情報研究的另一大發(fā)展趨勢。Thomas Fingar[8]從軍事情報角度指出,軍事情報界需要綜合利用人際情報、信號情報、圖像情報和外部情報,進行全資源分析(all-source analysis),即利用多種不同的信息資源來評估、揭示、解釋事物的發(fā)展、發(fā)現(xiàn)新知識或解決政策難題??萍记閳蠼缫彩侨绱耍缋每萍颊撐暮蛯@?,發(fā)現(xiàn)科技之間的轉換關系、預測技術發(fā)展方向,綜合利用政府統(tǒng)計數(shù)據(jù)、高校網(wǎng)站、期刊、報紙、圖書等來評估大學等科研機構。可見,綜合利用多種信息源是從問題出發(fā),系統(tǒng)化地整合所有相關信息資源來支持情報研究,信息源可以是學術論文、專利等不同類型的文獻集合、文本和數(shù)據(jù)的集合也可以是正式出版物與非正式出版物的集合等。
這一發(fā)展趨勢是由幾大因素決定的。一是情報研究問題的復雜性。在大數(shù)據(jù)背景下,情報不再局限在科技部門,而成為全社會的普遍知識。公眾對情報的需求使得情報研究問題更為綜合,涉及要素更為多元,同時也更為細化。這導致單一數(shù)據(jù)源不能滿足分析的要求,需要不同類型的信息源相互補充。例如要分析科技之間的轉換關系,就避免不了涉及科技論文和專利這兩種類型的信息源。二是各種信息源的特性。不同信息源可以從不同角度揭示問題,如專利、研究出版物、技術報告等,可以較為直觀地反映研究者對某科技問題的理解與描述,而評論文章、科技新聞、市場調查等,可以反映出社會對該科技的觀點、認知情況[9]。因此,各類信息自身的特性就說明他們之間可以、也需要相互補充。此外,從現(xiàn)實角度來看,通常會遇到某些信息無法獲取的情況,這就需要別的信息加以替代,這就從實踐角度說明了綜合利用多種信息源的必要性。三是分析結果的重要性。以評估大學為例,評估的結果會引導各學校在比較中發(fā)現(xiàn)自身優(yōu)勢和差距,指導未來發(fā)展定位,同時也為廣大學生報考提供參考。可見,研究結果對社會的影響是廣泛而深遠的,要做到分析結果的可靠性、科學性,必然先要從源頭上,即分析數(shù)據(jù)上加以豐富完善。
綜合利用多種信息源也意味著諸多挑戰(zhàn)。首先分析人員要熟悉每一種信息資源的特性,了解相似信息在不同資源類型中是如何表現(xiàn)的,不同信息源相互之間的關系是怎樣的。其次,針對待分析的問題,要選擇適合的信息,并不是信息越多越好,類型越全越好,尤其是當問題含糊不清時,可能需要不斷地調整信息源。再次,情報研究人員要能有效地綜合、組織、解釋不同信息源分析出的結果,特別是當結論有所沖突的時候,識別不當結果、保證分析結果的正確性是很重要的。
2.3 注重新型信息資源的分析
隨著網(wǎng)絡應用的深入,出現(xiàn)了許多新型的媒體形式。Andreas M. Kaplan等人將構建于Web2.0技術和思想基礎上,允許用戶創(chuàng)建交換信息內容的基于網(wǎng)絡的應用定義為社會化媒體(Social Media),包括合作項目(如維基百科)、博客、內容社區(qū)(如YouTube)、社交網(wǎng)站、虛擬游戲世界和虛擬社會世界(如第二人生)等六種類型[10]。這類媒體形式依托于Web2.0等網(wǎng)絡技術,以用戶為中心來組織、傳播信息,信息可以是用戶創(chuàng)造性的言論或觀點,可以是圍繞自己喜好收集的信息資源集合等。由于社會化媒體的易用性、快速性和易獲取性等特點,它們正迅速地改變著社會的公共話語環(huán)境,并引導著技術、娛樂、政治等諸多主題的發(fā)展[11]。這些通過龐大的用戶社區(qū)來傳播的高度多樣化的信息及其網(wǎng)絡結構,為洞悉公眾對某一主題的觀點、研究信息擴散等社會現(xiàn)象[12]、預測未來發(fā)展方向[11]等提供了機會,有助于發(fā)現(xiàn)有共同興趣的社群、領域專家、熱點話題[13]等,帶來了網(wǎng)絡輿情分析等研究內容。此外,這類信息結合其他類型的數(shù)據(jù),產生了新的情報研究領域。例如,智能手機的普及和GPS的廣泛應用,使得可以從社交網(wǎng)絡和網(wǎng)絡交互數(shù)據(jù)、移動傳感數(shù)據(jù)和設備傳感數(shù)據(jù)中獲取社會和社區(qū)情報(social and community intelligence,SCI),揭示人類行為模式和社群動態(tài)[14]。
此外,機構知識庫等作為一種反映組織或群體知識成果的智力資源,也正引報界的重視。網(wǎng)絡信息聯(lián)盟的執(zhí)行董事Clifford A. Lynch[15]從大學的角度指出,成熟完整的機構知識庫應包含機構和學生的智力成果(包括科研材料和教學材料)以及記錄機構自身各項事件和正在進行的科研活動的文檔。這暗示著學術界從過去只關心科研成果正逐步轉向關注科研過程。從機構知識庫中,可以發(fā)現(xiàn)隱藏其中的科研模式、揭示目前科研狀況的不足,引導機構未來科研的發(fā)展走向等。但現(xiàn)有的機構知識庫工具還缺乏幫助人們理解和分析這些資源的機制[16],在大數(shù)據(jù)環(huán)境下,加強這方面的研究也是必然趨勢??梢灶A見,隨著科技的發(fā)展和應用的深入,還會不斷的有新型資源出現(xiàn),并不斷促進情報研究的發(fā)展。
2.4 強調情報研究的嚴謹性
情報研究活動在宏觀層面上是一種意義構建(sensemaking)[17],依賴于分析人員根據(jù)已有知識構建認知框架(frame),通過對認知框架的不斷修正來達到理解的目的[18]。這意味著情報研究活動本身帶有很大的不確定性,很多因素影響著情報研究的有效性。如何使情報研究工作更加嚴謹,減少情報分析的不確定、提升情報成果的質量,正成為學術界當前普遍關注的問題。情報研究嚴謹性(rigor)不等同于分析結果的正確性,它衡量的是情報研究的過程,是指在情報研究過程中“基于仔細考慮或調查,應用精確和嚴格的標準,從而更好地理解和得出結論”[19]。美國俄亥俄州立大學的Deniel Zelik[20][21]從評估角度,給出了8個指標來衡量分析過程的嚴謹性:假設探索、信息檢索、信息驗證、立場分析、敏感度分析、專家協(xié)作、信息融合和解釋評價。從這幾項指標看,信息檢索和融合是從分析信息源上消除不全面性;假設探索是要使用多種視角來揭示數(shù)據(jù)和信息;信息驗證側重于數(shù)據(jù)的溯源、佐證和交叉驗證;立場分析強調分析的情境性;敏感度分析指分析人員要了解分析的局限性,目的是從分析方法上消除主觀影響;專家協(xié)作是防止分析結果受分析人員自身的學科背景或經(jīng)驗帶來的偏差;解釋評價是要正確對待分析結論??梢?,情報研究的嚴謹性意在消除人的主觀偏見,用更為客觀的視角對待情報研究。如果說之前的情報研究活動依賴專家的個人判斷,帶有較為強烈的主觀色彩,那么走向嚴謹性的情報研究活動正逐步轉變?yōu)橐婚T科學。
在大數(shù)據(jù)背景下,情報分析的嚴謹性,不僅體現(xiàn)在理念上,還暗含了對技術的要求。面對海量數(shù)據(jù),自動化的技術手段必不可少。當信息的檢索更多的是借助檢索系統(tǒng),而不是人工的收集,信息融合更多依賴數(shù)據(jù)倉庫等技術手段,如何在這樣的分析環(huán)境中將情報研究的科學性落到實處,是需要關注的問題。可以看到,利用技術本身已經(jīng)在一定程度上避免了人的主觀性,但面對同樣一個問題,可以有不同的技術手段,也可能產生不同的結果,如何避免由技術產生的偏見,也許通過多種技術手段或采用不同的算法,全方位地展示信息內容及其之間的關系,從而避免產生信息的誤讀,是一個解決方案??梢?,在大數(shù)據(jù)時代,情報研究需要多種手段來加強其分析過程的科學性,而這又需要多種技術方法加以支持。
2.5 情報研究的智能化
大數(shù)據(jù)背景下的情報研究,對技術提出了更高的要求。正如美國國家科學基金會(NSF)的報告[22]所說,美國在科學和工程領域的領先地位將越來越取決于利用數(shù)字化科學數(shù)據(jù)以及借助復雜的數(shù)據(jù)挖掘、集成、分析與可視化工具將其轉換為信息和知識的能力。對于情報研究來說,應用智能化技術能自動進行高級、復雜的信息處理分析工作,在很大程度上把情報研究人員從繁瑣的體力勞動中解放出來,尤其在信息環(huán)境瞬息萬變的今天,及時收集信息分析并反饋已經(jīng)變得非常重要,這都需要智能化技術加以支撐。從信息源來講,情報研究對象得以擴展,其中可能包含微博等社會化媒體信息,可能包含圖片、新聞等,大量非結構或半結構化數(shù)據(jù)的涌入,必然需要技術將這些數(shù)據(jù)轉化為結構化數(shù)據(jù),以供后續(xù)分析。同時,多元化的信息,需要根據(jù)分析需求加以融合,這可能需要語義層面上的技術支持。從分析需求來講,簡單的統(tǒng)計分析已不能滿足現(xiàn)在社會的決策需求,需要從大量信息中發(fā)現(xiàn)潛在模式,指導未來的發(fā)展,這就涉及數(shù)據(jù)挖掘、機器學習等技術。此外,要尋求情報研究的客觀性,摒除過多的主觀意愿,也需要多種技術來支撐??梢姡@一發(fā)展趨勢是大數(shù)據(jù)時代下的必然。而各國在積極建設的數(shù)字化基礎設施,也在推動著情報研究的智能化,如歐洲網(wǎng)格基礎設施(European Grid Infrastructure,EGI)[23]項目就致力于為歐洲各領域研究人員提供集成計算資源,從而推動創(chuàng)新。
目前,對情報研究中的智能化技術沒有統(tǒng)一的界定,但概觀之,可以將情報研究智能化的本質概括為定量化、可計算、可重復。定量化是針對過去情報研究更多的是依賴人的主觀判斷,即基于已有文字材料或數(shù)據(jù),根據(jù)研究人員的經(jīng)驗等給出粗略的結論,如果說這是一種定性化分析,現(xiàn)在更多地依賴通過計算機自動化處理原始材料并獲得潛在數(shù)據(jù),并在此基礎上輔以人的判斷,可以說是一種定量化的分析。可計算是指將各種信息資源轉化為計算機可理解、處理的形式,如從新聞、論文、專利等中,提取出科研組織、科研人員等實體,再基于這些結構化的、富有語義的信息,采用統(tǒng)計、數(shù)據(jù)挖掘等方法加以計算,獲取隱含的知識??芍貜褪侵缸詣踊治黾夹g消除了許多主觀因素,從理論上講,如果分析數(shù)據(jù)等條件一致,分析結論也應該是一致的,這也體現(xiàn)了智能化技術為情報研究帶來客觀性的一面。
3 情報研究中的技術問題
情報研究的上述發(fā)展走向,決定了情報研究既不能仍然停留在定性分析上,也不能僅僅靠簡單的統(tǒng)計替代情報研究中的計算技術,由此對情報研究技術提出了新的要求。美國McKinsey Global Institute在2011年5月了研究報告“大數(shù)據(jù):創(chuàng)新、競爭和生產力的下一個前沿領域”(Big data: The next frontier for innovation, competition, and productivity)[24]。報告分六個部分,其中第二部分討論了大數(shù)據(jù)技術,并圍繞大數(shù)據(jù)分析技術、大數(shù)據(jù)技術和可視化三方面進行了闡述。在大數(shù)據(jù)分析技術中,列舉了26項適用于眾多行業(yè)的分析技術,包括A/B測試、關聯(lián)規(guī)則學習、分類、聚類分析、眾包(Crowdsourcing)、數(shù)據(jù)融合和數(shù)據(jù)集成、數(shù)據(jù)挖掘、集成學習、遺傳算法、機器學習、自然語言處理、神經(jīng)網(wǎng)絡、網(wǎng)絡分析、優(yōu)化、模式識別、預測建模、回歸、情感分析、信號處理、空間分析、統(tǒng)計、監(jiān)督學習、模擬、時間序列分析、無監(jiān)督學習和可視化。這些技術絕大部分是已有的技術,也有部分是隨著互聯(lián)網(wǎng)的發(fā)展以及對大規(guī)模數(shù)據(jù)挖掘的需求,在原有技術的角度發(fā)展起來的,如眾包就是隨著Web2.0而產生的技術。
根據(jù)我們的理解,這些技術大致可以劃分為可視化分析、數(shù)據(jù)挖掘以及語義處理三大類。這三大類技術也是當前情報分析領域應予以關注和深入研究的技術。
3.1 可視化分析
可視化分析(Visual Analytics)是一門通過交互的可視化界面來便利分析推理的科學[25],是自動分析技術與交互技術相結合的產物,目的是幫助用戶在大規(guī)模及復雜數(shù)據(jù)內容的基礎上進行有效的理解,推理和決策[26]。它不同于信息可視化,信息可視化關注計算機自動生成信息的交互式圖形表示,關注這些圖形表示的設計、開發(fā)及其應用[27],而可視化分析在此基礎上加入了知識發(fā)現(xiàn)過程,關注自動分析方法及其選擇,以及如何將最佳的自動分析算法與適當?shù)目梢暬夹g相結合,以達到輔助決策的目的。
目前的情報分析系統(tǒng),雖然也提供了多種視圖來揭示信息,但更多的是一種分析結果的呈現(xiàn),系統(tǒng)內部分析、處理的機制對分析人員來講是個黑匣子,分析人員無法了解分析方法、分析結果的局限性或者有效性,這無疑不符合情報研究嚴謹性這一發(fā)展要求。同時,現(xiàn)有的分析工具需要分析人員輸入各種繁雜的參數(shù),又缺乏對情報分析認知過程的支持,這就對使用人員的專業(yè)化程度提出了較高的要求,增加了分析的難度。而可視化分析則可以較好地解決這一問題,它整合了多個領域包括采用信息分析、地理空間分析、科學分析領域的分析方法,應用數(shù)據(jù)管理和知識表示、統(tǒng)計分析、知識發(fā)現(xiàn)領域的成果進行自動分析,融入交互、認知等人的因素來協(xié)調人與機器之間的溝通,從而更好地呈現(xiàn)、理解、傳播分析結果[28]。佐治亞理工學院的John Stasko等人應用Pirolli 等人提出的情報分析概念模型[29],建立了一個名為Jigsaw(拼圖)的可視化分析系統(tǒng)[30],并將其應用于學術研究領域(涉及期刊和會議論文)以及研究網(wǎng)絡文章(如網(wǎng)絡新聞報道或專題博客)領域,也說明了將可視化分析技術應用于情報研究的可行性。
將可視化分析技術應用于情報研究領域,有眾多問題要解決。首先,在情報研究工具中,是以自動化分析為主,還是以可視化為主?Daniel A. Keim等人將待分析的問題分為三類,第一類是在分析過程中可視化和自動化方法可以緊密結合的問題,第二類是應用自動化分析潛力有限的問題,第三類是應用可視化分析潛力有限的問題。在研究這三類問題中交互程度對分析效率影響的基礎上,Daniel A. Keim等人指出,應分析如何通過考慮用戶、任務和數(shù)據(jù)集特點,來確定可視化和自動分析方法的優(yōu)化組合,從而達到最佳的效果[31]??梢?,要將可視化分析技術應用于情報研究領域,需要明確每類問題適用哪種組合方式。其次,情報研究領域適合使用哪些可視化交互手段?這可能包括原始分析數(shù)據(jù)、析取出的關系數(shù)據(jù)、深層挖掘的模式數(shù)據(jù)等的可視化手段,分析人員與系統(tǒng)交互的方式,分析過程的可視化展示等。第三,情報研究領域中的認知過程是什么樣的,關注哪些問題,涉及哪些實體,在大數(shù)據(jù)環(huán)境下面臨哪些認知困難,需要在哪些環(huán)節(jié)加以支持,這些困難能否通過技術來解決。此外,從現(xiàn)有的可視化分析技術來看,主要是將各個相關領域的技術以優(yōu)化的方式整合起來,但在將來會產生一體化的可視化分析解決方法[32],這種一體化的方法可能是什么形式,又會對情報研究帶來怎樣的影響等等,都是在情報研究中引入可視化分析技術需要關注的。
3.2 數(shù)據(jù)挖掘
廣義的數(shù)據(jù)挖掘指整個知識發(fā)現(xiàn)的過程,是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數(shù)據(jù)中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。它涵蓋了數(shù)據(jù)分析和知識發(fā)現(xiàn)的任務,從數(shù)據(jù)特征化與區(qū)分到關聯(lián)和相關性分析、分類、回歸、聚類、離群點分析、序列分析、趨勢和演變分析等,吸納了統(tǒng)計學、機器學習、模式識別、算法、高性能計算、可視化、數(shù)據(jù)庫和數(shù)據(jù)倉庫等領域的技術,并可以用于任何類型的數(shù)據(jù),包括數(shù)據(jù)庫數(shù)據(jù)、數(shù)據(jù)倉庫等基本形式,也包括數(shù)據(jù)流、序列數(shù)據(jù)、文本數(shù)據(jù)、Web數(shù)據(jù)、圖數(shù)據(jù)等其他類型的數(shù)據(jù)[33]。
從數(shù)據(jù)挖掘的涵義看,它與情報研究有著天然的聯(lián)系;從數(shù)據(jù)挖掘的方法看,有其特定的含義和實現(xiàn)過程,可以有效地解決情報研究的問題。例如,情報研究可以借鑒關聯(lián)規(guī)則發(fā)現(xiàn)的成功案例——超市的“啤酒+尿布”,嘗試用關聯(lián)規(guī)劃來分析研究主題的相關性,從科技論文與專利的關聯(lián)中發(fā)現(xiàn)科技的轉換關系等等。但從目前的情報研究成果看,許多還僅僅停留在簡單的頻率統(tǒng)計、共詞計算層次上,在知識發(fā)現(xiàn)的過程中,這些工作僅僅是數(shù)據(jù)挖掘的數(shù)據(jù)準備,還有待于更為深入的發(fā)掘??梢姡瑪?shù)據(jù)挖掘能夠也應該應用于情報研究領域,這不僅是數(shù)據(jù)挖掘應用擴展的結果,也是情報研究自身發(fā)展的需求。此外,由于較少有專門針對情報研究領域研發(fā)的挖掘工具,現(xiàn)有情報分析通常借助于其他工具,不同工具的功能不同,這就導致常常同時使用好幾個分析工具,如在使用SPSS進行聚類分析的同時,還使用Ucinet分析社會網(wǎng)絡。這帶來的問題是,分析缺乏完整性,可能社會網(wǎng)絡和其他信息之間有關聯(lián),因為工具的分割性,就導致潛在模式的丟失。由此,研發(fā)適用于情報研究的挖掘工具,是必要也是緊迫的,尤其是面對大數(shù)據(jù)的挑戰(zhàn),智能化地輔助分析人員,減少認知壓力,是亟待解決的問題。
要解決以上的問題,首先需要研究情報分析任務,分析哪些問題是可以使用數(shù)據(jù)挖掘技術來支持的,這類問題有哪些共同點、特殊性,能否對未來可能的情報分析問題進行擴展,哪些問題不適用于數(shù)據(jù)挖掘技術,原因是什么等。其次,對于某類或某個分析問題,使用哪種數(shù)據(jù)挖掘技術或幾種技術的組合才能有效地解決,涉及的算法是否需要針對該問題進行適應性改造,如何評價挖掘的結果等。第三,數(shù)據(jù)挖掘出現(xiàn)了交互挖掘這一發(fā)展趨勢,即構建靈活的用戶界面和探索式挖掘環(huán)境[33],這與可視化分析在某些方面上也不謀而合,這樣的趨勢會對情報研究帶來哪些影響,如何在這一背景下,探索情報研究工具的新發(fā)展,尋找情報分析的新模式,值得我們關注。
3.3 語義處理
語義是關于意義(meaning)的科學,語義技術提供了機器可理解或是更好處理的數(shù)據(jù)描述、程序和基礎設施[34],整合了Web技術、人工智能、自然語言處理、信息抽取、數(shù)據(jù)庫技術、通信理論等技術方法,旨在讓計算機更好地支持處理、整合、重用結構化和非結構化信息[35]。核心語義技術包括語義標注、知識抽取、檢索、建模、推理等[34]。語義技術可以為信息的深層挖掘打好基礎,即通過對各類信息的語義處理,在獲取的富有語義的結構化數(shù)據(jù)上使用各種數(shù)據(jù)挖掘算法來發(fā)現(xiàn)其中的潛在模式。數(shù)據(jù)的語義性支持了機器學習等技術的內在功能[36]。
從現(xiàn)有的情報研究實踐和工具看,語義支持的缺失是一個普遍問題,這其中又可劃分為兩個層次。對于傳統(tǒng)的情報研究對象,如科技論文、專利等,有較為成熟的分析工具,但這些工具往往缺少深層次的語義支持。例如,要分析論文的內容主題時,需要從摘要等自由文本中提取出主題信息,在數(shù)據(jù)處理時,常常無法識別同義詞、近義詞等,需要人工干預。一些工具雖然在語義方面做了努力,但仍然存在諸多不足,例如在形成的主題聚類結果上,缺乏有效的主題說明,自動形成的主題標簽不具有代表性,需要分析人員深入其中重新判斷等。這在小數(shù)據(jù)集環(huán)境下,還可以接受,當面對大數(shù)據(jù)的沖擊,這種半自動化的處理方法無疑是耗時又費力的。此外,對于新型情報研究對象,如網(wǎng)絡新聞、博客等,已有如動態(tài)監(jiān)測科研機構等的系統(tǒng)工具,但總體來說還處于起步狀態(tài),目前較多的還是依賴人工篩選出所需信息,并整理成結構化的數(shù)據(jù),同樣也不利于大規(guī)模的數(shù)據(jù)分析。這些問題的存在,使得消除語義鴻溝(semantic gap)[37],應用語義技術成為廣泛需求及必然。
將語義技術應用于情報分析,需要關注以下幾方面的內容。首先,分析情報研究任務的特點,了解它的語義需求,是否存在規(guī)律性的準則以供指導分析工具的研發(fā),這既需要原則性和方向性的準則,也需要為針對多維度劃分出的各類任務給出詳細的規(guī)范,例如,對微博等社會化媒體,其中既存在高質量的信息,也存在辱罵等低質量的信息,區(qū)分這些信息并篩選出高質量信息,就成為在分析社會化媒體中的語義任務之一。其次,語義資源建設問題,即在情報分析領域中,要實現(xiàn)語義層面上的理解,是否需要建設語義資源,如果不需要,哪些技術手段可以代替,如果需要,哪種類型的語義資源可以便捷、快速、高效地構建,并且這種語義資源應該如何構建,如何使用才能有效地服務于情報研究工作。第三,信息抽取問題。科技信息涉及眾多學科的專業(yè)術語、各種科研機構、組織等,如何使用語義技術將這些信息準確地提取出來并加以標注,尤其是針對不同類型的信息源,采用什么樣的抽取策略等。第四,信息整合問題,即如何使用語義技術,把不同來源的數(shù)據(jù)對象及其互動關系進行融合、重組,重新結合為一個新的具有更高效率和更好性能的具有語義關聯(lián)的有機整體,以便后續(xù)分析。
4 結語
正如本文引言中所談到的那樣,大數(shù)據(jù)的理念和技術為情報學領域中情報研究的理論和實踐帶來了機遇,也帶來了挑戰(zhàn)。機遇巨大,挑戰(zhàn)更大,需要我們對此有清醒的認識。本文分析了大數(shù)據(jù)背景下情報研究的若干發(fā)展趨勢,總結了情報研究中值得關注的技術問題,以期能為促進情報研究的理論和實踐的發(fā)展添磚加瓦。
參考文獻:
[1]Big Data,Big Impact[EB/OL].[2012-09-06]..
[27]Chaomei Chen. Information visualization[J]. Wiley Interdisciplinary Reviews:Computational Statistics,2010,
2(4):387-403.
[28]Daniel A. Keim, et al. Challenges in Visual Data Analysis[C]. Information Visualization, 2006:9-16.
[29]P.Pirolli. The Sensemaking Process and Leverage Points for Analyst Technology as Identified Through Cognitive Task Analysis[EB/OL].?。?012-09-16].http://vadl.cc.gatech.edu/documents/2__card-sensemaking.pdf.
[30]John Stasko, et al. Jigsaw: supporting investigative analysis through interactive visualization[EB/OL].?。?012
-09-16].http:///fil
es/Sandbox/victor/jigsaw-VAST07.pdf.
[31]Daniel A. Keim, Florian M., and Jim Thomas. Visual Analytics: How Much Visualization and How Much Analytics?[J]. ACM SIGKDD Explorations Newsletter,2009,11(2):5-8.
[32]Aigner, et al. Visual Methods for Analyzing Time-Oriented Data[J]. Transactions on Visualization and Computer Graphics, 2008, 14(1)?。?7-60.
[33]Jiawei Han, Micheline Kamber, Jian Pei. Data Mining concepts and techniques third edition[M]. Morgan Kaufmann,2011.
[34]John Domingue, et al.Handbook of Semantic Web Technologies[M]. Springer Publishing Company,2011.
[35]Dieter Fensel,et mon Value Management-based on Effective and Efficient On-line Communication[EB/OL].[2012-09-17].http://wiki.iao.fraunhofer.de/images
/studien/proceedings-common-value-management.pdf#page=19.
[36]Bettina Berendt, Andreas Hotho, Gerd Stumme. Introduction to the Special Issue of the Journal of Web Semantics: Bridging the Gap-Data Mining and Social Network Analysis for Integrating Semantic Web and Web 2.0[J]. Web Semantics: Science, Services and Agents on the World Wide Web,2010,8(2-3):95-96.
關鍵詞 大數(shù)據(jù)時代 研究生培養(yǎng)質量 反饋
中圖分類號:G643 文獻標識碼:A DOI:10.16400/ki.kjdkz.2015.08.023
Postgraduate Education Quality Feedback Thoughts in Big Data Era
ZHAN Zhiyong, CHEN Mingchan, YI Xiaoxi, WANG Zhichao
(Harbin Engineering University, Harbin, Heilongjiang 150001)
Abstract: Work quality of postgraduate training feedback main body is relatively simple, strong sense of quality feedback, the feedback mechanism is not the system, outdated methods of gathering information and other issues, combined with the characteristics of the era of big data, for quality of postgraduate training feedback work thinking that the quality of graduate education the depth and breadth of feedback work will occur gradually change to adapt to the era of big data.
Keywords: big data era; postgraduate training quality; feedback
近年來,隨著信息技術的飛速發(fā)展,大數(shù)據(jù)、云計算、慕課、翻轉課堂、顛倒教室等信息化時代的新名詞如雨后春筍般不斷涌現(xiàn)出來,2013年被媒體稱為“大數(shù)據(jù)元年”,大數(shù)據(jù)時代已經(jīng)來臨。數(shù)據(jù)科學家舍恩伯格提出:“現(xiàn)有的認知和體系是建立在稀缺數(shù)據(jù)上的成果,人們思維和工作方式必須發(fā)生變革以適應大數(shù)據(jù)時代的到來”。①在新時代來臨之際,教育的各個環(huán)節(jié)面臨著重新洗牌的可能。
1 大數(shù)據(jù)時代
1.1 大數(shù)據(jù)
“大數(shù)據(jù)”概念源于20世紀90年代,隨著互聯(lián)網(wǎng)技術的發(fā)展,大數(shù)據(jù)的內涵由“無法用傳統(tǒng)方法進行分析的數(shù)據(jù)集合”逐漸轉變?yōu)椤熬哂谐瑥姏Q策力、洞察力和流程優(yōu)化能力,與先進數(shù)據(jù)處理方式緊密相關的海量、多樣的信息資產”。②在一定條件下,可通過先進計算機技術,對此類信息資產進行有目的的設計與分析,揭示隱藏其中的各類信息,為我們進行研究、決策、管理提供可靠依據(jù)。
大數(shù)據(jù)具有以下特點:(1)大量性。大數(shù)據(jù)的數(shù)據(jù)信息量巨大,有人稱其起始計量單位至少是P(1000個T)。(2)價值性。大數(shù)據(jù)具有很高價值,但其價值密度低,通過先進技術在海量信息中提取高價值信息是大數(shù)據(jù)發(fā)展的關鍵。(3)繁雜性。大數(shù)據(jù)的類型多樣,包括文本資料、網(wǎng)絡日志、圖片、音頻、視頻、搜索信息等各類結構化、非結構化及半結構化數(shù)據(jù)。(4)高時效性。很多大數(shù)據(jù)信息要求處理速度快,高時效性是大數(shù)據(jù)區(qū)別于傳統(tǒng)數(shù)據(jù)挖掘的顯著特征。
1.2 大數(shù)據(jù)時代
大數(shù)據(jù)時代是指基于大數(shù)據(jù)的各類信息及其相關技術發(fā)展與創(chuàng)新的信息時代,社會各領域的決策逐步由傳統(tǒng)的經(jīng)驗決策轉變?yōu)閿?shù)據(jù)決策、由注重因果關系轉變?yōu)橄嚓P關系。大數(shù)據(jù)時代開啟全新的時代,逐步影響著我們的生活、工作和思維,并且正在深刻改變傳統(tǒng)社會的商業(yè)、教育模式。
大數(shù)據(jù)時代具有以下特點:③(1)信息生產泛在。信息的產生無時不有、無處不在,存在人類生產生活的各個領域,大數(shù)據(jù)的生產過程以及相應挖掘技術呈指數(shù)增長。(2)信息民主公開。絕大多數(shù)的數(shù)據(jù)產生于公共開放的網(wǎng)絡環(huán)境中,所有人可以是信息數(shù)據(jù)的生產者也可以是消費者。(3)反饋信息及時豐富。各類新型信息分析技術可對巨量數(shù)據(jù)及時分析判斷,為信息反饋工作提供了無盡可能。(4)信息具有相關性。數(shù)據(jù)信息在理論上能在各個維度無限使用與傳播,能在各種不同系統(tǒng)與應用中傳遞,在不同的環(huán)境中與不同數(shù)據(jù)有機結合能表達完全不同的涵義。(5)引導社會發(fā)展無限可能。如果說工業(yè)化時代使得機械力迅速增長,拓展了人類體力邊界;那么大數(shù)據(jù)時代使得智力無限增長,讓人類社會與處理信息充滿了無盡的想象空間。大數(shù)據(jù)時代,人類社會的各個領域即將或正在發(fā)生變革,以“慕課”為代表的教育領域也正在經(jīng)歷一場革命。
2 研究生培養(yǎng)質量反饋工作
研究生培養(yǎng)質量是指在一定環(huán)境下研究生培養(yǎng)工作的各類特性總和,主要由培養(yǎng)過程質量(如教師授課質量、導師指導水平等)和產出成果質量即教育產品或服務的質量(如研究生科研成果質量、創(chuàng)新能力以及服務社會的質量等)有機組成。④研究生培養(yǎng)質量反饋機制指對研究生培養(yǎng)工作起調節(jié)指導作用的機制,即研究生培養(yǎng)“輸出”的研究生培養(yǎng)質量“反作用”于研究生培養(yǎng)工作各環(huán)節(jié),指導研究生培養(yǎng)工作的過程。
我國研究生培養(yǎng)單位歷來重視研究生培養(yǎng)質量反饋工作,各個培養(yǎng)單位做法不盡相同,或成立研究生培養(yǎng)質量管理部門管理或邀請校外專業(yè)評估機構或相應管理部門開展以座談、問卷調查等方式的基于樣本數(shù)據(jù)形式的質量評價工作。目前,研究生培養(yǎng)質量反饋工作普遍存在以下問題。
(1)反饋主體相對單一。一方面,在研究生培養(yǎng)質量反饋工作中,研究生培養(yǎng)單位是質量反饋工作的實施者,政府、行業(yè)機構或者專業(yè)的調查機構參與較少。另一方面,在研究生培養(yǎng)單位中,實施培養(yǎng)質量反饋工作的部門主要是就業(yè)和研究生管理部門,而這些部門的職能很多,難以投入大量精力從事培養(yǎng)質量反饋工作。缺少社會參與、培養(yǎng)單位精力有限,難免出現(xiàn)反饋工作不科學,反饋信息不全面、不準確的現(xiàn)象。
(2)質量反饋意識不強。多數(shù)研究生培養(yǎng)單位的工作重心在研究生的過程管理以及就業(yè)管理方面,注重研究生的培養(yǎng)過程質量和產出成果質量,對培養(yǎng)質量反饋工作的重要性認識不足,未能系統(tǒng)全面思考研究生培養(yǎng)質量反饋工作,常常造成研究生培養(yǎng)質量反饋工作流于形式,導致反饋信息不夠全面及時,無法有效指導研究生培養(yǎng)管理工作,研究生培養(yǎng)工作與社會需求脫節(jié)。
(3)反饋機制不系統(tǒng)。目前,各個研究生培養(yǎng)單位在研究生培養(yǎng)的日常工作中,對研究生培養(yǎng)質量反饋工作進行了許多有益嘗試,如采取研究生評教、專家評教、座談、問卷調查等方式來改進管理工作,但這些工作多數(shù)停留在“頭疼醫(yī)頭腳疼醫(yī)腳”的層面,各項工作相對獨立,反饋結果難以有效利用,效率低下,反饋機制不成體系。往往是就業(yè)部門的反饋工作僅限就業(yè)部門使用,未能將反饋信息及時應用到研究生培養(yǎng)及其他相關部門,各部門間的質量反饋工作相互脫節(jié)。
(4)信息采集方式落伍。現(xiàn)行的信息采集方式一般為調研,是培養(yǎng)質量反饋工作的重要內容,現(xiàn)行調研工作一般采用問卷調查、座談會以及電話調研等傳統(tǒng)方式進行,但傳統(tǒng)調研形式存在以下局限性:一是被調研者當時狀態(tài)影響調研結果,不同環(huán)境下被調研者的狀態(tài)也有不同,造成調研結果與實際情況存在誤差;二是調研群體代表性不強,傳統(tǒng)調研方法選取一定數(shù)量樣本進行調研,其必然無法代表全體;三是信息調研工作量較大,信息采集費時費力,同時要對采集到的信息進行分析研究;四是信息采集量不全面,調查問卷、座談等調研不能設計太多問題,許多被忽視的信息可能對研究生培養(yǎng)質量有重大影響;五是傳統(tǒng)調研工作過分強調因果關系,不注重相關關系。
研究生培養(yǎng)質量反饋工作與數(shù)據(jù)緊密相關,而大數(shù)據(jù)時代則為研究生培養(yǎng)質量反饋工作的研究與發(fā)展提供了無限可能。
3 大數(shù)據(jù)時代下研究生培養(yǎng)質量反饋工作的變革方向
大數(shù)據(jù)時代的特點決定了現(xiàn)階段研究生培養(yǎng)質量反饋工作存在的問題將逐步解決,同時,研究生培養(yǎng)質量反饋工作的深度與廣度必然將逐步發(fā)生相應的轉變以適應形勢發(fā)展。
(1)反饋信息數(shù)據(jù)采集方式不斷拓展。傳統(tǒng)研究生培養(yǎng)質量反饋機制相關數(shù)據(jù)一般來源于調查問卷、座談會、訪談以及相關信息統(tǒng)計等經(jīng)典調研手段,大數(shù)據(jù)時代的數(shù)據(jù)采集工作不僅可以使用傳統(tǒng)調研手段獲取,絕大多數(shù)是從研究生的日常學習、生活信息以及身體信息中獲取,將來有可能出現(xiàn)從研究生幼兒學會說話的時間來判斷研究生的創(chuàng)造潛力,也有可能從研究生中學時期的習慣、愛好來判斷其科研潛力。同時,以往研究生培養(yǎng)工作尤其是課程教學工作中,由于缺乏相應數(shù)據(jù)支撐特別是對研究生數(shù)據(jù)的全面、深入分析,研究生培養(yǎng)工作往往形成整齊劃一的“工業(yè)流水線”,培養(yǎng)的是“標準件”,研究生的個性差異和創(chuàng)新能力培養(yǎng)得不到充分體現(xiàn),而在大數(shù)據(jù)時代,研究生的所有學習行為都被網(wǎng)絡“神不知鬼不覺”地采集下來,研究生培養(yǎng)單位依據(jù)采集的數(shù)據(jù)對培養(yǎng)過程實時進行動態(tài)調整,針對每位研究生的不同特點實施個性化培養(yǎng)。⑤
(2)數(shù)據(jù)分析統(tǒng)計方法不斷改進。一般質量反饋工作常采用傳統(tǒng)統(tǒng)計方法通過普通計算機或手工方式來處理結構化數(shù)據(jù),而大數(shù)據(jù)時代的數(shù)據(jù)可以是半結構、非結構數(shù)據(jù),其統(tǒng)計分析以相關關系為基礎展開,數(shù)據(jù)分析統(tǒng)計方法也隨著現(xiàn)代計算機技術的發(fā)展而不斷改進。⑥
(3)研究生培養(yǎng)質量反饋機制逐步深化。隨著大數(shù)據(jù)時代的來臨,研究生培養(yǎng)管理過程與現(xiàn)代計算機網(wǎng)絡技術的聯(lián)系愈加緊密,不斷發(fā)生變革,如研究生課程教學的慕課沖擊、研究生學位論文的要求、研究生學位論文盲審系統(tǒng)的開發(fā)使用等,研究生培養(yǎng)管理過程的“在線化”變革必然導致相應的研究生培養(yǎng)反饋機制的逐步深化。同時,對于實施培養(yǎng)質量反饋工作的管理者來講,應提高個人數(shù)據(jù)素養(yǎng),努力學習數(shù)據(jù)分析的基本原理和方法,發(fā)現(xiàn)并搜集反映研究生培養(yǎng)各個環(huán)節(jié)運行狀態(tài)和存在問題的狀態(tài)數(shù)據(jù),加強其基于數(shù)據(jù)來進行決策和采取相應措施來保證研究生培養(yǎng)質量的自主性。
(4)教育第三方全面介入。大數(shù)據(jù)時代,數(shù)據(jù)挖掘分析技術飛速發(fā)展,研究生培養(yǎng)單位已沒有能力依靠自身實力對研究生培養(yǎng)質量的大量相關數(shù)據(jù)進行深度挖掘。而作為數(shù)據(jù)挖掘分析見長的第三方,如專業(yè)數(shù)據(jù)挖掘公司、專業(yè)研究生培養(yǎng)質量評估機構甚至是學校計算機網(wǎng)絡中心必將不斷開發(fā)技術、拓展業(yè)務,與研究生培養(yǎng)單位圍繞研究生培養(yǎng)質量反饋工作開展全面合作,擔負研究生培養(yǎng)質量數(shù)據(jù)的挖掘與分析工作,為研究生培養(yǎng)質量反饋工作提供技術支持。
(5)研究生培養(yǎng)工作各單元逐步融合。對于國家的教育系統(tǒng)來講,研究生教育屬于頂層教育,前期各層次的教育質量無不對研究生培養(yǎng)質量產生重要的影響,大數(shù)據(jù)時代將使得研究生培養(yǎng)質量反饋工作不再單純局限于研究生培養(yǎng)階段,應將整個教育過程如幼兒教育、小學、初中、高中以及大學等個層面的教育納入其中,將其作為一個系統(tǒng)來通盤謀劃。對于研究生培養(yǎng)單位來講,研究生培養(yǎng)質量反饋工作不應局限在研究生管理部門,應結合研究生的招生、培養(yǎng)、就業(yè)乃至校友溝通等各個層面,加強研究生各層面研究生培養(yǎng)數(shù)據(jù)資源的整合是大數(shù)據(jù)時代研究生培養(yǎng)單位在研究生培養(yǎng)質量反饋工作的重點。
注釋
① 舍恩伯格.大數(shù)據(jù)時代[M].袁杰,譯.浙江人民出版社,2012.
② 楊旭,湯海京等.數(shù)據(jù)科學導論[M].北京理工大學出版社,2014.
③ 鄭毅.大數(shù)據(jù)時代的特點[J].新金融評論,2012(1).
④ 占志勇,侯彥芬等.基于系統(tǒng)論的研究生課程教學機制探討[J].黑龍江高等教育研究,2013(9).
(1武漢輕工大學數(shù)學與計算機學院 湖北 武漢 430023 2重慶交通大學 重慶 400074)
摘 要:針對橋梁健康監(jiān)測獲取海量數(shù)據(jù)卻無法實時精確地監(jiān)測評估橋梁結構狀態(tài)的困難性,本立足數(shù)據(jù)挖掘算法理論,在Hadoop平臺下運用KNN文本分類算法對橋梁結構縮尺模型加速度數(shù)據(jù)進行分類分析,采用分布式文件系統(tǒng)HDFS對監(jiān)測數(shù)據(jù)進行存儲和訪問,應用Map/Reduce并行計算框架對橋梁各環(huán)境參數(shù)進行計算,并據(jù)此判斷監(jiān)測點屬于何種工況,實現(xiàn)了橋梁監(jiān)測海量數(shù)據(jù)的存儲、訪問、分類以及橋梁結構健康狀況的判別,通過實驗室縮尺模型工程實例驗證了理論的有效性。實驗結果表明,與傳統(tǒng)的串行分類算法相比,基于Hadoop平臺的并行分類算法具有較好的擴展性,并取得了基于大數(shù)據(jù)理論的橋梁監(jiān)測技術研究的革新。
關鍵詞 :Hadoop平臺;大數(shù)據(jù);KNN文本分類算法;HDFS
中圖分類號:U445 文獻標識碼:Adoi:10.3969/j.issn.1665-2272.2015.05.036
0 引言
隨著橋梁事業(yè)的蓬勃發(fā)展,多數(shù)橋梁上建立了健康監(jiān)測系統(tǒng),可以通過傳感器獲取各種環(huán)境下的反映結構響應行為的信息,期間從各個監(jiān)測點收集的數(shù)據(jù)量可達到GB級,而面對海量數(shù)據(jù)卻不能及時得到反映橋梁結構狀態(tài)的有效信息,橋梁結構監(jiān)測系統(tǒng)的分析與處理不能及時完成,大數(shù)據(jù)概念和大數(shù)據(jù)技術的適時出現(xiàn)提供了一個分析處理橋梁監(jiān)測歷史數(shù)據(jù)的途徑。Hadoop作為一個開源的云計算平臺提供了分布式文件系統(tǒng)HDFS和并行編程模型Map/Reduce,以其高容錯性、高伸縮性等優(yōu)點允許用戶將Hadoop部署在大量廉價的硬件上,人們可以充分利用集群的存儲和高速運算能力,完成海量數(shù)據(jù)的處理,其中包括海量文本數(shù)據(jù)的分類問題。分類算法是一種重要的數(shù)據(jù)挖掘算法,該模型通過對海量樣本數(shù)據(jù)進行訓練能把未知類別的樣本映射到給定類別中的某一個,以此判別橋梁狀態(tài)所屬類別,K近鄰(K-Nearest Neighbor,KNN)文本分類算法是基于訓練集的文本分類算法,是一個理論上比較成熟的方法,也是最簡單的機器學習算法之一。
云計算提供的海量數(shù)據(jù)存儲和分布式計算能力在數(shù)據(jù)挖掘以及相關領域中是一種非常受青睞并且有效的方法,結合大數(shù)據(jù)技術和數(shù)據(jù)挖掘算法—KNN文本分類算法進行橋梁健康監(jiān)測,在Hadoop平臺下運用KNN文本分類算法對橋梁結構縮尺模型加速度數(shù)據(jù)進行分類分析,采用分布式文件系統(tǒng)HDFS對監(jiān)測數(shù)據(jù)進行存儲和訪問,應用Map/Reduce并行計算框架對橋梁各環(huán)境參數(shù)進行計算,使用分布式文件系統(tǒng)Hadoop Distributed Filesystem來存儲原始文檔(已分類的數(shù)據(jù))和待分類文檔(監(jiān)測數(shù)據(jù)),將文件讀寫和分布式并行計算框架MapReduce相結合實現(xiàn)KNN文本分類,將監(jiān)測點的監(jiān)測數(shù)據(jù)分到已有的工況中,并據(jù)此判斷監(jiān)測點屬于何種工況,以便采取相關措施對橋梁進行維護,以此來探索基于大數(shù)據(jù)技術的橋梁監(jiān)測分析處理的方法。
1 大數(shù)據(jù)及其應用平臺
“大數(shù)據(jù)”是一個體量很大,數(shù)據(jù)類別多樣的數(shù)據(jù)集,并且這樣的數(shù)據(jù)集無法用傳統(tǒng)數(shù)據(jù)庫工具對其內容進行抓取、管理和處理,主要具有數(shù)據(jù)體量巨大;①數(shù)據(jù)類別大; ②數(shù)據(jù)來自多種數(shù)據(jù)源, 囊括了半結構化和非結構化數(shù)據(jù); ③數(shù)據(jù)處理速度快,在數(shù)據(jù)量非常龐大的情況下, 也能夠做到數(shù)據(jù)的實時處理;④數(shù)據(jù)價值密度低,價值密度的高低與數(shù)據(jù)總量的大小成反比。如何通過強大的機器算法更迅速地完成數(shù)據(jù)的價值“提純”并通過對海量數(shù)據(jù)進行分析獲得有價值的數(shù)據(jù)成為目前大數(shù)據(jù)背景下亟待解決的難題。
Hadoop是Apache軟件基金會旗下的一個開源分布式計算平臺及分布式處理的軟件框架,主要用來處理大量數(shù)據(jù),它實現(xiàn)了MapReduce一樣的編程模式和框架,能在由大量計算機組成的集群中運行海量數(shù)據(jù)并進行分布式計算。處理的海量數(shù)據(jù)能達到PB級別(1PB=1024TB),并可以讓應用程序在上千個節(jié)點中進行分布式處理。以Hadoop分布式文件系統(tǒng)(HDFS,HadoopDistributed Filesystem)和MapReduce(Google MapReduce的開源實現(xiàn))為核心的Hadoop為用戶提供了系統(tǒng)底層細節(jié)透明的分布式基礎架構。HDFS的高容錯性、高伸縮性等優(yōu)點允許用戶將Hadoop部署在低廉的硬件上,形成分布式系統(tǒng);MapReduce分布式編程模型允許用戶在不了解分布式系統(tǒng)底層細節(jié)的情況下開發(fā)并行應用程序,所以用戶可以利用Hadoop輕松地組織計算機資源,從而搭建自己的分布式計算平臺,并且可以充分利用集群的計算和存儲能力,完成海量數(shù)據(jù)的處理。MapReduce 是大規(guī)模數(shù)據(jù)(TB級)計算的利器,Map和Reduce是它的主要思想,來源于函數(shù)式編程語言,Map負責將數(shù)據(jù)打散,Reduce負責對數(shù)據(jù)進行聚集。它的流程如圖1所示。
2 K近鄰文本分類算法
K近鄰(K-Nearest Neighbor,KNN)文本分類算法是基于訓練集的文本分類算法,是一個理論上比較成熟的方法,也是最簡單的機器學習算法之一。該方法的思路是:計算一個點A與其他所有點之間的距離,取出與該點最近的k個點,然后統(tǒng)計這k個點里面所屬分類比例最大的,則點A屬于該分類。根據(jù)加權距離和判斷測試樣本所屬的類別的具體過程如下:
假設給定有m個訓練樣本集D,每個樣本具有n個屬性,di=(σi1,σi2,…,σin),其中i=(1,2,…,m)表示第幾個訓練樣本。
(1)設定k的值,k最近鄰的數(shù)量;
(2)把測試樣本表示成測試文本向量X(ω1,ω2,…,ωn);
(3)根據(jù)下式計算測試樣本與訓練集中所有樣本的相似度:
公式(1)中di為訓練樣本,X為測試樣本。
(4)對根據(jù)步驟(3)計算出的m個相似度進行排序,選出k個最大值,作為X的近鄰;
(5)根據(jù)公式(2)收集這k個最近鄰的類別,
公式(2)中X表示測試樣本,sim(X,di)為相似度計算公式,y(di,Cj)為類別屬性函數(shù),即如果di屬于類別Cj,那么函數(shù)值為1,否則為0。
(6)對步驟(5)計算出的值排序,將測試樣本分到值最大的類別中去。
3 工程實例
3.1 實例模型
本次工程實例根據(jù)云南黑沖溝特大橋全橋作為原型建立,使用的數(shù)據(jù)是由橋梁實驗室的縮尺模型上建立的監(jiān)測系統(tǒng)收集到的,原型立面圖(見圖2)。
試驗獲得以下三種工況的加速度時間序列:工況一,跨中無裂縫,模擬無損傷情況;工況二,跨中具有0.1mm裂縫,模擬有損傷情況;工況三,跨中有0.12mm+0.03mm兩條裂縫情況,模擬損傷加劇情況。
根據(jù)本次動力學試驗的研究目的,確定試驗的主要測試內容為模型結構關鍵部位加速度,該測試項目可采用壓電加速度傳感器進行量測,采用重錘敲擊的方式,給模型提供激勵,來模擬完成脈動試驗,采樣頻率為18.8Hz,在激振器開始激振5s后進行采樣,采樣時間為50s,獲取各個測點的加速度數(shù)據(jù),特征選擇方法采用文檔頻率,k取30。
3.2 文檔預處理
本次工程實例的樣本數(shù)據(jù)是通過縮尺模型重錘敲擊獲取的加速度數(shù)據(jù),監(jiān)測系統(tǒng)收集了不同工況下的監(jiān)測數(shù)據(jù),對損傷前即健康狀況,損傷后0.1mm裂縫和損傷加劇0.12mm+0.03mm裂縫進行樣本數(shù)據(jù)訓練分析,獲取不同的損傷情況下各個監(jiān)測點的分類情況,得出每個監(jiān)測點的損傷情況,實驗選定0.12mm+0.03mm兩條裂縫情況下采用小車激勵的方式獲取該工況下的加速度時程信號作為待分類數(shù)據(jù),通過對監(jiān)測數(shù)據(jù)的分類,判定其是否存在損傷。
待分類文檔節(jié)點中,WCDMapper繼承hadoop平臺的Mapper類,并重寫map方法對待分類文檔進行讀取,并統(tǒng)計每個詞出現(xiàn)的次數(shù);WCDReducer繼承hadoop平臺的Reducer類,并重寫reduce方法對待分類數(shù)據(jù)進行寫操作。WCDMapper類的map方法和WCDReducer類的reduce方法分別如下,處理后的待分類文檔如圖3所示,前面一個是數(shù)據(jù),后一個數(shù)字是該數(shù)據(jù)出現(xiàn)在待分類文檔的次數(shù)。后面的原始文檔經(jīng)過預處理后也與此相似。
由于MapReduce只輸出一個結果,而每個原始文檔都采用MapReduce處理會增加代碼量和內存的消耗,所以本文采用Hadoop平臺提供的FileSystem、FSDataInput-Stream、FSDataOutputStream類來對原始文檔進行相應的讀寫,最后輸出到文檔中的內容與圖4.2相似,而文件讀取方式不同。最后需要將它們合并到一個文檔中,采用Hadoop平臺提供的FileSystem、FSDataInputStream、FSDataOutputStream類來對文件進行讀寫。輸出的matrix文件如圖4.3所示,每一行的第一個數(shù)為監(jiān)測的數(shù)據(jù),后面的數(shù)字為該數(shù)據(jù)在每個文檔中出現(xiàn)的次數(shù)。
3.3 特征選擇
根據(jù)上一步得到的文件,計算每個數(shù)據(jù)的增益值,對每一個數(shù)據(jù)的信息增益進行從大到小排序,最后把增益值最大的個特征項輸出到文件。本次設計中選取的為100,輸出到文件的內容如圖5所示,每一行只顯示1個數(shù)據(jù)。
3.4 文檔向量化
原始文檔和待分類文檔都需要向量化,原始文檔向量化之后需要歸一,而待分類文檔向量化之后不需要歸一,所以給他們分別提供了一個向量化的類。從文件中讀入特征項。參數(shù)文件存儲經(jīng)過特征選擇后剩下的特征項。
原始文檔經(jīng)過向量化之后,輸出到每個文檔的內容不一樣,圖6是文檔名為0向量化后的部分內容。待分類文檔的向量化后不需要歸一化,輸出到文檔的內容如圖7所示。
3.5 分類
此步驟計算原始文檔和待分類文檔向量兩個向量的夾角的余弦。最后的絕對值越大,說明夾角越小,越相似,距離越近。在訓練文本集中選出與新文本最相似的個文本,這個文檔中屬于哪一類的文檔最多,則待分類的文檔就屬于哪一類。map( )方法獲取待分類文檔的向量,reduce( )方法輸出結果到文件中。分類的結果表示待分類的文檔屬于哪一類,也即是該監(jiān)測數(shù)據(jù)來源的監(jiān)測點的損壞情況屬于哪一類。本次實驗選定0.12mm+0.03mm兩條裂縫情況,采用小車激勵的方式獲取該工況下的加速度時程信號,數(shù)據(jù)分類結果如圖8所示,該結果顯示待分類的文檔屬于損傷0.1mm這一類。
3.6 結果分析
在上一步中已經(jīng)獲得了待分類文檔分類的結果,此分類結果的數(shù)據(jù)只是監(jiān)測數(shù)據(jù)的一部分,而且在分類中由于KNN分類的值選取沒有較好的方法以及其他影響因素,獲得的結果可能有誤。因此將監(jiān)測點傳來的數(shù)據(jù)拆分到若干個帶分類文檔中,同時對這些文檔進行分類。分類完成之后再對分類結果進行整合分析,獲得最終的有效的結果即該監(jiān)測點準確的損傷情況。Map( )方法讀取各個待分類文檔分類的結果,并對結果匯總加以分析,獲得監(jiān)測點數(shù)據(jù)最后的分類結果,reduce( )方法將最后的有效結果寫入文件。最后的輸出結果如圖9所示。
綜上所述,基于MapReduce編程模型的橋梁監(jiān)測信息分類技術可以有效判別橋梁狀態(tài)所屬類別,由于HDFS將大數(shù)據(jù)分割成了若干個blocks存儲在不同的節(jié)點上,這樣KNN分類算法由一個主機的運算分散到多個節(jié)點并行處理,每個節(jié)點完成T個任務,時間復雜度為O(ns)/T,其中n為訓練樣本的總數(shù),s為特征屬性數(shù)模,應用HADOOP平臺的分布式處理框架大大降低了算法的時間復雜度。
4 結論
本文針對橋梁健康監(jiān)測系統(tǒng)歷史數(shù)據(jù)無法有效利用,無法通過海量數(shù)據(jù)實時精確地監(jiān)測評估橋梁結構狀態(tài)的困難性,基于數(shù)據(jù)挖掘算法理論,提出了基于大數(shù)據(jù)的橋梁健康監(jiān)測信息分類研究技術的革新,在Hadoop平臺下運用KNN文本分類算法對橋梁結構縮尺模型加速度數(shù)據(jù)進行分類分析,采用分布式文件系統(tǒng)HDFS對監(jiān)測數(shù)據(jù)進行存儲和訪問,應用Map/Reduce并行計算框架對橋梁各環(huán)境參數(shù)進行計算,將文件讀寫和分布式并行計算框架MapReduce相結合實現(xiàn)KNN文本分類,將監(jiān)測點的監(jiān)測數(shù)據(jù)分到已有的工況中,并據(jù)此判斷監(jiān)測點屬于何種工況,實現(xiàn)了橋梁監(jiān)測海量數(shù)據(jù)的存儲、訪問、分類以及橋梁結構健康狀況的判別,Hadoop平臺下的KNN算法實現(xiàn)了分布式并行計算,提高了算法運行時間效率,降低了時間復雜度,通過實驗室縮尺模型實驗驗證了方法的有效性。
存在的不足之處是值的選擇,值選擇過小,得到的近鄰數(shù)過少,會降低分類精度,同時也會放大噪聲數(shù)據(jù)的干擾;而如果值選擇過大,并且待分類樣本屬于訓練集中包含數(shù)據(jù)數(shù)較少的類,那么在選擇個近鄰的時候,實際上并不相似的數(shù)據(jù)亦被包含進來,造成噪聲增加而導致分類效果的降低。如何選取恰當?shù)闹狄渤蔀镵NN的研究熱點,尚需進一步改進。
參考文獻
1 黃荷.大數(shù)據(jù)時代降臨[J]. 黨政論壇,2012(11)
2 金鵬. 基于Hadoop的SINN文本分類算法的設計與實現(xiàn)[D]. 武漢:華中師范大學碩士學位論文,2013
3 李登榮.文本分類及其相關技術研究[D].復旦大學博士論文,2005
4 Samovsky M, Kacur T. Cloud-based classification of text documents using the Gridgain platform[C]. Applied Computational Intelligence and Informatics,2012(7)
5 Caruana G, Li M, Qi M. A MapReduce based parallel SVM for large scale spam filtering[C]. Fuzzy Systems and Knowledge Discovery, 2011 (4)
6 Viktor Mayer-Sch nberger.Big Data[M].杭州:浙江人民出版社,2013(1)
7 (英)維克托·邁爾-舍恩伯格,肯尼思·庫克耶著.大數(shù)據(jù)時代[M]. 北京:人民出版社,2012
8 向小軍,高陽,商琳,等.基于Hadoop平臺的海量文本分類的并行化[J].計算機科學,2011(10)
9 (美)Tom White著. 周敏奇,王曉玲,金澈清,錢衛(wèi)寧譯. Hadoop權威指南(第2版) [M]. 北京:清華大學出版社,2011
10 萬川梅,謝正蘭. 深入云計算:Hadoop應用開發(fā)實戰(zhàn)詳解[M]. 北京:中國鐵道出版社,2013
11 張寧,賈自艷,史忠植.使用KNN算法的文本分類[J].計算機工程,2005(6)
關鍵詞:大數(shù)據(jù);高校應用;發(fā)展方向
1大數(shù)據(jù)概要
近年來,當人們還對物聯(lián)網(wǎng)、云計算、移動互聯(lián)網(wǎng)等熱詞感覺新穎的時候,大數(shù)據(jù)(BigData)也橫空出世并呈燎原之勢。大數(shù)據(jù)是一個體量大、數(shù)據(jù)類別多的數(shù)據(jù)集,并且這樣的數(shù)據(jù)集不能用傳統(tǒng)數(shù)據(jù)庫工具對其進行處理。如果說傳統(tǒng)數(shù)據(jù)庫時代的數(shù)據(jù)管理方式是“池塘捕魚”,那么大數(shù)據(jù)時代的數(shù)據(jù)管理方式則是“大海捕魚”,大數(shù)據(jù)管理方式,不僅在數(shù)據(jù)規(guī)模、數(shù)據(jù)類型、數(shù)據(jù)模式、數(shù)據(jù)對象處理工具上和傳統(tǒng)數(shù)據(jù)模式有著明顯的差異,它還能讓我們以一種從未涉足過的方式,對巨量數(shù)據(jù)進行分析,從而能幫助我們獲得更有價值的產品和服務,最終形成影響社會發(fā)展的變革之力。
2高校管理中的大數(shù)據(jù)初步應用
據(jù)教育部統(tǒng)計截至2013年,全國共有普通本科院校879所、普通高職(專科)院校1266所、國家批準設立的獨立學院287所(不含軍事院校和港澳臺院校),每所高校學生人數(shù)都破萬,每名學生都存在學籍、選課、考試、考勤、學費、學分等各種數(shù)據(jù);對于教師有教師基本信息、職稱、論文、課件、考題等數(shù)據(jù)。故高校信息系統(tǒng)是數(shù)據(jù)生產大戶,長期運營積累下來的數(shù)據(jù)就是高校中的大數(shù)據(jù),合理利用這些數(shù)據(jù),不僅可以幫助教學管理,減輕教學工作中的事務性工作,更能提高招生推廣活動,改變教學領域的授課和學習模式,不論高校自身,還是社會各界,都能從高校中的大數(shù)據(jù)應用受獲益匪淺。
2.1個性化學習
從孔孟時代開始,我們就提出了因材施教,個性化學習也是教育所追求的最高目標。要實現(xiàn)這目標,首先要了解受教育對象的長處、短處,各種特點。但目前高校擴招,一個教師教多個教學班,很難去了解每一個學生的特點實施教學,將大數(shù)據(jù)挖掘技術與日常教學相結合,通過可視化的在線學習平臺,學生自主選擇自己感興趣的課程學習,就能夠實現(xiàn)滿足個性化學習的功能。學生在自主學習平臺上的學習資料,交流互動信息,每個知識點不同的學習進度等,通過大數(shù)據(jù)技術對這些個性化信息的分析拓展,不僅能幫助學生完善知識結構,更能加快學生對自身興趣愛好的挖掘和特長的培養(yǎng),在整個教育信息化的大背景下,只有基于大數(shù)據(jù)技術才能更好地實現(xiàn)這種學習方式,充分利用大數(shù)據(jù)技術,可以為各地高校帶來更具有針對性的教育方式,能夠實現(xiàn)盡可能早的將學生的天賦創(chuàng)造力釋放出來。
2.2教學質量評估
教學質量評估是全國每個高校定期要做的事務性工作,其目的是通過不同渠道,包括老師,同學,行政部門等不同角度對教學評估,以期發(fā)現(xiàn)教學工作、管理工作中存在的各類問題,并及時地通過調整教學方案等手段來改正完善,達到提高教學質量的目的。在教育評估系統(tǒng)中引入大數(shù)據(jù)技術,不僅從時間成本上節(jié)約,更能加強評估的科學性,增強了教育數(shù)字化建設的實效性。在教學質量評估中利用基于大數(shù)據(jù)挖掘的智能算法,我們就可以根據(jù)教師教學互動、多媒體課件的效果、學生積極性等因素中找出其中的內在聯(lián)系,就能為教學評估部門提供客觀的、科學的、符合實際的決策支持信息,為教師提供準確的反饋信息,使之更好地開展教學工作,提高教學質量。
2.3專業(yè)培養(yǎng)方向拓展
大數(shù)據(jù)技術是新興的,但它卻又發(fā)展迅速,朝夕之間,大數(shù)據(jù)技術應用到了各行各業(yè),面對大數(shù)據(jù)帶來的挑戰(zhàn)與機遇,國內各大高校根據(jù)各個行業(yè)的大數(shù)據(jù)分析,可準確評估出未來幾年社會需要的專業(yè)性人才方向,如數(shù)據(jù)采樣量大,完整,還能直接分析出各個專業(yè)的需求人數(shù),從而更好地開設專業(yè)培養(yǎng)方向,適當調整專業(yè)招收人數(shù),以免再現(xiàn)前幾年出現(xiàn)的入學時,專業(yè)很火爆,到學生畢業(yè)時,卻又人才過剩。
2.4分析決策
一切要拿事實說話,在做重大決策時候,我們更需要用事實,用數(shù)據(jù)來參考。在實際運用中,我們通過高校業(yè)務管理方面的專家,在不考慮數(shù)據(jù)結構化問題的前提下,將理念累積的管理知識整理,并轉化成數(shù)據(jù)知識,形成數(shù)據(jù)中心知識庫,再利用大數(shù)據(jù)技術,對數(shù)據(jù)進行收集、分類、抽取、清洗、轉換,提取出我們需要的數(shù)據(jù),以新的組合形式儲存到數(shù)據(jù)倉庫中。在數(shù)據(jù)倉庫的基礎上,建立通用的和面向主題的分析平臺,實現(xiàn)從不同的維度進行統(tǒng)計分析,最終實現(xiàn)為不同層次決策者們提供數(shù)據(jù)支持。
2.5心理咨詢
互聯(lián)網(wǎng)移動應用的普及,學校論壇、微博公共平臺上每天都會產生主題,評論等數(shù)據(jù),對這些數(shù)據(jù)進行科學的存儲分析,可從中分析出師生的思想情況、情感走向和行為動態(tài),再利用這些行為動態(tài),建立師生情感模型,便可以掌握師生的心理健康程度,有針對性地加強對師生的心理輔導。目前高校信息系統(tǒng)數(shù)據(jù)因早期規(guī)劃,數(shù)據(jù)平臺不一致等問題,普遍存在數(shù)據(jù)的質和量都不高,許多高校的數(shù)據(jù)僅停留在記錄保存上面,對數(shù)據(jù)很難分析和利用而想要充分利用大數(shù)據(jù)技術,提升高校的信息化水平,就必須要有保質保量的數(shù)據(jù)來源,這就要求高校業(yè)務必須和計算機技術緊密結合,并且需要不斷迭代更新,跟上技術發(fā)展的腳步。目前的情況來看,高校大數(shù)據(jù)應用還存在著一些問題,還需要進一步地修正和探索。
參考文獻:
[1]維克托邁爾舍恩伯格.大數(shù)據(jù)時代[M].杭州浙江人民出版社,2013