公務員期刊網 論文中心 正文

大數據下計算機信息數據處理技術淺析

前言:想要寫出一篇引人入勝的文章?我們特意為您整理了大數據下計算機信息數據處理技術淺析范文,希望能給你帶來靈感和參考,敬請閱讀。

大數據下計算機信息數據處理技術淺析

摘要:通過圍繞計算機數據信息處理的任務,借助于后臺服務器、數據庫、存儲單元等硬件設施,以及Hadoop文件系統(tǒng)架構、SOA服務體系、HDFS分布式存儲等大數據技術,進行計算機數據信息處理系統(tǒng)的建構,提供虛擬機資源調度、分布式數據計算、任務處理等服務,來完成海量化數據資源的搜集、處理與存儲。

關鍵詞:大數據;信息數據處理;網絡架構

1大數據技術的主要內容概述

當前常用的大數據技術,包括Hadoop文件系統(tǒng)架構、SOA服務體系、HDFS分布式存儲等。其中Hadoop分布式數據處理架構,屬于大數據云計算系統(tǒng)的平臺即服務層,包括Collect(匯總)、Map(映射)、Reduce(歸約)等組成部分,主要秉持著先進先出的動態(tài)化任務調度理念。針對已搜集的海量化數據信息,利用Map映射函數建立兩組數據的映射規(guī)則,并向多個主節(jié)點、從節(jié)點的任務處理需求,動態(tài)分配虛擬主機,實現(xiàn)某一數據類型的映射、歸約操作。之后SOA服務體系為面向服務的組件模型,通常包含服務工作流、服務接口、服務注冊、服務訪問和服務查找等組件。該服務架構通過TCP/IP網絡通信協(xié)議、定義的I/O接口,將某一應用程序的多個功能服務單元進行連接,并將多個分布式的服務組件進行封裝,為用戶提供需要的Web數據發(fā)送與接收、業(yè)務處理等的服務[1]。最后,HDFS分布式存儲是以分布式形式,對互聯(lián)網中海量化的數據信息作出存儲,主要包括數據資源管理、存儲等節(jié)點。HDFS的存儲單元為每個數據塊(block),而數據節(jié)點(DataNode)、元數據節(jié)點(Namenode)負責數據信息的寫入和讀出,其中數據塊的單個最小存儲單位是64Mbits。在HDFS文件系統(tǒng)HDFS框架的中心服務器,收到外部客戶端的數據訪問請求后,可以通過數據節(jié)點、元數據節(jié)點對數據訪問、目錄創(chuàng)建和數據存儲等作出控制,實現(xiàn)對不同數據資源的處理與存儲。

2大數據計算機信息處理的多層網絡架構

基于大數據及云計算技術的計算機信息處理系統(tǒng),通常為包含基礎硬件設備、資源虛擬化硬件、用戶與映像管理、SOA服務體系的多層網絡架構,不同層級分別負責不同的硬件支持、任務響應、數據處理與存儲工作[2]。1)硬件設施資源層。物理資源層為多層網絡架構的最底層,包括計算機、后臺服務器、數據庫、存儲器和網絡交換機等硬件設備,不同設備之間經由定義的I/O接口進行連接,來為網絡資源虛擬化池、虛擬化計算機的建構提供支持。2)資源虛擬化層。資源虛擬化層是依托于后臺服務器,對多臺計算機主機、數據信息服務硬件等進行虛擬化,該層級存在網絡資源池、數據資源池、存儲與計算資源池等組成部分。在任務管理中間層收到前端用戶,發(fā)送的web網絡訪問、數據處理與存儲請求后,會充分借助資源虛擬化層的分布式虛擬硬件,為不同用戶任務執(zhí)行匹配合適的虛擬化硬件資源。3)映像與用戶管理層。映像與用戶管理層是負責不同數據之間映像、映射規(guī)則建立,以及用戶權限、任務請求管理的層級。其中用戶管理包括用戶身份、用戶許可、用戶請求等的管理模塊;映像管理包括映像創(chuàng)建、映像部署、映像庫管理和映像周期管理等組成模塊,負責對后臺服務器端搜集的數據信息,建立起兩組數據的映射規(guī)則,并作出映像周期的合理控制[3]。4)SOA服務體系層。SOA體系是是一種精確定義接口、松耦合的服務架構,包含服務工作流、服務接口、服務注冊、服務訪問和服務查找等組件結構。多種服務組件為即插即用的排布方式,也即可以先進行用戶安全檢查、再作服務處理與管理,也可以按相反順序執(zhí)行服務,多種服務執(zhí)行有明確的接口定義、業(yè)務代碼。

3計算機數據信息處理涉及到的大數據關鍵技術

3.1數據挖掘技術

大數據挖掘技術是對網絡海量數據資源,進行快速收集、篩選、處理與存取的技術,通常利用關聯(lián)分析、聚類分析等的數據挖掘算法,對存在關聯(lián)性的、有價值的數據內容作出挖掘。當前網絡數據信息處理中用到的大數據挖掘技術,包含數據獲取、數據預處理、數據清洗、數據變換和數據評估等內容,各功能模塊分別負責多個數據挖掘步驟的執(zhí)行。

3.2分布式計算技術

分布式計算為多種Agent技術、Webservice技術等融合的計算技術,其可以通過中間件為不同數據傳輸與處理、軟件應用執(zhí)行提供支持。在利用分布式計算技術對海量數據信息進行處理過程中,會將復雜的數據處理步驟,分解為若干個小的軟件處理任務,再依托于虛擬化計算機硬件資源,多多種數據處理任務分配相應的元數據節(jié)點,不同節(jié)點負責特定的資源調度、分布式任務執(zhí)行,因而使用虛擬機進行數據批量處理的效率更高、成本更低。

4大數據技術在計算機數據處理中的應用流程研究

4.1數據采集

大數據技術支持下的數據信息處理系統(tǒng),包括數據采集、數據讀取、數據預處理、虛擬化資源調動、數據分析等的執(zhí)行流程,其分布式數據處理的組成架構如圖1所示。當前局域網絡中的計算機數據信息采集,通常涉及經營資本、財務流轉、業(yè)務執(zhí)行和人力資源管理等的數據,特別在大量臨時文件、數字文檔或日志信息采集的過程中,需要先驗證信息來源的安全性準確性?;贖adoop分布式文件系統(tǒng)的數據信息采集模塊,主要利用Sqoop、Flume等數據采集工具,進行網絡海量化數據資源的采集,再使用SQL語句將現(xiàn)有數據信息,傳輸至后臺服務器、數據庫的硬件端口。

4.2數據處理

數據預處理模塊通常采取均值法、平滑法等處理方式,對廣域網或局域網的網絡空間中,存在的錯誤、冗余度高數據信息作出處理,主動過濾掉帶有噪聲的、重復性的、空值的數據,對網絡數據預處理的計算公式為R=Qq+Ww+Ee。在完成企事業(yè)單位的數據信息采集后,可以依托大數據云服務平臺的虛擬化資源池,設置設置時間系數Q、負荷系數W、緩存系數E,并設定時間系數Q的A1、A2和A3預設值,以及負荷系數W的B1、B2和B3預設值,緩存系數E的C1、C2和C3預設值。然后根據虛擬化資源池中不同數據處理任務的不同權重,分配預設值q、w和e(q<w﹤e)。將多種數據信息的處理任務代入以上公式,得出海量大數據的與處理結果,并將數據處理的R值與原始預設值r作比較,若R≤r則生成并輸出正常的數據處理信號。

4.3虛擬化資源任務調度

整個大數據信息處理過程中的虛擬化資源調度,主要針對不同數據信息的業(yè)務處理需求,選擇合適的分布式算法、網格算法等模型,在邏輯或物理操作層,向不同任務分配特定的虛擬化節(jié)點,進行用戶訪問管理、數據映射及處理的功能執(zhí)行。虛擬資源管理、任務分配,主要對虛擬機負載、故障情況進行監(jiān)測與統(tǒng)計,來保障虛擬資源運行的負載均衡與安全。該任務調度的執(zhí)行流程為:將m個任務(Task),調度到n個元數據節(jié)點進行執(zhí)行,假定設置單個任務執(zhí)行時間為TET(TaskExecutionTime),則第i個任務在第j個資源中的執(zhí)行時間為:CET(i,j)=starttime(j)+TET(i,j)在資源虛擬化硬件中,所有數據信息處理任務執(zhí)行完成的總時間為:T=min{T1,T2,T3,…,Ti}4.4數據分析數據分析是對挖掘到的數據處理、任務執(zhí)行結果,進行全方位的價值評估。在映像與用戶管理層完成用戶身份、權限與網絡安全的審查后,由SOA服務體系層發(fā)送傳輸的數據信息處理信號,保證整個數據分析流程的安全穩(wěn)定性。當后臺服務器的虛擬化網絡系統(tǒng),接收到傳送的數據信息處理信號后,從虛擬控制器模塊讀取、提取出某一時間段內的數據信息,存儲于后臺數據庫、模塊化存儲單元等設備中,以便于不同管理主體對數據的訪問、調用和共享。

5結語

大數據資源整合、云服務信息處理時代的到來,使得不同企事業(yè)單位都開始利用大數據技術、云計算服務平臺,進行內部數據收集與傳輸、業(yè)務處理活動的開展。因此,依托后臺服務器、網絡云平臺的分布式計算技術,大數據云服務系統(tǒng)可針對多種數據信息處理、虛擬計算機運行負載等的任務,進行用戶身份驗證、數據處理與傳輸審計的安全管理,以及實時任務執(zhí)行監(jiān)測、故障統(tǒng)計,完成多種分布式計算、數據分類存儲與管理的工作,以保證系統(tǒng)運行的安全性。

參考文獻

[1]羅田琪.大數據時代背景下計算機信息處理技術的分析[J].電子元器件與信息技術,2021(1):64-65.

[2]熊殿華.基于計算機數據處理接口程序的應用研究[J].西安文理學院學報(自然科學版),2016(4):31-33.

[3]邱火旺,陳文富.大數據技術的應用難點與問題分析[J].電腦編程技巧與維護,2019(5):83-84;113.

作者:孫宇軒 單位:韶關學院信息工程學院

相關熱門標簽