前言:想要寫出一篇引人入勝的文章?我們特意為您整理了智慧水利建設(shè)遙感數(shù)據(jù)處理問題探析范文,希望能給你帶來靈感和參考,敬請閱讀。
[摘要]按照“需求牽引、應(yīng)用至上、數(shù)字賦能、提升能力”的要求,從推進算據(jù)、算法、算力建設(shè)的角度詳細闡述了遙感大數(shù)據(jù)的特征和并行處理研究現(xiàn)狀,梳理了目前先進處理平臺的理論、方法、技術(shù)和最新進展,討論了當前階段所面臨的問題,并提出了一種網(wǎng)格計算和云計算平臺相結(jié)合的云格遙感大數(shù)據(jù)處理平臺設(shè)計框架,旨在為推進智慧水利建設(shè)中急需解決的遙感數(shù)據(jù)處理問題提出解決方案,為推進智慧水利建設(shè)提供支撐。
[關(guān)鍵詞]智慧水利;遙感大數(shù)據(jù);空天地一體化;云計算;云格
隨著治水矛盾發(fā)生深刻變化、治水思路的相應(yīng)調(diào)整,智慧水利建設(shè)面臨著新的形勢和新的挑戰(zhàn)。在加強以數(shù)字化、網(wǎng)絡(luò)化、智能化為主線,以數(shù)字化場景、智慧化模擬、精準化決策為路徑,加快構(gòu)建具有預(yù)報、預(yù)警、預(yù)演、預(yù)案功能的智慧水利體系的新要求下,迫切需要全面推進算據(jù)、算法、算力建設(shè),提升數(shù)據(jù)處理能力。隨著我國信息化建設(shè)不斷推進,信息技術(shù)應(yīng)用越來越廣泛。遙感影像的四高(高時間分辨率、高空間分辨率、高輻射分辨率和高光譜分辨率)化和五多(多區(qū)域、多角度、多時間、多傳感器和多平臺)化發(fā)展,使得利用光學、熱紅外和微波等不同技術(shù)形成的空天地一體化對地觀測系統(tǒng)獲取的不同區(qū)域的多種遙感數(shù)據(jù)堆積成觀測地球空間的海量數(shù)據(jù)“金字塔”[1]。遙感數(shù)據(jù)已成為地理國情監(jiān)測和分析的主要數(shù)據(jù)來源,其含有大量資源環(huán)境信息,可結(jié)合水土保持學、水文學和災(zāi)害學等多學科交叉進行綜合分析。在具體應(yīng)用中,水土保持監(jiān)測、水資源管理、水環(huán)境監(jiān)測、水利工程監(jiān)測、防洪抗旱和水土保持碳匯等情境中所體現(xiàn)出的遙感數(shù)據(jù)的時效性特點對處理所需精度和速度提出了更高的要求。相對于海量遙感影像的存儲、處理和共享等流程的龐大計算量,運用串行處理方式的普通計算機和價格高昂的專用計算機系統(tǒng)遠不足匹配當下實時高效的遙感數(shù)據(jù)處理應(yīng)用需求[2],而目前大力發(fā)展的高性能并行計算技術(shù)在數(shù)據(jù)處理的實時性、算法的自動化程度、具體應(yīng)用的規(guī)?;蠼夥矫娑嫉玫搅藰O大的提升。本研究按照“需求牽引、應(yīng)用至上、數(shù)字賦能、提升能力”的要求,從推進算據(jù)、算法、算力建設(shè)的角度詳細闡述了遙感大數(shù)據(jù)的特征和并行處理研究現(xiàn)狀,梳理了目前先進處理平臺的理論、方法、技術(shù)和最新進展,討論了當前階段所面臨的問題,并提出了一種網(wǎng)格和云計算平臺相結(jié)合的遙感大數(shù)據(jù)處理平臺設(shè)計框架,旨在為推進智慧水利建設(shè)中急需解決的遙感數(shù)據(jù)處理問題提出解決方案,為推進智慧水利建設(shè)提供支撐。
1遙感大數(shù)據(jù)
現(xiàn)代社會生產(chǎn)生活中80%的信息包含地理空間信息。作為地理空間信息的主要來源,遙感大數(shù)據(jù)的處理和分析直接關(guān)系到“國家大數(shù)據(jù)戰(zhàn)略”“智慧水利建設(shè)”的實施成效。根據(jù)中國信息通信院2020年12月的《大數(shù)據(jù)白皮書》,預(yù)測到2035年全球數(shù)據(jù)生產(chǎn)總量將高達2142ZB。遙感數(shù)據(jù)量正呈指數(shù)級增長,日益成為政府、企業(yè)和科研機構(gòu)直接快速提取信息的重要途徑[3]。遙感大數(shù)據(jù)的特點有:①容量大。全球各個系列的航空航天平臺已經(jīng)積累超大容量的遙感數(shù)據(jù),且以每天幾百TB的速度不斷增長。②類型多。遙感數(shù)據(jù)的來源豐富、獲取手段多樣,除了全球分布的觀測網(wǎng)絡(luò)實時接收的大量遙感數(shù)據(jù),還有航拍所得的遙感數(shù)據(jù),以及民眾用戶通過互聯(lián)網(wǎng)和帶有地理信息的手持終端設(shè)備提供的個性化信息。③效率高。遙感大數(shù)據(jù)處理并得到結(jié)果的速度越快,效率就越高。遙感大數(shù)據(jù)本身高效性的體現(xiàn)仍取決于數(shù)據(jù)處理環(huán)節(jié)。目前的數(shù)據(jù)處理速度遠跟不上數(shù)據(jù)獲取速度,在實際應(yīng)用如應(yīng)急救災(zāi)、實時監(jiān)測等對數(shù)據(jù)要求較高的領(lǐng)域,數(shù)據(jù)處理技術(shù)面臨著極大的挑戰(zhàn)。④穩(wěn)定性差。運用衛(wèi)星、無人機等獲取遙感數(shù)據(jù)的過程中,受地物環(huán)境、傳感器和大氣環(huán)境等因素的干擾,獲取的遙感數(shù)據(jù)穩(wěn)定性存在較大差異。特別是受模型近似度影響,遙感數(shù)據(jù)的穩(wěn)定性規(guī)律難以把握。⑤差異性大。目前收集到的遙感數(shù)據(jù)有光學衛(wèi)星遙感數(shù)據(jù)、模擬航片、數(shù)字航片和雷達衛(wèi)星遙感數(shù)據(jù)等,不同種類遙感數(shù)據(jù)的數(shù)據(jù)格式、組織單元、元數(shù)據(jù)格式、波段組合、元數(shù)據(jù)編碼方式各異。⑥價值高。各種遙感數(shù)據(jù)能反映地物的不同屬性,從中能提取出環(huán)境、水文、氣象、森林、農(nóng)作物產(chǎn)量、城市格局、軍事目標和交通信息等多種信息,這些信息對政府決策、科學研究等具有極高的價值。
2遙感大數(shù)據(jù)的并行處理
目前遙感大數(shù)據(jù)的研究工作正處于蓬勃發(fā)展階段,但是采集獲取與有效處理間的巨大落差是限制其潛力充分挖掘的關(guān)鍵。數(shù)據(jù)向知識的極低轉(zhuǎn)換效率會導致數(shù)據(jù)不停堆積,這種存儲和使用間的不對稱關(guān)系所引發(fā)的后果對數(shù)據(jù)本身來說也是災(zāi)難性的。
2.1并行處理
遙感圖像數(shù)據(jù)存儲具有的關(guān)聯(lián)性、規(guī)律性特點和遙感圖像數(shù)據(jù)處理具有的順序性、一致性特點為遙感圖像數(shù)據(jù)的并行計算創(chuàng)造了條件。遙感數(shù)據(jù)的并行處理算法的設(shè)計宗旨是在有限的時間和空間內(nèi)處理更多的遙感圖像數(shù)據(jù)。并行處理算法是基于多節(jié)點協(xié)助處理開展的,把處理任務(wù)分解為多個并行部分,各個并行部分由所接節(jié)點單獨計算完成,具體可以分為任務(wù)并行和數(shù)據(jù)并行,并行處理流程見圖1。目前針對集群環(huán)境圖像并行處理流程的任務(wù)分配和調(diào)度策略方面的研究成果相對較少,研究成果主要集中在對多核并行的研究,特別是對一種任務(wù)多種數(shù)據(jù)并行機制的研究。開展并行計算是提升傳統(tǒng)串行計算效率和跨越性能門檻的發(fā)展趨勢,與串行計算相比,并行計算可分割為多流程、同時間、多空間、多處理器并行完成,極大提升了有限資源的運用效能[4]。在進行串行運算時,海量遙感數(shù)據(jù)處理算法所具有的系統(tǒng)性會對計算機的運行內(nèi)存做出最低程度的限定,這種系統(tǒng)性特征也導致了基礎(chǔ)數(shù)據(jù)并行化計算模型不能對遙感數(shù)據(jù)的系統(tǒng)信息進行有效獲取,從而無法收獲科學有效的分析結(jié)果。以常見的遙感影像分割為例,分割算法決定了遙感數(shù)據(jù)處理與分析能否科學有效,只有建立在科學分割結(jié)果的基礎(chǔ)上,才能深入進行信息提取與目標識別,收獲理想效果。因此,開展高性能、低投入、具有可持續(xù)生產(chǎn)力的“面向全局的局部運算”算法研究就顯得尤為重要。
2.2分布式并行遙感文件系統(tǒng)
對于海量遙感數(shù)據(jù)的存儲,通常由多模塊硬盤搭建的磁盤陣列來完成。為了實現(xiàn)項目組或?qū)嶒炇业确秶鷥?nèi)部的數(shù)據(jù)共享,一般采取存儲局域網(wǎng)等方式[5]。局域網(wǎng)間由光纖相互連接,但這種方式的運轉(zhuǎn)依然受硬盤讀寫速度的限制。為充分發(fā)揮多塊硬盤的讀寫能力,以GPFS、Lustre、PVFS等為代表的分布式文件系統(tǒng)被引入到遙感數(shù)據(jù)的存儲中。最初的分布式文件系統(tǒng)不會區(qū)分數(shù)據(jù)和元數(shù)據(jù),系統(tǒng)會將數(shù)據(jù)與元數(shù)據(jù)設(shè)置相同的物理存儲地址。隨著客戶端的劇增,目前通用的遙感影像分布式處理系統(tǒng)GFS、Lustre采取把數(shù)據(jù)和元數(shù)據(jù)分別放置的模式,將其置于不同服務(wù)器上,數(shù)據(jù)由應(yīng)用服務(wù)器存取,元數(shù)據(jù)由元數(shù)據(jù)服務(wù)器存取,解決了受磁盤吞吐量決定的服務(wù)器處理能力問題,大大增強了文件讀取的效率。GFS作為Google云計算的主要基礎(chǔ)架構(gòu)組成,分管遙感影像數(shù)據(jù)的存儲。GoogleEarth即采用GFS存儲遙感影像數(shù)據(jù)和地理空間文件,為廣大用戶提供瀏覽和應(yīng)用服務(wù)。
3高性能遙感大數(shù)據(jù)處理平臺
傳統(tǒng)遙感處理系統(tǒng)存在不支持并行處理、可擴展性差、數(shù)據(jù)吞吐量較低等問題,無法滿足當前形勢下的遙感大數(shù)據(jù)處理需求。隨著計算機結(jié)構(gòu)由單核向多核化架構(gòu)的轉(zhuǎn)變,高性能數(shù)據(jù)處理系統(tǒng)在遙感數(shù)據(jù)處理中的應(yīng)用越來越多,包括集群高性能處理系統(tǒng)、網(wǎng)格計算處理系統(tǒng)、云計算處理系統(tǒng),以及具有超強處理能力的云格數(shù)據(jù)處理系統(tǒng)等。高性能遙感數(shù)據(jù)處理平臺的應(yīng)用極大緩解了遙感數(shù)據(jù)處理中的大數(shù)據(jù)量、大計算量、大并發(fā)訪問量等問題[6]。
3.1基于超級計算機集群的遙感大數(shù)據(jù)處理平臺
超級計算機由數(shù)以萬計的處理器、獨立設(shè)計的內(nèi)存系統(tǒng)及I/O系統(tǒng)組成。計算機集群是一種由多類分散的計算機軟硬件構(gòu)成的超大規(guī)模計算集群系統(tǒng)。實際應(yīng)用中為應(yīng)對使用超級計算機的高昂代價,研究人員提出了一種新的解決思路,即通過高速網(wǎng)絡(luò)把使用COTS的計算機設(shè)備組成一個集群的概念,以低成本提供高計算能力。這種策略經(jīng)常被稱為Beowulf類型集群計算。在這種策略的指導下越來越多的成本低廉的計算機集群系統(tǒng)被廣泛地運用于遙感數(shù)據(jù)處理領(lǐng)域[7]。在國內(nèi),中國科學院已購置多套機架式和刀片式集群用于遙感數(shù)據(jù)的處理實驗,有效驅(qū)動了基于GPU集群的計算模型和多核GPU集群系統(tǒng)的混合編程等研究課題的發(fā)展。遙感數(shù)據(jù)處理的特點是龐大的數(shù)據(jù)量和復(fù)雜的處理算法,同時它們的獨特性在于遙感影像自身的相似性。根據(jù)這一特點我們可將其切割成塊獨立運行,再將運行結(jié)果合并得到最終成果,這樣就可極大地提高集群的處理能力,滿足快速化、高效化、規(guī)模化的處理需求,其原理如圖2所示。通常處理遙感數(shù)據(jù)的集群規(guī)模組成從幾個到數(shù)萬個節(jié)點不等,根據(jù)節(jié)點的數(shù)量可進行分類,具有較多節(jié)點的集群環(huán)境亦可稱之為超級計算機。建立這種處理遙感數(shù)據(jù)的集群環(huán)境的構(gòu)架必須符合以下三大條件:集群環(huán)境必須具有兩個或兩個以上能夠進行數(shù)據(jù)流通的互通互聯(lián)的計算節(jié)點;集群本質(zhì)上是一種呈分布式的內(nèi)存結(jié)構(gòu),必須能夠完成并行化的遙感數(shù)據(jù)處理過程,即用集群環(huán)境處理的遙感數(shù)據(jù)可以進行拆分且能夠并行化執(zhí)行;集群環(huán)境必須具有并行編譯的環(huán)境,如編譯器、消息傳遞接口等。在對計算機性能要求較高的高分辨率影像提取和高光譜影像處理等領(lǐng)域?qū)嶒灠l(fā)現(xiàn),隨著集群環(huán)境節(jié)點數(shù)量的增加,完成計算任務(wù)的效能在一定程度上得到了提升,但兩者間并非呈正比關(guān)系[8],只有當計算節(jié)點數(shù)量和計算量適當均衡時,系統(tǒng)的性能才會顯示出最大的效率。目前基于集群思想和當前硬件結(jié)構(gòu)條件,研究人員已經(jīng)開發(fā)出一批高效的遙感數(shù)據(jù)處理系統(tǒng),具有代表性的有武漢大學研發(fā)的數(shù)字攝影測量網(wǎng)格軟件、法國的像素工廠軟件等。
3.2基于網(wǎng)格計算的遙感大數(shù)據(jù)處理平臺
網(wǎng)格計算通過對分布式資源———計算機、傳感器、儀器、存儲設(shè)備、軟件和數(shù)據(jù)等的合理調(diào)配,實現(xiàn)在非集中控制的環(huán)境下完成大數(shù)據(jù)量和大計算量的遙感數(shù)據(jù)處理任務(wù)。網(wǎng)格中間件作為網(wǎng)格計算處理的核心,這種分布式異構(gòu)環(huán)境中的標準服務(wù)接口為數(shù)據(jù)和算法提供了一個無縫整合的環(huán)境,為分布于各地的用戶提供協(xié)同式的服務(wù),實現(xiàn)在整個廣域網(wǎng)范圍內(nèi)的計算資源共享。長遠來看,網(wǎng)格計算需要在網(wǎng)格通信協(xié)議、計算資源分配、網(wǎng)格安全認證等關(guān)鍵技術(shù)方面實現(xiàn)突破。基于網(wǎng)格計算的遙感大數(shù)據(jù)處理平臺,不僅實現(xiàn)了基礎(chǔ)層面上的資源優(yōu)化共享,而且能利用各類數(shù)據(jù)資源為具體的應(yīng)用服務(wù),解決遙感大數(shù)據(jù)的存儲、共享和計算問題。但目前技術(shù)領(lǐng)域仍存在一些問題,比如:并不是所有的遙感處理算法都適合網(wǎng)格計算平臺上的并行化處理;當前的算法技術(shù)仍未達到對海量遙感數(shù)據(jù)的大吞吐量處理要求,需要對目前可適用但并不成熟的處理算法進行優(yōu)化改進;網(wǎng)格計算平臺設(shè)施本身的可靠性、系統(tǒng)的穩(wěn)定性和數(shù)據(jù)存儲與共享的安全性等方面仍有待完善。
3.3基于云計算的遙感大數(shù)據(jù)處理平臺
云計算是對分布式計算的進一步發(fā)展,是一種由虛擬化的計算資源構(gòu)成的并行的、分布式的系統(tǒng),能夠根據(jù)服務(wù)提供者擁有的資源和用戶的需求將共享的軟硬件資源以事先約定好的服務(wù)等級協(xié)議進行分配。云計算一般包含基礎(chǔ)設(shè)施層、平臺層和應(yīng)用層三層,能夠提供基礎(chǔ)設(shè)施即服務(wù)(IaaS)、平臺即服務(wù)(PaaS)、軟件即服務(wù)(SaaS)和遙感數(shù)據(jù)即服務(wù)(RdaS)等至少4種形式的服務(wù),解決了當前遙感大數(shù)據(jù)處理時出現(xiàn)的數(shù)據(jù)密集型、計算密集型和瞬時訪問密集型等諸多問題。(1)基礎(chǔ)設(shè)施層。基礎(chǔ)設(shè)施即服務(wù)(IaaS)處于最低層級,用戶可以通過互聯(lián)網(wǎng)從基礎(chǔ)設(shè)施獲得服務(wù),包括硬件、海量存儲和數(shù)據(jù)庫等具體形式?;A(chǔ)設(shè)施即服務(wù)可依據(jù)具體的科學計算優(yōu)化資源,使計算單元、存儲單元和并行單元等與其所需任務(wù)相匹配。(2)平臺層。平臺即服務(wù)(PaaS)處于中間層,它可以針對遙感影像的數(shù)據(jù)挖掘算法、相關(guān)參數(shù)提取、現(xiàn)象動態(tài)模擬等具體處理對開發(fā)環(huán)境進行抽象的封裝,也就是說將服務(wù)器平臺和開發(fā)環(huán)境作為一個整體服務(wù)提供給用戶。(3)應(yīng)用層。應(yīng)用層處于云計算體系結(jié)構(gòu)的頂端,包含軟件即服務(wù)(SaaS)和遙感數(shù)據(jù)即服務(wù)(RdaS)兩種模式。針對遙感大數(shù)據(jù)海量、多維度、分布各異的特點,遙感數(shù)據(jù)即服務(wù)模式提供的數(shù)據(jù)瀏覽和使用服務(wù)可進行多位置軟件引用,用戶無需額外購買軟件即可通過遙感數(shù)據(jù)即服務(wù)模式享受云計算體系內(nèi)的軟件服務(wù),這一點優(yōu)于軟件即服務(wù)模式。一個基于云計算平臺的遙感數(shù)據(jù)處理系統(tǒng)應(yīng)該包含數(shù)據(jù)存儲模塊、數(shù)據(jù)管理模塊、數(shù)據(jù)分析與處理模塊、GIS應(yīng)用模塊和云計算環(huán)境模塊等。根據(jù)這種系統(tǒng)架構(gòu)可以模擬出一種云計算體系結(jié)構(gòu)下的遙感大數(shù)據(jù)處理平臺,如圖3所示。該平臺主要由4個子系統(tǒng)、1個服務(wù)器群及1個數(shù)據(jù)庫群組成,它利用云計算服務(wù)模式將系統(tǒng)內(nèi)所存遙感數(shù)據(jù)開放共享,整體上優(yōu)化了遙感大數(shù)據(jù)處理,并且這種開放式的系統(tǒng)可以及時王雋雄等:推進智慧水利建設(shè)急需解決的遙感數(shù)據(jù)處理問題研究·76·完成自我維護和資源更新,從而提高遙感數(shù)據(jù)處理與分析效率。
3.4基于云格的遙感大數(shù)據(jù)處理平臺
網(wǎng)格計算著重于提供任務(wù)分解后的并行計算,而云計算在此基礎(chǔ)上實現(xiàn)了抽象資源的平臺化服務(wù),如果能將兩種技術(shù)結(jié)合應(yīng)用實現(xiàn)互補,則將實現(xiàn)遙感大數(shù)據(jù)的處理技術(shù)質(zhì)的飛躍。李德仁等[9]對遙感大數(shù)據(jù)自動分析和數(shù)據(jù)挖掘進行了理論層面的研究。曾志等[10]提出利用云計算增強網(wǎng)格基礎(chǔ)設(shè)施的機制實現(xiàn)云計算和網(wǎng)格的集成,達到資源虛擬化管理,并提出了基于網(wǎng)格計算和云計算環(huán)境下的資源與服務(wù)一體化的異構(gòu)資源統(tǒng)一建模方法。在此背景下,基于云格的遙感大數(shù)據(jù)處理平臺應(yīng)運而生。在云格平臺中,云可以是數(shù)據(jù)服務(wù)云、軟件服務(wù)云、硬件環(huán)境服務(wù)云,亦或是兩種或多種組合服務(wù)云,也包含私有云(由第三方提供的付費服務(wù))、公有云(一個單位內(nèi)部共享的數(shù)據(jù)服務(wù))和混合云(包含公有云和私有云兩種)。由于云計算平臺和網(wǎng)格計算平臺的聯(lián)合應(yīng)用研究仍處于實驗和研究階段,因此目前并沒有一個成熟的應(yīng)用范例。將網(wǎng)格平臺和云平臺優(yōu)化整合實現(xiàn)云格平臺架構(gòu)的方法和機制靈活多樣,在云格平臺中,以網(wǎng)格平臺為基礎(chǔ)在計算和存儲等基礎(chǔ)設(shè)施方面提供保障,再通過統(tǒng)一的標準規(guī)范將云計算平臺和網(wǎng)格平臺提供的服務(wù)進行整合,兩種平臺間亦可以實現(xiàn)數(shù)據(jù)的傳輸和共享,共同實現(xiàn)高效率的數(shù)據(jù)處理。基于以上思路,本研究提出可以將多種云計算平臺和網(wǎng)絡(luò)計算平臺按照統(tǒng)一的標準規(guī)范利用聚合工具構(gòu)建出一個統(tǒng)一開放的云格服務(wù)平臺。在這個開放的云格服務(wù)平臺中,云計算平臺和網(wǎng)格計算平臺兩種系統(tǒng)共存且互不影響,兩種系統(tǒng)都以各自的方式整合資源,這樣不僅能充分發(fā)揮出網(wǎng)格計算平臺的超強計算與存儲潛力,而且能集成云計算平臺的云存儲、云處理、云組裝和云服務(wù)優(yōu)勢,設(shè)置一個統(tǒng)一的管理中心用以實現(xiàn)兩種資源與其他資源間的傳輸與調(diào)配,整個系統(tǒng)始終以一種開放的狀態(tài)不斷進行著自我完善和更新,用戶可以通過統(tǒng)一的賬戶入口快速訪問相關(guān)資源和鏈接所需服務(wù)。
4結(jié)語
隨著推進智慧水利建設(shè)新形勢的要求和信息技術(shù)在廣度和深度層面的不斷突破,遙感大數(shù)據(jù)“質(zhì)”的進步和“量”的積累帶來了一場新的機遇和挑戰(zhàn)。如何實現(xiàn)“數(shù)據(jù)向知識,知識向決策”的迅速轉(zhuǎn)化是目前急需解決的問題,而開展遙感大數(shù)據(jù)的高效處理研究提供了新的思路和方法。在以地理空間信息服務(wù)為主的大數(shù)據(jù)時代,面向“智慧水利建設(shè)”的新要求,數(shù)據(jù)資源已成為關(guān)鍵生產(chǎn)要素,是“數(shù)字化場景、智慧化模擬、精準化決策”的“新能源”,而推進遙感大數(shù)據(jù)算據(jù)、算法、算力建設(shè)必然會在水土流失防治、水資源管理、水環(huán)境監(jiān)測、水利工程監(jiān)測、防洪抗旱和水土保持碳匯研究等具體領(lǐng)域發(fā)揮巨大作用。
作者:王雋雄 李陽 王宇菲 單位:水利部水土保持監(jiān)測中心 黃河水利委員會 自然資源部