前言:想要寫出一篇引人入勝的文章?我們特意為您整理了測(cè)繪地理信息技術(shù)災(zāi)害信息提取方法范文,希望能給你帶來(lái)靈感和參考,敬請(qǐng)閱讀。
摘要:隨著網(wǎng)絡(luò)技術(shù)迅速發(fā)展,海量數(shù)據(jù)分布在萬(wàn)維網(wǎng)內(nèi),如何從數(shù)據(jù)中挖掘到特定的需要的數(shù)據(jù)成為時(shí)下研究的熱點(diǎn)。網(wǎng)絡(luò)爬蟲是一種按照一定的規(guī)則,自動(dòng)抓取萬(wàn)維網(wǎng)信息的程序或者腳本。本文探討使用網(wǎng)絡(luò)爬蟲的概念和方法,開(kāi)發(fā)基于互聯(lián)網(wǎng)的聚焦網(wǎng)絡(luò)爬蟲軟件,迅速通過(guò)互聯(lián)網(wǎng)搜索山洪災(zāi)害點(diǎn)相關(guān)及時(shí)的第一手資料,形成對(duì)災(zāi)害的第一認(rèn)識(shí)。再經(jīng)過(guò)人工判讀,精確動(dòng)態(tài)提取、更新山洪災(zāi)害信息專題成果。
關(guān)鍵詞:萬(wàn)維網(wǎng);聚焦網(wǎng)絡(luò)爬蟲;山洪災(zāi)害;動(dòng)態(tài)提取
1.引言
隨著網(wǎng)絡(luò)的迅速發(fā)展,萬(wàn)維網(wǎng)成為大量信息的載體。網(wǎng)絡(luò)信息更新及時(shí),傳遞速度快,只要信息收集者及時(shí)發(fā)現(xiàn)信息,就可以保證較強(qiáng)的信息時(shí)效性。面對(duì)海量數(shù)據(jù),如何有效地提取并利用這些信息成為一個(gè)巨大的挑戰(zhàn)。定向抓取相關(guān)網(wǎng)頁(yè)資源的聚焦爬蟲可提取特定的需要的信息。網(wǎng)絡(luò)爬蟲(又被稱為網(wǎng)絡(luò)機(jī)器人,網(wǎng)頁(yè)蜘蛛),是一種按照一定的規(guī)則,自動(dòng)地抓取萬(wàn)維網(wǎng)信息的程序或者腳本。聚焦爬蟲是一個(gè)自動(dòng)下載網(wǎng)頁(yè)的程序,它根據(jù)既定的抓取目標(biāo),有選擇的訪問(wèn)萬(wàn)維網(wǎng)上的網(wǎng)頁(yè)與相關(guān)的鏈接,獲取所需要的信息。與通用爬蟲(generalpurposewebcrawler)不同,聚焦爬蟲并不追求大的覆蓋,而將目標(biāo)定為抓取與某一特定主題內(nèi)容相關(guān)的網(wǎng)頁(yè),為面向主題的用戶查詢準(zhǔn)備數(shù)據(jù)資源。物聯(lián)網(wǎng)蘊(yùn)含了大量的動(dòng)態(tài)災(zāi)害信息,是及時(shí)獲取目標(biāo)區(qū)域?yàn)?zāi)害點(diǎn)信息的重要途徑。傳統(tǒng)搜索引擎技術(shù)缺乏基于空間語(yǔ)義的認(rèn)知和推理能力,無(wú)法識(shí)別災(zāi)害發(fā)生的空間位置信息,無(wú)法提供基于互聯(lián)網(wǎng)的區(qū)域化災(zāi)害動(dòng)態(tài)監(jiān)控服務(wù)。本文基于聚焦網(wǎng)絡(luò)爬蟲有效收集網(wǎng)絡(luò)上的災(zāi)害信息,精準(zhǔn)過(guò)濾反映災(zāi)害信息內(nèi)容的網(wǎng)頁(yè),獲取災(zāi)害事件的時(shí)間、空間位置以及災(zāi)害點(diǎn)信息。依托該系統(tǒng),可結(jié)合傳統(tǒng)的人工判讀技術(shù),依據(jù)地物波譜特性、空間特征和成像機(jī)制以及所掌握的地學(xué)規(guī)律,通過(guò)分析地物影像特征來(lái)識(shí)別災(zāi)害點(diǎn),準(zhǔn)確提取、更新災(zāi)害信息專題數(shù)據(jù),及時(shí),輔助決策者參考使用。
2.聚焦網(wǎng)絡(luò)爬蟲概述
聚焦網(wǎng)絡(luò)爬蟲可以在較短的時(shí)間里,使用較少的硬件資源,獲取到更多與主題相關(guān)的信息。相對(duì)于通用網(wǎng)絡(luò)爬蟲,聚焦爬蟲的工作原理較為復(fù)雜,根據(jù)一定的網(wǎng)頁(yè)分析算法過(guò)濾掉主題無(wú)關(guān)的鏈接,保留有用的鏈接并將其放入等待抓取的URL隊(duì)列。然后,它將根據(jù)一定的搜索策略從隊(duì)列中選擇下一步要抓取的網(wǎng)頁(yè)URL,并重復(fù)上述過(guò)程,直到達(dá)到系統(tǒng)的某一條件時(shí)停止。本文網(wǎng)絡(luò)爬蟲引擎采用聚焦網(wǎng)絡(luò)爬蟲(FocusedCrawler),又稱主題網(wǎng)絡(luò)爬蟲(TopicalCrawler),是指選擇性地爬行那些與預(yù)先定義好的主題相關(guān)頁(yè)面的網(wǎng)絡(luò)爬蟲。和通用網(wǎng)絡(luò)爬蟲相比,聚焦爬蟲只需要爬行與主題相關(guān)的頁(yè)面,極大地節(jié)省了硬件和網(wǎng)絡(luò)資源,保存的頁(yè)面也由于數(shù)量少而更新快,還可以很好地滿足一些特定人群對(duì)特定領(lǐng)域信息的需求。聚焦網(wǎng)絡(luò)爬蟲和通用網(wǎng)絡(luò)爬蟲相比,增加了鏈接評(píng)價(jià)模塊以及內(nèi)容評(píng)價(jià)模塊。聚焦爬蟲爬行策略實(shí)現(xiàn)的關(guān)鍵是評(píng)價(jià)頁(yè)面內(nèi)容和鏈接的重要性,不同的方法計(jì)算出的重要性不同,由此導(dǎo)致鏈接的訪問(wèn)順序也不同。
3.山洪災(zāi)害信息
山洪是指山區(qū)溪溝中發(fā)生的暴漲洪水。山洪具有突發(fā)性,水量集中流速大、沖刷破壞力強(qiáng),水流中挾帶泥沙甚至石塊等,常造成局部性洪災(zāi),一般分為暴雨山洪、融雪山洪、冰川山洪等。山洪災(zāi)害常伴有山體崩塌、山體滑坡、泥石流等。山洪災(zāi)害信息是救災(zāi)工作的重要決策依據(jù),直接關(guān)系到自然災(zāi)害應(yīng)急處置、救援救助等救災(zāi)工作的有效開(kāi)展。
4.基于聚焦網(wǎng)絡(luò)爬蟲的災(zāi)害信息動(dòng)態(tài)提取方法研究
開(kāi)發(fā)基于互聯(lián)網(wǎng)的網(wǎng)絡(luò)爬蟲軟件,能迅速通過(guò)互聯(lián)網(wǎng)搜索災(zāi)害點(diǎn)相關(guān)及時(shí)的第一手資料,形成對(duì)災(zāi)害的第一認(rèn)識(shí)。通過(guò)已開(kāi)發(fā)的網(wǎng)絡(luò)爬蟲軟件,能將所有與某一主題相關(guān)的所有信息羅列并進(jìn)行綜合分析篩選。通過(guò)借鑒國(guó)內(nèi)外語(yǔ)義相似度在信息檢索方面的研究成果,開(kāi)發(fā)基于互聯(lián)網(wǎng)的網(wǎng)絡(luò)爬蟲軟件,從各類信息數(shù)據(jù)庫(kù)中巨大的新聞事件類文本數(shù)據(jù)中及時(shí)發(fā)現(xiàn)并提取災(zāi)害專題新聞報(bào)道信息。結(jié)合高分遙感影像數(shù)據(jù)、基礎(chǔ)地理信息矢量數(shù)據(jù),輔以人工判讀,以確定各災(zāi)害專題信息發(fā)生的空間們位置信息,輸出災(zāi)害信息動(dòng)態(tài)提取成果專題圖,為災(zāi)害信息動(dòng)態(tài)更新提供服務(wù)。具體的技術(shù)路線參見(jiàn)下圖。(1)專題數(shù)據(jù)管理子系統(tǒng)負(fù)責(zé)災(zāi)害信息描述數(shù)據(jù)(如泥石流、山洪、暴雨、地震等)、政府網(wǎng)站數(shù)據(jù)(網(wǎng)絡(luò)爬蟲目標(biāo)網(wǎng)站)、語(yǔ)義規(guī)則庫(kù)(災(zāi)害專題信息檢索模型的研究成果)的維護(hù)和更新。(2)信息檢索利用網(wǎng)絡(luò)爬蟲工具,從政府網(wǎng)站中抓取相關(guān)網(wǎng)頁(yè)并收集到本地,經(jīng)過(guò)加工處理建立本地網(wǎng)頁(yè)快照庫(kù),對(duì)本地網(wǎng)頁(yè)快照庫(kù)進(jìn)行分析、整理,針對(duì)災(zāi)害信息描述關(guān)鍵詞建立一種利于快速查找的數(shù)據(jù)結(jié)構(gòu)即索引,并建立索引數(shù)據(jù)庫(kù),以便在抓取到的網(wǎng)頁(yè)中進(jìn)行快速深入的災(zāi)害信息提取。(3)信息提取網(wǎng)頁(yè)信息數(shù)據(jù)庫(kù)中存儲(chǔ)的是HTML格式的文檔,這類文檔通常含有很多與網(wǎng)頁(yè)主題信息不相關(guān)的內(nèi)容,比如導(dǎo)航條、廣告信息、版權(quán)信息等內(nèi)容,它們只適合使用網(wǎng)頁(yè)瀏覽器進(jìn)行瀏覽,而不宜作為數(shù)據(jù)交換方式由計(jì)算機(jī)處理。因此,需要開(kāi)發(fā)網(wǎng)頁(yè)主題信息提取工具,從HTML這類非結(jié)構(gòu)化的文檔中提取出主題信息,輸出并保存為結(jié)構(gòu)化的文本,以便于對(duì)其進(jìn)行下一步的分析處理。(4)信息過(guò)濾通過(guò)網(wǎng)頁(yè)主題信息提取后獲取的結(jié)構(gòu)化文本數(shù)量多、數(shù)據(jù)冗余度高、不包含有效災(zāi)害信息描述的文本比重高,需要采用正向過(guò)濾(文本中必須包含的關(guān)鍵詞組合)、反向過(guò)濾(文本中不能包含的關(guān)鍵詞組合)等技術(shù)手段盡可能刪除那些不包含有效災(zāi)害信息的文本。最后,根據(jù)災(zāi)害專題信息檢索模型,從剩下的文本中檢索并提取出有效的災(zāi)害信息描述內(nèi)容。(5)人工判讀通過(guò)軟件自動(dòng)提取到的災(zāi)害信息屬性并不精確,需要后期進(jìn)行人工輔助判讀,結(jié)合高分影像,確定災(zāi)害發(fā)生的具體位置、進(jìn)一步明確災(zāi)害屬性信息,同時(shí)剔除通過(guò)程序獲取到的重復(fù)信息。人工判讀確認(rèn)的災(zāi)害信息主要包括空間信息及屬性信息??臻g信息包括災(zāi)害發(fā)生的位置信息及災(zāi)害發(fā)生的幾何類型;屬性信息包括災(zāi)害分類、災(zāi)害發(fā)生時(shí)間信息、災(zāi)害發(fā)生的區(qū)域、災(zāi)害發(fā)生的文字描述等信息。(6)成果輸出及經(jīng)過(guò)人工判讀后的災(zāi)情信息是比較準(zhǔn)確的,可直接用于更新災(zāi)害專題信息數(shù)據(jù)庫(kù)。結(jié)合其他影像、矢量等數(shù)據(jù)災(zāi)情信息動(dòng)態(tài)提取成果專題,將山洪災(zāi)害信息及時(shí)并打印輸出。同時(shí)提供網(wǎng)絡(luò)調(diào)用的服務(wù)接口,能通過(guò)設(shè)置地名關(guān)鍵詞、災(zāi)害類型、發(fā)生時(shí)間范圍、行政區(qū)域或坐標(biāo)范圍等篩選條件,可以將某一個(gè)位置周圍的歷史災(zāi)害相關(guān)信息全部羅列出來(lái)供決策者輔助參考。
5.結(jié)語(yǔ)
在山洪災(zāi)害信息提取中,基于聚焦網(wǎng)絡(luò)爬蟲方法對(duì)物聯(lián)網(wǎng)中海量數(shù)據(jù)信息利用程度較高,能夠綜合考慮災(zāi)害事件的時(shí)間、空間位置以及災(zāi)害點(diǎn)信息,快速獲取第一手資料數(shù)據(jù),再結(jié)合人工判讀,即可精確動(dòng)態(tài)提取、更新山洪災(zāi)害專題成果。也可以采集往年信息,建立預(yù)報(bào)模型,預(yù)測(cè)未來(lái)災(zāi)害發(fā)生區(qū)域,災(zāi)害種類等,可為決策者提供預(yù)防。本文基于聚焦網(wǎng)絡(luò)爬蟲,通過(guò)動(dòng)態(tài)提取災(zāi)害信息,結(jié)合人工判讀,研究了山洪災(zāi)害信息的提取、更新方法,可為決策者提供輔助依據(jù)。本文關(guān)于采集往年信息,建立模型,預(yù)測(cè)未來(lái)災(zāi)害發(fā)生區(qū)域、災(zāi)害種類,未作進(jìn)一步研究,希望拋磚引玉,引發(fā)一些思考。
參考文獻(xiàn):
[1]袁文,袁武,張海冬.基于互聯(lián)網(wǎng)的區(qū)域性災(zāi)害空間信息動(dòng)態(tài)監(jiān)測(cè)技術(shù)[C].國(guó)家綜合防災(zāi)減災(zāi)與可持續(xù)發(fā)展論壇,2010:200-207.
[2]程向榮.分析測(cè)繪技術(shù)在地質(zhì)災(zāi)害中的作用[J].西部資源,2018(01):123-124.
[6]孫立偉,何國(guó)輝,吳禮發(fā).網(wǎng)絡(luò)爬蟲技術(shù)的研究:電腦知識(shí)與技術(shù),2010.
[7]張玉東,郭俊鋒,王林生.測(cè)繪技術(shù)在地質(zhì)災(zāi)害中的作用[J].科技與企業(yè),2012(20):251+253.
[8]尹訓(xùn)志,王俊亮,張杰.測(cè)繪技術(shù)在地質(zhì)災(zāi)害中的作用探究[J].大科技,2018,000(030):221-222.
作者:陳濟(jì)才 李國(guó)明 單位:四川陸零陸空間信息科技股份有限公司
級(jí)別:省級(jí)期刊
榮譽(yù):Caj-cd規(guī)范獲獎(jiǎng)期刊
級(jí)別:CSCD期刊
榮譽(yù):中國(guó)優(yōu)秀期刊遴選數(shù)據(jù)庫(kù)
級(jí)別:部級(jí)期刊
榮譽(yù):中國(guó)優(yōu)秀期刊遴選數(shù)據(jù)庫(kù)
級(jí)別:省級(jí)期刊
榮譽(yù):中國(guó)期刊全文數(shù)據(jù)庫(kù)(CJFD)
級(jí)別:省級(jí)期刊
榮譽(yù):Caj-cd規(guī)范獲獎(jiǎng)期刊