网站首页
教育杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
医学杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
经济杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
金融杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
管理杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
科技杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
工业杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
SCI杂志
中科院1区 中科院2区 中科院3区 中科院4区
全部期刊
公務(wù)員期刊網(wǎng) 論文中心 正文

測繪地理信息技術(shù)災(zāi)害信息提取方法

前言:想要寫出一篇引人入勝的文章?我們特意為您整理了測繪地理信息技術(shù)災(zāi)害信息提取方法范文,希望能給你帶來靈感和參考,敬請閱讀。

測繪地理信息技術(shù)災(zāi)害信息提取方法

摘要:隨著網(wǎng)絡(luò)技術(shù)迅速發(fā)展,海量數(shù)據(jù)分布在萬維網(wǎng)內(nèi),如何從數(shù)據(jù)中挖掘到特定的需要的數(shù)據(jù)成為時下研究的熱點。網(wǎng)絡(luò)爬蟲是一種按照一定的規(guī)則,自動抓取萬維網(wǎng)信息的程序或者腳本。本文探討使用網(wǎng)絡(luò)爬蟲的概念和方法,開發(fā)基于互聯(lián)網(wǎng)的聚焦網(wǎng)絡(luò)爬蟲軟件,迅速通過互聯(lián)網(wǎng)搜索山洪災(zāi)害點相關(guān)及時的第一手資料,形成對災(zāi)害的第一認識。再經(jīng)過人工判讀,精確動態(tài)提取、更新山洪災(zāi)害信息專題成果。

關(guān)鍵詞:萬維網(wǎng);聚焦網(wǎng)絡(luò)爬蟲;山洪災(zāi)害;動態(tài)提取

1.引言

隨著網(wǎng)絡(luò)的迅速發(fā)展,萬維網(wǎng)成為大量信息的載體。網(wǎng)絡(luò)信息更新及時,傳遞速度快,只要信息收集者及時發(fā)現(xiàn)信息,就可以保證較強的信息時效性。面對海量數(shù)據(jù),如何有效地提取并利用這些信息成為一個巨大的挑戰(zhàn)。定向抓取相關(guān)網(wǎng)頁資源的聚焦爬蟲可提取特定的需要的信息。網(wǎng)絡(luò)爬蟲(又被稱為網(wǎng)絡(luò)機器人,網(wǎng)頁蜘蛛),是一種按照一定的規(guī)則,自動地抓取萬維網(wǎng)信息的程序或者腳本。聚焦爬蟲是一個自動下載網(wǎng)頁的程序,它根據(jù)既定的抓取目標,有選擇的訪問萬維網(wǎng)上的網(wǎng)頁與相關(guān)的鏈接,獲取所需要的信息。與通用爬蟲(generalpurposewebcrawler)不同,聚焦爬蟲并不追求大的覆蓋,而將目標定為抓取與某一特定主題內(nèi)容相關(guān)的網(wǎng)頁,為面向主題的用戶查詢準備數(shù)據(jù)資源。物聯(lián)網(wǎng)蘊含了大量的動態(tài)災(zāi)害信息,是及時獲取目標區(qū)域災(zāi)害點信息的重要途徑。傳統(tǒng)搜索引擎技術(shù)缺乏基于空間語義的認知和推理能力,無法識別災(zāi)害發(fā)生的空間位置信息,無法提供基于互聯(lián)網(wǎng)的區(qū)域化災(zāi)害動態(tài)監(jiān)控服務(wù)。本文基于聚焦網(wǎng)絡(luò)爬蟲有效收集網(wǎng)絡(luò)上的災(zāi)害信息,精準過濾反映災(zāi)害信息內(nèi)容的網(wǎng)頁,獲取災(zāi)害事件的時間、空間位置以及災(zāi)害點信息。依托該系統(tǒng),可結(jié)合傳統(tǒng)的人工判讀技術(shù),依據(jù)地物波譜特性、空間特征和成像機制以及所掌握的地學(xué)規(guī)律,通過分析地物影像特征來識別災(zāi)害點,準確提取、更新災(zāi)害信息專題數(shù)據(jù),及時,輔助決策者參考使用。

2.聚焦網(wǎng)絡(luò)爬蟲概述

聚焦網(wǎng)絡(luò)爬蟲可以在較短的時間里,使用較少的硬件資源,獲取到更多與主題相關(guān)的信息。相對于通用網(wǎng)絡(luò)爬蟲,聚焦爬蟲的工作原理較為復(fù)雜,根據(jù)一定的網(wǎng)頁分析算法過濾掉主題無關(guān)的鏈接,保留有用的鏈接并將其放入等待抓取的URL隊列。然后,它將根據(jù)一定的搜索策略從隊列中選擇下一步要抓取的網(wǎng)頁URL,并重復(fù)上述過程,直到達到系統(tǒng)的某一條件時停止。本文網(wǎng)絡(luò)爬蟲引擎采用聚焦網(wǎng)絡(luò)爬蟲(FocusedCrawler),又稱主題網(wǎng)絡(luò)爬蟲(TopicalCrawler),是指選擇性地爬行那些與預(yù)先定義好的主題相關(guān)頁面的網(wǎng)絡(luò)爬蟲。和通用網(wǎng)絡(luò)爬蟲相比,聚焦爬蟲只需要爬行與主題相關(guān)的頁面,極大地節(jié)省了硬件和網(wǎng)絡(luò)資源,保存的頁面也由于數(shù)量少而更新快,還可以很好地滿足一些特定人群對特定領(lǐng)域信息的需求。聚焦網(wǎng)絡(luò)爬蟲和通用網(wǎng)絡(luò)爬蟲相比,增加了鏈接評價模塊以及內(nèi)容評價模塊。聚焦爬蟲爬行策略實現(xiàn)的關(guān)鍵是評價頁面內(nèi)容和鏈接的重要性,不同的方法計算出的重要性不同,由此導(dǎo)致鏈接的訪問順序也不同。

3.山洪災(zāi)害信息

山洪是指山區(qū)溪溝中發(fā)生的暴漲洪水。山洪具有突發(fā)性,水量集中流速大、沖刷破壞力強,水流中挾帶泥沙甚至石塊等,常造成局部性洪災(zāi),一般分為暴雨山洪、融雪山洪、冰川山洪等。山洪災(zāi)害常伴有山體崩塌、山體滑坡、泥石流等。山洪災(zāi)害信息是救災(zāi)工作的重要決策依據(jù),直接關(guān)系到自然災(zāi)害應(yīng)急處置、救援救助等救災(zāi)工作的有效開展。

4.基于聚焦網(wǎng)絡(luò)爬蟲的災(zāi)害信息動態(tài)提取方法研究

開發(fā)基于互聯(lián)網(wǎng)的網(wǎng)絡(luò)爬蟲軟件,能迅速通過互聯(lián)網(wǎng)搜索災(zāi)害點相關(guān)及時的第一手資料,形成對災(zāi)害的第一認識。通過已開發(fā)的網(wǎng)絡(luò)爬蟲軟件,能將所有與某一主題相關(guān)的所有信息羅列并進行綜合分析篩選。通過借鑒國內(nèi)外語義相似度在信息檢索方面的研究成果,開發(fā)基于互聯(lián)網(wǎng)的網(wǎng)絡(luò)爬蟲軟件,從各類信息數(shù)據(jù)庫中巨大的新聞事件類文本數(shù)據(jù)中及時發(fā)現(xiàn)并提取災(zāi)害專題新聞報道信息。結(jié)合高分遙感影像數(shù)據(jù)、基礎(chǔ)地理信息矢量數(shù)據(jù),輔以人工判讀,以確定各災(zāi)害專題信息發(fā)生的空間們位置信息,輸出災(zāi)害信息動態(tài)提取成果專題圖,為災(zāi)害信息動態(tài)更新提供服務(wù)。具體的技術(shù)路線參見下圖。(1)專題數(shù)據(jù)管理子系統(tǒng)負責(zé)災(zāi)害信息描述數(shù)據(jù)(如泥石流、山洪、暴雨、地震等)、政府網(wǎng)站數(shù)據(jù)(網(wǎng)絡(luò)爬蟲目標網(wǎng)站)、語義規(guī)則庫(災(zāi)害專題信息檢索模型的研究成果)的維護和更新。(2)信息檢索利用網(wǎng)絡(luò)爬蟲工具,從政府網(wǎng)站中抓取相關(guān)網(wǎng)頁并收集到本地,經(jīng)過加工處理建立本地網(wǎng)頁快照庫,對本地網(wǎng)頁快照庫進行分析、整理,針對災(zāi)害信息描述關(guān)鍵詞建立一種利于快速查找的數(shù)據(jù)結(jié)構(gòu)即索引,并建立索引數(shù)據(jù)庫,以便在抓取到的網(wǎng)頁中進行快速深入的災(zāi)害信息提取。(3)信息提取網(wǎng)頁信息數(shù)據(jù)庫中存儲的是HTML格式的文檔,這類文檔通常含有很多與網(wǎng)頁主題信息不相關(guān)的內(nèi)容,比如導(dǎo)航條、廣告信息、版權(quán)信息等內(nèi)容,它們只適合使用網(wǎng)頁瀏覽器進行瀏覽,而不宜作為數(shù)據(jù)交換方式由計算機處理。因此,需要開發(fā)網(wǎng)頁主題信息提取工具,從HTML這類非結(jié)構(gòu)化的文檔中提取出主題信息,輸出并保存為結(jié)構(gòu)化的文本,以便于對其進行下一步的分析處理。(4)信息過濾通過網(wǎng)頁主題信息提取后獲取的結(jié)構(gòu)化文本數(shù)量多、數(shù)據(jù)冗余度高、不包含有效災(zāi)害信息描述的文本比重高,需要采用正向過濾(文本中必須包含的關(guān)鍵詞組合)、反向過濾(文本中不能包含的關(guān)鍵詞組合)等技術(shù)手段盡可能刪除那些不包含有效災(zāi)害信息的文本。最后,根據(jù)災(zāi)害專題信息檢索模型,從剩下的文本中檢索并提取出有效的災(zāi)害信息描述內(nèi)容。(5)人工判讀通過軟件自動提取到的災(zāi)害信息屬性并不精確,需要后期進行人工輔助判讀,結(jié)合高分影像,確定災(zāi)害發(fā)生的具體位置、進一步明確災(zāi)害屬性信息,同時剔除通過程序獲取到的重復(fù)信息。人工判讀確認的災(zāi)害信息主要包括空間信息及屬性信息??臻g信息包括災(zāi)害發(fā)生的位置信息及災(zāi)害發(fā)生的幾何類型;屬性信息包括災(zāi)害分類、災(zāi)害發(fā)生時間信息、災(zāi)害發(fā)生的區(qū)域、災(zāi)害發(fā)生的文字描述等信息。(6)成果輸出及經(jīng)過人工判讀后的災(zāi)情信息是比較準確的,可直接用于更新災(zāi)害專題信息數(shù)據(jù)庫。結(jié)合其他影像、矢量等數(shù)據(jù)災(zāi)情信息動態(tài)提取成果專題,將山洪災(zāi)害信息及時并打印輸出。同時提供網(wǎng)絡(luò)調(diào)用的服務(wù)接口,能通過設(shè)置地名關(guān)鍵詞、災(zāi)害類型、發(fā)生時間范圍、行政區(qū)域或坐標范圍等篩選條件,可以將某一個位置周圍的歷史災(zāi)害相關(guān)信息全部羅列出來供決策者輔助參考。

5.結(jié)語

在山洪災(zāi)害信息提取中,基于聚焦網(wǎng)絡(luò)爬蟲方法對物聯(lián)網(wǎng)中海量數(shù)據(jù)信息利用程度較高,能夠綜合考慮災(zāi)害事件的時間、空間位置以及災(zāi)害點信息,快速獲取第一手資料數(shù)據(jù),再結(jié)合人工判讀,即可精確動態(tài)提取、更新山洪災(zāi)害專題成果。也可以采集往年信息,建立預(yù)報模型,預(yù)測未來災(zāi)害發(fā)生區(qū)域,災(zāi)害種類等,可為決策者提供預(yù)防。本文基于聚焦網(wǎng)絡(luò)爬蟲,通過動態(tài)提取災(zāi)害信息,結(jié)合人工判讀,研究了山洪災(zāi)害信息的提取、更新方法,可為決策者提供輔助依據(jù)。本文關(guān)于采集往年信息,建立模型,預(yù)測未來災(zāi)害發(fā)生區(qū)域、災(zāi)害種類,未作進一步研究,希望拋磚引玉,引發(fā)一些思考。

參考文獻:

[1]袁文,袁武,張海冬.基于互聯(lián)網(wǎng)的區(qū)域性災(zāi)害空間信息動態(tài)監(jiān)測技術(shù)[C].國家綜合防災(zāi)減災(zāi)與可持續(xù)發(fā)展論壇,2010:200-207.

[2]程向榮.分析測繪技術(shù)在地質(zhì)災(zāi)害中的作用[J].西部資源,2018(01):123-124.

[6]孫立偉,何國輝,吳禮發(fā).網(wǎng)絡(luò)爬蟲技術(shù)的研究:電腦知識與技術(shù),2010.

[7]張玉東,郭俊鋒,王林生.測繪技術(shù)在地質(zhì)災(zāi)害中的作用[J].科技與企業(yè),2012(20):251+253.

[8]尹訓(xùn)志,王俊亮,張杰.測繪技術(shù)在地質(zhì)災(zāi)害中的作用探究[J].大科技,2018,000(030):221-222.

作者:陳濟才 李國明 單位:四川陸零陸空間信息科技股份有限公司

免责声明

本站为第三方开放式学习交流平台,所有内容均为用户上传,仅供参考,不代表本站立场。若内容不实请联系在线客服删除,服务时间:8:00~21:00。

AI写作,高效原创

在线指导,快速准确,满意为止

立即体验
相關(guān)熱門標簽
文秘服务 AI帮写作 润色服务 论文发表