公務(wù)員期刊網(wǎng) 論文中心 正文

云計(jì)算短信內(nèi)容審計(jì)研究

前言:想要寫出一篇引人入勝的文章?我們特意為您整理了云計(jì)算短信內(nèi)容審計(jì)研究范文,希望能給你帶來靈感和參考,敬請(qǐng)閱讀。

云計(jì)算短信內(nèi)容審計(jì)研究

1引言

開發(fā)完善的垃圾短信過濾系統(tǒng)一直是電信運(yùn)營商和學(xué)術(shù)界研究的重點(diǎn)。隨著手機(jī)用戶數(shù)量的增長,垃圾短信數(shù)量也呈現(xiàn)出爆炸增長的勢頭,使得廣大消費(fèi)者長時(shí)間飽受垃圾短信的騷擾。垃圾短信不僅占用了有限的網(wǎng)絡(luò)資源,造成運(yùn)營商投入更多的人力、物力資源對(duì)其進(jìn)行處理,而且以欺詐為目的的短信使很多用戶損失大量財(cái)產(chǎn)。目前用戶投訴總量的30%以上都是針對(duì)垃圾短信,因此電信運(yùn)營商有義不容辭的責(zé)任抑制垃圾短信蔓延。中國移動(dòng)、中國聯(lián)通和中國電信公司推出了過濾垃圾短信專用客戶端。主要做法是根據(jù)發(fā)送號(hào)碼特征及語義特征自動(dòng)過濾垃圾信息,將要過濾的號(hào)碼加入短信黑名單。而針對(duì)號(hào)碼特征及語義特征過濾受到手機(jī)的存儲(chǔ)和運(yùn)算能力的限制,還需要進(jìn)一步的改善。即使使用傳統(tǒng)的服務(wù)器來分析并將發(fā)送源號(hào)碼屏蔽,也由于垃圾短信數(shù)據(jù)量呈現(xiàn)指數(shù)級(jí)的增長使得分析垃圾短信變得越來越慢,無法實(shí)時(shí)對(duì)發(fā)送垃圾短信的號(hào)碼起到屏蔽的作用。云計(jì)算作為一種全新的IT服務(wù)模式,將其應(yīng)用到垃圾短信的過濾中,不僅提供幾乎無限的存儲(chǔ)空間,使得數(shù)據(jù)存儲(chǔ)和管理能夠順利的完成,而且提供了無限強(qiáng)大的計(jì)算能力,使得在超大規(guī)模的數(shù)據(jù)中實(shí)時(shí)挖掘出有用的數(shù)據(jù)成為可能。云計(jì)算的這些特點(diǎn)正好彌補(bǔ)手機(jī)和傳統(tǒng)服務(wù)器的不足,為過濾垃圾短信提供了必要條件。總之,垃圾短信的泛濫使人們的日常生活受到了嚴(yán)重的影響,已成為一種社會(huì)危害,治理垃圾短信勢在必行。[1]

2云計(jì)算的關(guān)鍵技術(shù)

2.1數(shù)據(jù)存儲(chǔ)技術(shù)

云計(jì)算采用分布式存儲(chǔ)來存儲(chǔ)數(shù)據(jù)保證了高可用、高可靠和經(jīng)濟(jì)性;為同一份數(shù)據(jù)存儲(chǔ)多個(gè)副本的冗余存儲(chǔ)方式保證存儲(chǔ)數(shù)據(jù)的可靠性。云計(jì)算的數(shù)據(jù)存儲(chǔ)技術(shù)必須具有高吞吐量和高傳輸率的特點(diǎn),因?yàn)樵朴?jì)算系統(tǒng)能夠并行地為大量用戶提供服務(wù)來同時(shí)滿足超大規(guī)模用戶的需求。本文所采用的云計(jì)算的數(shù)據(jù)存儲(chǔ)技術(shù)采用Apache開源組織的一個(gè)分布式計(jì)算開源框架Hadoop,HDFS(HadoopdistributedFileSystem,Hadoop分布式文件系統(tǒng))作為Hadoop的核心技術(shù)之一,HDFS是分布式計(jì)算中數(shù)據(jù)存儲(chǔ)管理的基礎(chǔ)。它所具有的高容錯(cuò)高可靠性、高可擴(kuò)展性、高獲得性、高吞吐率等特征為海量數(shù)據(jù)提供了不怕故障的存儲(chǔ),為超大數(shù)據(jù)集(LargeDataSet)的應(yīng)用處理帶來了很多便利。HDFS放寬了一部分POSIX約束,來實(shí)現(xiàn)流式讀取文件系統(tǒng)數(shù)據(jù)的目的。因此,超大規(guī)模的數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)加密和安全性保證以及提高I/O速率等方面將是云計(jì)算的數(shù)據(jù)存儲(chǔ)技術(shù)未來的主要發(fā)展方向。

2.2編程模型

云計(jì)算要求編程模型必須相當(dāng)簡單的原因是讓用戶能夠輕松享受云計(jì)算帶來的各種服務(wù),特定的功能可以通過用戶利用該編程模式編寫簡單的程序來實(shí)現(xiàn),同時(shí)用戶和編程人員無需對(duì)后臺(tái)復(fù)雜的并行執(zhí)行和任務(wù)調(diào)度的細(xì)節(jié)進(jìn)行了解,只需了解如何調(diào)用相應(yīng)的接口。Map—Reduce是目前云計(jì)算大量采用的編程模式,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運(yùn)算。它極大的方便編程人員在不會(huì)分布式并行編程的情況下,將自己的程序運(yùn)行在分布式系統(tǒng)上。它的實(shí)現(xiàn)是map函數(shù)和Reduce函數(shù)組成,基于Map—Reduce的編程思想已被大部分的IT廠商采用來實(shí)現(xiàn)自己的編程模式。

3系統(tǒng)的設(shè)計(jì)

網(wǎng)絡(luò)側(cè)處理垃圾短信力有不逮,以往從客戶端限制垃圾短信的方式又存在缺陷,比如黑白名單技術(shù),由于垃圾短信發(fā)送號(hào)碼一直改變而收效甚微;關(guān)鍵字技術(shù)讓所有用戶都能準(zhǔn)確到位的表達(dá)需求又不現(xiàn)實(shí)。因此,必須要有一個(gè)技術(shù)手段去解決問題,而如果能將“政策+技術(shù)”、“云+端”結(jié)合的模式來保障手機(jī)安全,將會(huì)起到事半功倍的效果。在技術(shù)層面,以往應(yīng)對(duì)垃圾短信問題往往在于“云”的角度,但實(shí)際上垃圾短信最終都體現(xiàn)在手機(jī)上,用戶的參與至關(guān)重要———必須由“端”去識(shí)別這些垃圾短信。這就決定了只有通過“云+端”的結(jié)合才能在技術(shù)層面取得突破,首先用戶對(duì)垃圾短信進(jìn)行舉報(bào),“云”把大量用戶上報(bào)的內(nèi)容,使用HA-DOOP的MAP-REDUCE統(tǒng)計(jì)分析,定位問題,然后把它變成策略,最終分發(fā)到所有用戶的手機(jī)上。可以說,在“云+端”的模式中,所有的用戶都是系統(tǒng)的一部分,在為系統(tǒng)貢獻(xiàn)支持的同時(shí),也分享了解決方案。系統(tǒng)的處理流程為:手機(jī)終端用戶將自己認(rèn)為是垃圾的短信和垃圾短信發(fā)送的手機(jī)號(hào)碼通過通信接口上報(bào)到云端過濾平臺(tái),云端利用規(guī)則挖掘引擎判斷此短信是否為垃圾短信,若是則賦予垃圾短信的發(fā)送手機(jī)號(hào)碼一定的閥值。假如垃圾短信發(fā)送的手機(jī)號(hào)碼達(dá)到了規(guī)定的閥值,則將發(fā)送垃圾短信的源號(hào)碼通過接口程序發(fā)送到移動(dòng)側(cè)的短信中心和BOSS系統(tǒng),移動(dòng)側(cè)可以直接將垃圾短信發(fā)送的手機(jī)號(hào)碼攔截或者通過人工審核再進(jìn)行攔截,被攔截的手機(jī)號(hào)碼則失去短信發(fā)送功能,通過以上流程可以真正的過濾掉垃圾短信。

3.1手機(jī)系統(tǒng)設(shè)計(jì)

手機(jī)終端裝有過濾垃圾短信軟件,首先通過此軟件對(duì)短信進(jìn)行分詞,分詞完成之后與垃圾詞庫里的詞進(jìn)行比對(duì)得出短信的性質(zhì)(是垃圾短信還是非垃圾短信),如果是垃圾短信,則用戶可以將此短信上報(bào)到“云”端。手機(jī)終端的功能包括:⑴過濾:手機(jī)終端可以根據(jù)黑名單、省市、號(hào)碼段、時(shí)間段進(jìn)行過濾。能夠下載云端的垃圾詞庫。⑵實(shí)時(shí)舉報(bào):系統(tǒng)判斷為垃圾過后立即上報(bào)。通話記錄顯示來電地區(qū)、響鈴時(shí)間、來電時(shí)間等信息,用戶可根據(jù)此判斷是否響一聲來電,點(diǎn)擊一下按鈕即可上報(bào)。短信也可以很方便的上報(bào)。

3.2云端系統(tǒng)架構(gòu)

云端主要有規(guī)則挖掘引擎,攔截分析系統(tǒng),管理平臺(tái),通信接口群等組成?!霸啤倍耸紫壤梅衷~算法對(duì)短信進(jìn)行分詞處理,然后利用貝葉斯算法判斷短信的性質(zhì),最后攔截分析系統(tǒng)依據(jù)一定規(guī)則對(duì)上報(bào)的數(shù)據(jù)進(jìn)行分析和判斷,通過FTP的方式將發(fā)送垃圾短信的源號(hào)碼發(fā)送到移動(dòng)側(cè),由移動(dòng)相關(guān)系統(tǒng)來關(guān)閉這批號(hào)碼的短信功能。同時(shí)更新垃圾詞庫,根據(jù)用戶的需求來下發(fā)相應(yīng)的垃圾詞庫到手機(jī)終端。云端系統(tǒng)的處理流程為:手機(jī)終端用戶通過上行接口將垃圾短信暫存到JMS中,上報(bào)數(shù)據(jù)分析器從JMS中提取數(shù)據(jù)對(duì)其進(jìn)行分析(判斷是否為垃圾短信),如果是垃圾短信,則賦予發(fā)送垃圾短信的源號(hào)碼一定的積分,否則不賦予垃圾積分,并將分析結(jié)果存到業(yè)務(wù)數(shù)據(jù)庫中,下行接口定時(shí)給手機(jī)終端用戶發(fā)送提醒短信,以防用戶上當(dāng)受騙,數(shù)據(jù)分析引擎每天定時(shí)查看發(fā)送垃圾短信源號(hào)碼的積分,依據(jù)某種規(guī)則對(duì)其號(hào)碼進(jìn)行分析判斷是否達(dá)到被攔截的條件,并將分析結(jié)果傳送給移動(dòng)側(cè),報(bào)表模塊定時(shí)從業(yè)務(wù)數(shù)據(jù)庫中提取屬于某個(gè)時(shí)間段的垃圾短信并生成報(bào)表數(shù)據(jù),同時(shí)將結(jié)果存到報(bào)表數(shù)據(jù)庫中,以供報(bào)表平臺(tái)展示,外部數(shù)據(jù)傳輸將報(bào)表數(shù)據(jù)庫中的數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù)庫中的短信內(nèi)容傳到移動(dòng)側(cè),由移動(dòng)側(cè)系統(tǒng)采取下一步措施;管理模板由管理人員定義系統(tǒng)的相關(guān)參數(shù)(例如JMS隊(duì)列長度等)及攔截閥值規(guī)則。

4結(jié)論

本文在基于Apache開源組織的分布式計(jì)算開源框架Hadoop的基礎(chǔ)已經(jīng)初步實(shí)現(xiàn)從大量的短信數(shù)據(jù)中分析垃圾短信的內(nèi)容特征以及垃圾短信發(fā)送號(hào)碼。

4.1亟待完成工作

4.1.1分詞算法的效率在垃圾短信過濾系統(tǒng)中非常重要。進(jìn)一步確認(rèn)使用動(dòng)態(tài)規(guī)劃法后效率的提高程度。

4.1.2由于目前下發(fā)到手機(jī)終端的垃圾詞庫需要人為的干預(yù),通過貝葉斯算法自動(dòng)產(chǎn)生垃圾詞下發(fā)到終端。

4.2法律整治建議

徹底治理垃圾短信除了技術(shù)方面外還需要多管齊下:歐美國家在治理垃圾短信方面,已積累了很多成功的經(jīng)驗(yàn),值得我們學(xué)習(xí)和借鑒。

4.2.1在我國,目前與電信行業(yè)相關(guān)的法律法規(guī)有《中華人民共和國電信條例》和《中華人民共和國互聯(lián)網(wǎng)信息服務(wù)管理辦法》,而這些法律法規(guī)都不是專門性的。所以需要盡快的制定有針對(duì)性的法律法規(guī)能從根本上治理垃圾短信。

4.2.2要盡快落實(shí)SIM卡實(shí)名制。SIM卡實(shí)名制被認(rèn)為是解決垃圾、不良短信的一種長效和有效的機(jī)制,可以真正的從源頭上實(shí)現(xiàn)對(duì)短信的可管理、可監(jiān)督。這種機(jī)制已在很過國家通過實(shí)踐證明,利用手機(jī)垃圾短信違法犯罪的現(xiàn)象明顯比沒有實(shí)施SIM卡實(shí)名制的數(shù)量少很多。

4.2.3建立完善的監(jiān)管機(jī)制。相關(guān)部門需要建立處理垃圾短信的用戶的投訴處理平臺(tái),以方便用戶快捷的投訴,使運(yùn)營商能夠即時(shí)的處理用戶的投訴來達(dá)到遏制利用垃圾短信違法犯罪目的。

作者:劉云玉 原晉鵬 單位:黔南民族師范學(xué)院

相關(guān)熱門標(biāo)簽