公務員期刊網(wǎng) 論文中心 正文

大數(shù)據(jù)環(huán)境下網(wǎng)絡(luò)文學輿情控制系統(tǒng)研究

前言:想要寫出一篇引人入勝的文章?我們特意為您整理了大數(shù)據(jù)環(huán)境下網(wǎng)絡(luò)文學輿情控制系統(tǒng)研究范文,希望能給你帶來靈感和參考,敬請閱讀。

大數(shù)據(jù)環(huán)境下網(wǎng)絡(luò)文學輿情控制系統(tǒng)研究

[摘要]文章通過對網(wǎng)絡(luò)文學現(xiàn)狀、輿情控制的必要性;網(wǎng)絡(luò)文學輿情特征;網(wǎng)絡(luò)文學輿情監(jiān)控系統(tǒng)設(shè)計三個方面進行探討,以期人們能夠快速、全面地把握信息內(nèi)容和發(fā)展趨勢。

[關(guān)鍵詞]網(wǎng)絡(luò)文學;輿情控制;大數(shù)據(jù)環(huán)境

1網(wǎng)絡(luò)文學現(xiàn)狀,輿情控制的必要性

20世紀90年代中后期,信息時代的來臨和網(wǎng)絡(luò)的普及,互聯(lián)網(wǎng)、手機、衛(wèi)星等信息傳播工具的出現(xiàn),極大地豐富了小說的發(fā)表和傳播渠道,同時也讓小說的生產(chǎn)、傳播方式發(fā)生了很大的變化。特別是對于互聯(lián)網(wǎng)和手機這樣的新媒體,每個人都可以成為小說的生產(chǎn)者和傳播者。這時一些別有用心的人利用網(wǎng)絡(luò)文學傳播虛假信息,散布反動言論,欺騙網(wǎng)民、誤導輿論。還有一些低級庸俗、淫穢色情、虛假欺詐等輿情信息在網(wǎng)上不斷出現(xiàn),危害網(wǎng)絡(luò)與信息安全。網(wǎng)絡(luò)文學輿論對人們意識形態(tài)的影響已成為極其重要的因素。2015年7月23日,中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)在京《第36次中國互聯(lián)網(wǎng)絡(luò)發(fā)展狀況統(tǒng)計報告》。數(shù)據(jù)顯示,截至2015年6月,我國網(wǎng)民規(guī)模達6.68億,半年共計新增網(wǎng)民1894萬人?;ヂ?lián)網(wǎng)普及率為48.8%,較2014年年底提升了0.9個百分點。其中將互聯(lián)網(wǎng)使用于觀看網(wǎng)絡(luò)文學的有28467萬戶,占總用戶數(shù)量的42.6%。為了更好地了解輿情關(guān)注的熱點,讓網(wǎng)絡(luò)文學更好的為民眾服務,另外,保護網(wǎng)絡(luò)文學用戶遠離輿情信息的侵擾,建設(shè)和諧的社會主義國家,政府部門有必要采取有力措施對網(wǎng)絡(luò)信息進行必要的監(jiān)控。因此,深入分析研究網(wǎng)絡(luò)文學輿情監(jiān)控領(lǐng)域中的信息技術(shù)成為一項緊迫而重要的課題。

2網(wǎng)絡(luò)文學輿情特征

網(wǎng)絡(luò)文學從一開始就呈現(xiàn)了與傳統(tǒng)文學不同的特點。網(wǎng)絡(luò)文學有以下特點:文字信息為主。網(wǎng)絡(luò)文學,與網(wǎng)絡(luò)新聞、網(wǎng)絡(luò)視頻、網(wǎng)絡(luò)報紙等不同,網(wǎng)絡(luò)文學主要以文字為主,幾乎沒有其他形式的信息表達。傳播途徑相對固定。網(wǎng)絡(luò)文學雖然比傳統(tǒng)文學傳播途徑靈活,但是比起其他的網(wǎng)絡(luò)信息,網(wǎng)絡(luò)文學的傳播相對固定,只有可記錄的一些網(wǎng)站和地址可以。

3網(wǎng)絡(luò)文學輿情監(jiān)控系統(tǒng)設(shè)計

根據(jù)網(wǎng)絡(luò)文學輿情監(jiān)控的特征可設(shè)計一個多層次結(jié)構(gòu)的監(jiān)控體系。可分為數(shù)據(jù)接入層、信息預處理層、趨勢分析層、應用層設(shè)計、系統(tǒng)管理。

3.1數(shù)據(jù)接入層設(shè)計

要對網(wǎng)絡(luò)文學輿情進行監(jiān)控就要獲取網(wǎng)絡(luò)上的信息,而數(shù)據(jù)接入層就是完成這項工作的。由于網(wǎng)絡(luò)文學的性質(zhì),文本為主和點相對固定決定了數(shù)據(jù)接入層設(shè)計的結(jié)構(gòu)。數(shù)據(jù)接入層分為采集、傳輸和儲存三個部分。

3.1.1數(shù)據(jù)的采集由于網(wǎng)絡(luò)文學點雖然多但是相對固定,所以不需要不間斷的到網(wǎng)絡(luò)各處尋找相關(guān)數(shù)據(jù)。建立網(wǎng)絡(luò)監(jiān)控,監(jiān)控網(wǎng)絡(luò)節(jié)點的、更新、修改,一旦發(fā)現(xiàn)情況,就對傳輸程序給以信息。同時,監(jiān)控點以外也有可能網(wǎng)絡(luò)文學。可以應用已經(jīng)成熟的爬蟲等算法,對全網(wǎng)、搜索引擎進行概率性搜索。以其結(jié)果建立新的監(jiān)控節(jié)點,或提出報警。

3.1.2數(shù)據(jù)傳輸當發(fā)現(xiàn)監(jiān)控節(jié)點更新或修改等情況以后,進入數(shù)據(jù)傳輸環(huán)節(jié)。數(shù)據(jù)傳輸環(huán)節(jié)就是將找到的網(wǎng)絡(luò)文學數(shù)據(jù)傳回服務器。由于這時在網(wǎng)絡(luò)傳輸數(shù)據(jù)有可能遇到網(wǎng)絡(luò)擁堵、站點暫時無法連接、頁面缺失等不同的狀況。應對這些情況需要建立循環(huán)隊列下載、斷點續(xù)傳、設(shè)置有效時效等手段來保證下載數(shù)據(jù)的準確性和有效性。

3.1.3數(shù)據(jù)存儲當數(shù)據(jù)采集來了以后就需要將數(shù)據(jù)進行存儲了。首先要選擇存儲介質(zhì),由于數(shù)據(jù)量大、難以采集,所以要選擇容量大穩(wěn)定可靠的存儲介質(zhì)。磁盤陣列是個比較好的選擇。其次儲存格式,由于幾乎所有數(shù)據(jù)都是文本,所以建立比較簡單的儲存結(jié)構(gòu)就行了。一般由文件頭(Head)和數(shù)據(jù)(Data)組成。文件頭包含網(wǎng)絡(luò)文學的出處、地址、路徑、采集時間等必要信息。數(shù)據(jù)為網(wǎng)絡(luò)文學采集下來的原始信息,主要有一個或多個原始網(wǎng)頁。

3.2信息預處理

信息采集來了以后就要進行信息處理了。對于一篇是什么意思計算機是不知道的。要讓計算機找出那些不合適的文學作品就要教會計算機找到一些敏感的詞匯并進行分析和判斷。于是信息預處理又分為分詞、去噪、加權(quán)等操作。

3.2.1分詞當計算機發(fā)現(xiàn)“ISIS(TheIslamicStateofIraqandGrea-terSyria)”這個詞很容易和恐怖分子聯(lián)系起來,但是當計算機看見“恐怖分子”時,完全可能理解成“看起來好恐怖,分子真多”,所以如果面對中文信息不采用分詞技術(shù),那么會導致信息數(shù)據(jù)的無法使用?,F(xiàn)在比較成熟的分詞方法有不少,這里選取基于特征掃描的字符串匹配的分詞方法。字符串匹配的分詞方法又叫作機械分詞方法,它是按照一定的策略將待分析的漢字串與一個“充分大的”機器詞典中的詞條進行匹配,若在詞典中找到某個字符串,則匹配成功(識別出一個詞)。這類方法簡單、分詞效率較高,但漢語語言現(xiàn)象復雜豐富,詞典的完備性、規(guī)則的一致性等問題使其難以適應開放的大規(guī)模文本的分詞處理。識別出一個詞,根據(jù)掃描方向的不同分為正向匹配和逆向匹配。根據(jù)不同長度優(yōu)先匹配的情況,分為最大(最長)匹配和最小(最短)匹配。

3.2.2去噪網(wǎng)頁中的“噪音”是影響基于網(wǎng)頁內(nèi)容的工作的質(zhì)量的一個重要因素,快速準確的清除網(wǎng)頁中的噪音內(nèi)容是提高這些工作質(zhì)量的關(guān)鍵技術(shù)之一。這里使用了一種網(wǎng)頁凈化的方法,該方法以一組啟發(fā)式規(guī)則為基礎(chǔ),利用信息檢索的技術(shù)以及網(wǎng)頁的特征,提取網(wǎng)頁的主題以及和主題相關(guān)的內(nèi)容,從而達到網(wǎng)頁凈化的目的。3.2.3加權(quán)同樣的一個詞放在不同的環(huán)境下,對整篇文章內(nèi)容的影響是不一樣的,對于上面劃詞確定下來的關(guān)鍵詞、敏感詞要進行加權(quán)才能表現(xiàn)出它的性質(zhì)。

3.3分析和結(jié)論

有了以上的工作以后,我們就可以對數(shù)據(jù)進行分析并得出結(jié)論了。對數(shù)據(jù)的分析手段有很多,這里我們采用相似性統(tǒng)計分析的統(tǒng)計學手段對其進行分析。相似性統(tǒng)計分析是在相似性檢索的基礎(chǔ)上再對檢索出來的結(jié)果進行的一系列的統(tǒng)計分析操作。相似性檢索的算法主要是基于特征詞提取和倒排索引技術(shù),具體描述如下:

(1)對資料庫中的每篇文檔進行自動分詞和提取特征詞。

(2)對資料庫中的文檔按特征詞建立倒排索引庫,建立索引的相關(guān)屬性,包括詞頻、位置以及文本長度等。

(3)根據(jù)每篇文檔中包含特征詞的多少、位置、詞頻、文檔的長度等信息來計算庫中文檔與待檢索文檔的相關(guān)度,相關(guān)度超過一定閾值的文檔即可作為相關(guān)文檔處理,并給出相關(guān)系數(shù)。

4結(jié)論

本文論述了大數(shù)據(jù)環(huán)境下的網(wǎng)絡(luò)文學輿情監(jiān)控系統(tǒng)的研究與實現(xiàn)。文章首先分析了網(wǎng)絡(luò)文學輿情監(jiān)控的必要性,以及目前現(xiàn)狀。針對網(wǎng)絡(luò)文學輿情監(jiān)控系統(tǒng)的體系結(jié)構(gòu)和主要功能模塊進行了設(shè)計,為系統(tǒng)各模塊的功能、性能及技術(shù)實現(xiàn)設(shè)計了詳細的解決方案。并且,對網(wǎng)絡(luò)文學輿情監(jiān)控系統(tǒng)的技術(shù)主體技術(shù)進行了深入研究。將多種技術(shù)有效結(jié)合,對復雜的網(wǎng)絡(luò)文學信息進行多屬性、多角度的分析,分別給出直觀的分析結(jié)果,以便人們能夠快速、全面地把握信息內(nèi)容和發(fā)展趨勢。

參考文獻:

[1]索紅光,王玉偉.一種用于文本聚類的改進k-means算法[J].山東大學學報:理學版,2008(1):61-64.

[2]唐籍濤.網(wǎng)絡(luò)輿情監(jiān)控中新詞識別問題的研究[J].計算機技術(shù)與發(fā)展,2012,22(1).

[3]萬小軍,等.一種自動分析互聯(lián)網(wǎng)上熱點主題傳播過程的方法及系統(tǒng)[P].中國專利:CN101231641A,

作者:蔡禮淵 單位:成都工業(yè)學院信息與計算科學系