前言:想要寫出一篇引人入勝的文章?我們特意為您整理了話題型微博情感分析策略范文,希望能給你帶來靈感和參考,敬請閱讀。
本文重點討論的是話題型微博的語言特點以及對其進行情感分析時可以采取的策略。
話題型微博的語言特點
除了一些名人,微博的主人用的大都是網(wǎng)名,發(fā)表意見可以無所顧忌;微博的傳播往往是蒲公英式,一個微博主發(fā)出一條引人矚目的微博,就會形成一個主題,體現(xiàn)為標簽,其他的微博會圍繞這個主題發(fā)表意見,下一輪微博還可能會針對上一輪微博發(fā)表意見,以此類推,于是就形成了一個帶有鮮明主題的話題型微博群。話題型微博群規(guī)模的大小取決于人們對該主題的關注程度。與一般的微博(謝麗星等,2012)不同,話題型微博的文本結構形式?jīng)Q定了它的語言特點:句子簡短,負面傾向多,語句口語化程度強,表達情感強烈而理性評價淡化,評價對象在句中不直接出現(xiàn),語言不夠規(guī)范,等等。下面分別論述。
(一)句子簡短,單句多
微博有字數(shù)限制,因而往往短小。話題型微博又因為有一個明確的話題,人們是圍繞這個話題發(fā)表意見,寫微博,只要表達了心情、態(tài)度,三言兩語也可,只字片語也行,所以與一般文體相比,話題型微博中句子相對簡短,單句居多。表1顯示了我們對400篇語言輿情評論文和20篇話題型微博平均句長的統(tǒng)計結果。從表1可以看出,評論文平均句長是38個字,而話題型微博平均句長只有20個字,幾乎只有評論文的一半。20個字,大約有10個詞,很難形成復句。
(二)觀點負面傾向多
話題型微博的形成是基于一定的社會話題和社會事件,而當今社會引起關注的話題負面性較多,這就使得話題型微博在表達觀點時,以否定傾向居多。表2是我們對400篇評論文和20篇話題型微博中觀點句的統(tǒng)計結果。表2數(shù)據(jù)顯示,語言輿情評論文觀點句中,負面傾向的只占49.81%,將近一半,而話題型微博中負面傾向句卻占到了觀點句的80.02%,可以看出,話題型微博的負面傾向更加明顯。
(三)表達情感強烈而理性評價淡化
由于傳播空間的相對自由和匿名評論的相對隱秘,因而網(wǎng)友在表達觀點時會采用一些比較極端和激烈的形式,又因微博字數(shù)的限制,無法以邏輯鮮明的論述方式進行理性表達,所以在話題型微博中,觀點句的表達往往感情色彩強烈,而理性評價淡化,臟話、粗話等表現(xiàn)力強的不雅語匯大量出現(xiàn),這也成為話題型微博觀點句在表達情感和態(tài)度時一種較廣泛的表達方式。
(四)口語色彩濃重,情感因子顆粒度加大
微博雖然用的是書面形式,但交際的實時性、互動性,使得它具有濃重的口語色彩,人們往往會使用一些口語化詞語把自己內(nèi)心的真實感受直接表達出來,體現(xiàn)句子觀點的情感因子顆粒度加大,往往不再是詞,而是短語。例如:(1)#假和尚摟女子#得瑟,使勁得瑟,被抓了吧(2)#90后暴打老人#我滴媽~!這還真特么爭氣一群欠收拾的(3)#90后暴打老人#什么玩意了。(4)#官員財產(chǎn)公示#有個鬼用,公示出來的也要有人信吖?其中的“得瑟、我滴媽、欠收拾、什么玩意、有個鬼用”口語色彩濃重,明確表達了說話人的觀點,其中除了“得瑟”是詞,其余都是短語,甚至是短句。
(五)隱晦表達觀點
在話題型微博中,除了用一些很“給力”的詞語明確表達觀點外,人們還會采用一種隱晦的、非直接的方式,以言外之意表達觀點。如:(1)#食用油漲價#我可以說臟話嗎?這是一個疑問句,字面上看沒有表達任何觀點,然而在“食用油漲價”這一語境下,可以理解為說話者表達的是一種想用說臟話來發(fā)泄的沖動,因而也就間接地表達了對話題不滿的情緒和貶斥的態(tài)度。(2)#三亞春節(jié)宰客#當?shù)氐恼块T這么做的用意是什么?掩耳盜鈴?越抹越黑?還是讓游客永遠不去三亞?應該去測測智商了!“應該去測測智商”表達了說話者對“當?shù)卣块T”的不滿。(3)#假和尚摟女子#狐貍尾巴總會露出來的“狐貍尾巴總會露出來的”是對假和尚做壞事最終會被曝光的一種諷刺。(4)#韓寒方舟子之爭#我真叫您教主了,正話反話都讓您說了,您這邏輯是美術老師教的吧“您這邏輯是美術老師教的吧”,這個句子中也沒有情感詞,但根據(jù)標簽的語境可以看出,是諷刺當事人的邏輯性缺失。
(六)評價對象省略
由于話題型微博的話題標簽與文本存在著密切的關聯(lián),網(wǎng)友在微博時,往往可以直接對整個話題或話題的某一部分進行評價和表達態(tài)度,因而標簽或者標簽的一部分甚至標簽外事物也就成為了評價對象。所以,話題型微博的評價對象常在文本中省略,觀點句更加短小精悍,甚至短小到一個短語、一個詞,也可以被人理解,不會造成傳播上的歧義。如:(1)#菲軍艦惡意撞擊#抗議!(2)#菲軍艦惡意撞擊#真可惡(3)#菲軍艦惡意撞擊#…欺人太甚(4)#菲軍艦惡意撞擊#可悲啊……上面這些觀點句都缺省了評價對象,在表達評價時只用了極簡短的話語,但讀者仍然能夠理解它們評價的對象:(1)的評價對象是整個標簽“菲軍艦惡意撞擊”這件事,(2)是標簽中的“菲軍艦”,(3)是標簽中的“菲(律賓)”,(4)是標簽之外的“中國”。
(七)語言不夠規(guī)范
含有大量非規(guī)范性的語言文字,也是話題型微博語言的一個特點。這種非規(guī)范性可能有幾個方面的原因:一方面,是非人為的原因造成的輸入失誤或常識上的漢字書寫錯誤;另一方面,微博表達自由,加之敏感話題在法律上的限制,會人為地加入一些噪聲、非規(guī)范詞、非規(guī)范符號和非規(guī)范語言格式。例如:(1)#瘋狂的大蔥#找點空閑,找點時間!帶著錢包常去url.cn/1T8Gpq淘寶小店去看看!(2)#假和尚摟女子#真TM不要Face。(3)#假和尚摟女子#不過這二和尚佛景不遜達摩釋迦,他們真的能做到‘色即是空,空即是色’???。。?!?4)#彭宇承認撞了南京老太#我很愿意相信這是真的,但是!例(1)加入網(wǎng)站鏈接等噪聲;例(2)中英文混用,TM是“他媽”的拼音縮寫,不要Face是“不要臉”;例(3)標點符號和中文內(nèi)容混用;“但是”作為一個連詞,功能一般是連接句子,往往不會作為句尾結束的標志,但在例(4)中放在句尾,這種微博觀點句的表達,是一種不完整的表達方式。上述話題型微博的語言特點就決定了在進行情感分析時所采取的對應策略。
話題型微博情感分析所采取的策略
情感分析及評價對象抽取,目前主要有兩種基本方法。一種是基于句型、句法、語義的詞典及規(guī)則方法(劉鴻宇等,2010;王素格等,2009;楊江,2011;朱嫣嵐等,2006),一種是基于標注語料的機器學習方法(樊娜等,2010;王根等,2007;張博,2011;Peng等,2002)。我們認為,情感分析,分析的是語言的意義,要想在對語言進行深層理解的基礎上完成情感分析,規(guī)則的方法更有優(yōu)勢,所以主要采取的是基于語義的詞典加規(guī)則的方法,統(tǒng)計方法只在建立詞典確立詞條屬性、建立規(guī)則庫確定規(guī)則優(yōu)先級時發(fā)揮作用。針對話題型微博,我們主要采用了加大情感因子顆粒度,構建基于短語的情感詞典,通過短語規(guī)則確定句子極性、重點研究否定形式、建立基于話題的OBJ表單等策略。
(一)構建基于短語的情感詞典
識別觀點句,學界的通常做法是以情感詞作為依據(jù),帶有情感詞的是觀點句,否則就是非觀點句(這種以詞定句的做法顯然有問題,擬另文討論)。也有一些學者注意到了短語在情感分析中的作用(李鈍等,2008;TheresaWilson等,2005)。話題型微博中的觀點句由于情感表達強烈而理性評價淡化,各種臟話、粗話、口語詞語大量使用,加之很多非直接性的表達,使得影響句子的情感因子的顆粒度加大,僅僅依靠傳統(tǒng)的情感詞典,依靠句子中是否有情感詞來進行觀點句的判斷,會造成很多錯判,因此我們在基本情感詞典的基礎上,用人工方式增加了情感短語,構建了一部基于短語的情感詞典。情感短語詞典突破了以詞為主要收錄對象的局限,將明確表達觀點的情感短語甚至短句都收錄其中,如“不得好死、不咋的、扯犢子、就好了、瞎折騰個屁、不是找抽嗎、什么玩意兒、沒一個好東西、好不到哪兒去、以為自己是誰啊、可以說臟話嗎、這是人的行為嗎、良心讓狗吃了”等等。當然,一些明確表達觀點的口語詞、網(wǎng)絡用語和臟話也必須收錄到情感詞典中,如“得瑟、傻逼、狗逼、操蛋、犯賤、傻B、欠揍、找死”等,這樣包含這些情感短語和情感詞的觀點句就能夠被準確地識別出來,從而在不降低準確率的前提下,提高系統(tǒng)對觀點句的召回率。
(二)通過短語規(guī)則確定觀點句及其極性
話題型微博語言簡單,短句多,長句少;單句多,復句少。針對這種特點,我們建立了短語規(guī)則庫,試圖解決情感短語詞典不能處理的那部分句子是否觀點句以及句子的極性問題,主要是長距離搭配形成的情感短語或者是有歧義的短語搭配。如:(1)#六六叫板小三#這種事是3方的責任;不能單獨怪哪一方;(2)#90后暴打老人#我們指責的不應該是90后,人之初性本善,這是國家、學校、家長教育的責任。單純“責任”一詞,不一定表示評價,但(1)(2)中的“是……的責任”是一個表達負面評價的遠距離搭配,中間可以加進各種不同成分,基本都是評價對象。(3)#蘋果封殺360#這不是騰訊和360的問題,這是中國跟美國的問題。(4)#國旗下討伐教育制度#絕對不是教育制度的問題是教師的問題啊這兩個句子中都有“是……的問題”這樣的搭配,但句(3)中的“是……問題”不表示評價,不是情感短語,句(4)中的“是……問題”就表示對“教師”的評價,是情感短語。這樣的長距離、有選擇搭配,也只能靠短語規(guī)則來解決其觀點句的判定問題。短語規(guī)則主要采取關鍵詞匹配的模板形式。例句(1)(2)的識別規(guī)則為:是/v#[!,/w]的/u責任/n=#4:-1“=”前面是匹配模式,后面是操作。該規(guī)則表示,當“是”后越過一些不包括逗號的成分而出現(xiàn)“責任”時,就將該句判定為觀點句,并給出負面傾向的極性。
(三)建立否定形式規(guī)則庫
話題型微博觀點句具有負面傾向居多的特點。負面觀點句的表達主要靠兩種手段,一種是具有負面傾向的情感詞或情感短語,一種是運用否定形式表達。利用情感短語以及短語規(guī)則識別出來的觀點句,其傾向極性都在詞典或規(guī)則上明確標注著,所以觀點句的傾向極性識別不成問題。問題較大的是有否定形式的觀點句,一般的否定會改變句子的傾向極性。如:(1)#韓寒方舟子之爭#急急忙忙起訴,絕非上策。(2)#菲軍艦惡意撞擊#我們的政府不夠強硬,每次都是強烈抗議,別人鳥你么?(3)#90后當教授#現(xiàn)在的教授真是越來越不值錢了!!(4)#官員財產(chǎn)公示#沒有公平,沒有正義,處處充斥著欺詐。遇到這種情況,只需規(guī)則的操作部分在情感詞的極性值上乘以-1,就可以解決句子的極性判斷問題。但否定形式的情況極其復雜,并不都是一個簡單的“乘-1”就能解決的問題。如:(5)#官員財產(chǎn)公示#太不和諧了吧(6)#洗碗工留剩菜被開除#有些事情合情并不一定合理(7)#假和尚摟女子#沒有不沾腥的和尚。。。。(8)#官員財產(chǎn)公示#所謂的民主,就是你是民,我是主。可以看到,在(5)中,因為程度副詞“太”的存在,在改變傾向極性的同時,加強了情感強度;(6)中,因為有“一定”,否定程度弱化了;(7)中,否定詞語連用,就變成了對“沾腥”的肯定;(8)中的“所謂”一般不會看作是否定詞,但它確確實實改變了“民主”的極性。針對這些情況,我們在語料中盡可能全面地搜集了可以改變句子極性的詞語,形成了一個否定形式詞集,并就各種否定類型建立規(guī)則庫,以保證這類觀點句傾向極性的準確判斷。規(guī)則的基本形式同短語規(guī)則。
(四)建立基于話題的OBJ表單
話題型微博語言話題集中,評價對象往往省略,它的評價對象或者是標簽,或者是標簽的一部分,或者在句子的上文或下文,因此在句內(nèi)根本無法提取到評價對象。針對這種情況,我們在評價對象提取模塊中建立了一個基于話題的OBJ表單。例如下面4個觀點句,標簽話題都是“六六叫板小三”,句中都沒有評價對象。但仔細分析,這4個觀點句的評價對象依次為整個標簽、六六和小三、六六、小三。這說明,對于話題型微博來說,評價對象缺省的觀點句,可以通過回溯話題標簽的方式,在標簽中提取評價對象。(1)#六六叫板小三#無聊…(2)#六六叫板小三#都賤貨!(3)#六六叫板小三#維護自己的愛情,做的對,給力(4)#六六叫板小三#破壞別人家庭,變態(tài)。OBJ表單必須建立在話題的基礎上?!傲邪逍∪边@一話題下的“無聊”是評價“六六叫板小三”這件事的,“官員調(diào)研”這一話題下也有“無聊”,則是評價“官員調(diào)研”這一現(xiàn)象的,“蘋果封殺360”這一話題下的“無聊”則是評價“蘋果封殺360”這一事件的。應說明的是,建立OBJ表單比較適合話題型微博,換一種文體,也許不一定有效。
系統(tǒng)及其工作流程
運用上述策略,我們構建了一個基于情感短語詞典以及語義規(guī)則的情感分析系統(tǒng)CUCsas。系統(tǒng)包括分詞標注模塊、短語和句子規(guī)則解釋器、評價對象提取規(guī)則解釋器和一個OBJ模塊。其中的分詞標注模塊與一般的不同,為做情感分析,在原有分詞詞典和規(guī)則庫的基礎上,又加進了幾部與情感分析相關的詞典,主要的三部是:一部用戶詞典Usrsas,專門儲存情感分析需要切分出來的詞和短語并賦予詞性;一部添加了情感短語、帶有“po(褒)、ne(貶)”標記的情感詞典Dicsas,用于給待分析語料中的情感因子進行標記;一部褒貶值詞典Dicsvl,Dicsas中的所有詞語在這里都要根據(jù)語感人工賦給一個從1至-1之間的情感值,用于計算情感因子的情感度。短語和句子規(guī)則解釋器對短語和句子規(guī)則進行解釋,實現(xiàn)對句子的情感度計算;評價對象提取規(guī)則解釋器對評價對象提取規(guī)則進行解釋,實現(xiàn)一般情況下評價對象的提取。OBJ模塊是對評價對象提取規(guī)則的補充,實現(xiàn)對復雜情況的處理,例如句中評價對象省略的情況。該系統(tǒng)工作流程見圖1。
實驗結果及其分析
運行系統(tǒng)CUCsas,以中國計算機學會(CCF)2012年主辦的第一屆中文微博情感分析評測提供的評測語料為對象,對20篇話題型微博語料進行了觀點句識別、觀點句極性識別和觀點句評價對象提取的實驗。表3是實驗結果(也是評測結果)。上述成績在本次參加評測的34支隊伍提交的53組結果中,任務1觀點句識別獲得第二名(第一名微平均F值為0.784),任務2觀點句極性識別獲得第三名(第一名微平均F值為0.850),任務3觀點句評價對象識別(包括寬松和嚴格)獲得第一名(嚴格評測微平均第二名的成績?yōu)?.225)。雖然相對成績還可以,但我們深知,這三項任務的絕對成績即正確率還不高:任務1的最好成績F值還不到80%;任務二相對較好,達到85%;任務3,我們的成績最好,但即使寬松評測,F(xiàn)值還不足40%??磥?,情感分析,離實用化的要求還有相當一段距離,任重道遠。我們對系統(tǒng)分析結果中識別錯誤的句子進行了分析和歸納,產(chǎn)生錯誤主要有以下幾個原因。(1)在觀點句及其極性的識別上,由于規(guī)則方法本身的限制,使得我們建立的情感詞典和規(guī)則庫很難覆蓋全部語言現(xiàn)象和微博全部的語料,例如“#彭宇承認撞了南京老太#這事兒還有人信啊…”,這條微博沒有被系統(tǒng)識別為觀點句,因而極性識別和評價對象提取也都沒有再繼續(xù)進行。但是從這條微博內(nèi)容來看,明顯帶有說話人對彭宇這件事情的強烈不滿和質(zhì)疑,應該是觀點句。再回溯到我們建立的情感詞典,其中“誰信呢”作為一條情感短語已收錄其中,但是這條微博變換了語言形式。如果能在情感詞典中建立一個“還有人信啊”的短句條目,那么這條微博也能在系統(tǒng)中進行正確分析。(2)對微博語料進行預處理時,由于分詞錯誤使得一些詞不能與情感詞典中的詞條匹配,因而造成了觀點句識別上的流失,例如“#皮鞋果凍#以前敢吃,現(xiàn)在不敢吃了,想想都好惡心”,在分詞的時候,因為“好惡”被分在一起,“惡心”兩個字被切開,因而無法到情感詞典進行匹配。(3)微博語言表達上的隱晦、非直接性,使得系統(tǒng)在處理深層語用時也會出錯,例如“#皮鞋果凍#JS有點良心吧”這一觀點句,系統(tǒng)分析結果顯示為肯定傾向,但是從這句話的深層語義分析,是表示對“JS(奸商)”的一種諷刺,是勸誡他們應該有點良心,應該是否定傾向。(4)由于微博語料的非規(guī)范性,錯別字和標點符號的誤用現(xiàn)象比較普遍,這也在很大程度上影響了規(guī)則的匹配,造成一些觀點句評價對象的提取錯誤。例如,“#彭宇承認撞了南京老太#———老百姓太不容易了,希望我們的黨能領導人民好好走下去?!边@一觀點句,由于“老百姓”前面有一個標點符號,因而在進行規(guī)則匹配時候,這個標點符號也被算到評價對象中來,評價對象就成為了“———老百姓”,在嚴格評測中就是個錯誤。另外,對觀點句極性的認識不同,也造成系統(tǒng)分析結果與評測答案不一致,如“#菲軍艦惡意撞擊#轉(zhuǎn)向舵是不會失效的,更不會這么巧”這句微博,系統(tǒng)認為是觀點句,因為這句微博體現(xiàn)了對菲軍艦撞擊原因的質(zhì)疑,但是評測答案認為這句微博是非觀點句。
幾點啟示
(一)規(guī)則方法不是完全無用
我們針對話題型微博的語言特點,采用基于短語情感詞典及語義規(guī)則的方法構建了一個情感分析系統(tǒng),在中國計算機學會組織的第一屆中文微博語言情感分析評測中取得了相對較好的成績,這是我們始料未及的。毋庸置疑,從上個世紀90年代以后,統(tǒng)計方法就成為語言信息處理的主流,規(guī)則方法被冷落,甚至被嗤之以鼻。但事實證明,規(guī)則方法也不是全無用處,如能和語料庫方法結合,它在處理某些領域語言時可能還有一定優(yōu)勢。
(二)語言計算要加強對語言的分析
語言畢竟是人說出來的話,是一個十分復雜的系統(tǒng),語言的復雜性,無論怎么強調(diào)都不過分。那么在對語言進行計算,尤其是在對語言做“情感分析”這樣的內(nèi)容計算時,如果不顧及語言本身的特點,一味統(tǒng)計,很難取得理想的效果。我們相信,參加這次評測的那些兄弟團隊,在計算上都是一流的高手,如果能在有效的統(tǒng)計手段中加進對語言的深層分析,肯定能取得更加理想的成績。
(三)語言計算要注重語域
語域是哈利迪提出的一個概念,大致相當于語篇類型。語言的復雜性不僅體現(xiàn)在它結構、內(nèi)容的復雜,還在于不同的場合、不同的交際主題與目的、不同的交際對象,就會形成不同的語域。各語域之間在語言結構形式及表達手段上都有很大不同。因此,想要使用一種方法就能放之四海而皆準,構建一個系統(tǒng)就能包打天下,就能解決所有語域的問題,根本是不可能的?;仡櫽嬎阏Z言學的歷史,上個世紀60~80年代計算語言學的發(fā)展時期(馮志偉,2011),人們主要是基于句型、句法、語義提出一些理論、一些方法,然后在受限語言(某個應用領域如火車時刻查詢,或幾十、上百個句子)中去實現(xiàn),以驗證這種理論和方法的可行性,因此出現(xiàn)了計算語言學百家爭鳴、理論方法眾多的研究局面。90年代后,計算語言學提出了新的研究目標,進入了大規(guī)模真實文本處理時期,新的目標決定了新的方法、手段,于是語料庫方法盛行,統(tǒng)計方法成為主流。計算語言學發(fā)展到今天,時間又過去了20年,研究實踐告訴我們:我們還是對語言的復雜性估計不足。處理大規(guī)模真實文本,處理非結構化的大數(shù)據(jù),應該是計算語言學的終極目標,在做具體的語言工程、處理具體的語言內(nèi)容時,還要關注不同的語域,針對不同的受限語言采取不同的分析方法和計算策略。表面看起來,從上世紀60~80年代的“受限語言”,到今天的“關注不同語域”,似乎畫了一個圓,又回到了原點,但這不是簡單的回歸,而是一種螺旋式上升,是計算語言學的語言處理又進入了一個新境界。(本文作者:侯敏、滕永林、李雪燕、陳毓麒、鄭雙美、侯明午、周紅照 單位:中國傳媒大學/國家語言資源監(jiān)測與研究有聲媒體中心)