前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的商品評論主題范文,僅供參考,歡迎閱讀并收藏。
(1華中師范大學(xué)湖北省電子商務(wù)研究中心 湖北 武漢 430079
2華中師范大學(xué)信息管理學(xué)院 湖北 武漢 430079)
摘 要:界定商品虛假評論的概念、稱謂和效用度量,總結(jié)了虛假評論形成與影響機(jī)制,包括虛假評論形成的影響因素以及虛假評論對消費者的影響研究。虛假評論形成和影響機(jī)制應(yīng)結(jié)合內(nèi)部、外部環(huán)境,構(gòu)建全面的理論框架。
關(guān)鍵詞 :在線商品;在線評論;垃圾評論;虛假評論
中圖分類號:TP391 文獻(xiàn)標(biāo)識碼:A doi:10.3969/j.issn.1665-2272.2015.14.016
*基金項目:國家大學(xué)生創(chuàng)新性實驗計劃(A類)基因項目“在線商品評論信息形成機(jī)制的實證研究”(項目編號:A2014080)。
收稿日期:2015-04-22
隨著B2C電子商務(wù)模式的日趨成熟,當(dāng)在網(wǎng)絡(luò)上做出購買商品和服務(wù)的決策前,消費者已經(jīng)開始嚴(yán)重依賴于相應(yīng)的在線商品評論。有效的在線商品評論為市場提供了一個有力的校正機(jī)制,并以此幫助和促進(jìn)市場商品的質(zhì)量的提升。然而,由于存在利益或名譽上的誘惑,一些組織和個人利用網(wǎng)絡(luò)信息監(jiān)管制度的缺失,大量虛假評論從而達(dá)到誤導(dǎo)消費者和獲取自身利益的目的,嚴(yán)重地危害了網(wǎng)絡(luò)購物環(huán)境和秩序。因此對在線商品虛假評論的定義、稱謂、效用度量進(jìn)行界定,綜述在線商品虛假評論形成的影響因素及虛假評論對消費者的影響情況,對后續(xù)的研究具有重要的借鑒作用。
1 基本概念
1.1 虛假評論的定義
最先提出在線商品虛假評論概念的學(xué)者是Jindal教授,他們將虛假評論定義為三種類型:一種是不真實的評論,指故意誤導(dǎo)消費者或評論識別系統(tǒng),目的是蓄意提高或毀壞產(chǎn)品的聲譽,具體包括宣傳性評論和誹謗性評論;一種是不含觀點的評論,指評論中并不包含作者的觀點;一種是只與品牌有關(guān)的評論,指評論的內(nèi)容不是直接關(guān)于產(chǎn)品的評價而是關(guān)于該公司或者供貨商。隨后Luca等學(xué)者基于Jindal的定義又增加了偏離主題的評論這以概念,指評論雖然屬于該類型產(chǎn)品的評論,但是和商鋪銷售的產(chǎn)品無關(guān),如產(chǎn)品是蘋果手機(jī),評論卻關(guān)于三星手機(jī)。
1.2 虛假評論的稱謂
國外學(xué)者從商品垃圾評論屬于商品觀點中的垃圾觀點出發(fā),稱其為opinion spam和review spam;從商品垃圾評論固有的欺騙性質(zhì)出發(fā),稱其為fake review;從商品垃圾評論是由人工產(chǎn)生的途徑出發(fā),稱其manipulative review;從商品虛假評論被用于迷惑其他消費者的用途出發(fā),稱其為deceptive review和suspicious review。與此不同的是,國內(nèi)學(xué)者大多從商品虛假評論的欺騙性質(zhì)出發(fā),直接稱其為虛假評論。也有少部分學(xué)者沿用國外學(xué)者的叫法稱為垃圾評論,但這一稱謂在國內(nèi)總體使用度不高。原因是垃圾評論在國內(nèi)是一個更為廣義的概念,包括博客中的垃圾評論、社交網(wǎng)站中的虛假評論、論壇中的虛假評論、在線購物網(wǎng)站中的虛假評論,“虛假評論”則特指在線購物網(wǎng)站中的虛假評論。
1.3 效用度量
對于評論效用的度量,需要考慮評論的可信度和有效性??尚哦戎感畔⒈恍湃蔚某潭龋瑥?qiáng)調(diào)評論真?zhèn)涡缘谋鎰e,即評論人提供的信息被接受者認(rèn)可的程度。評論有用性是評論對讀者潛在的幫助價值,即評論的效用價值。評論有用性的研究包括有用性影響因素研究和基于效用的推薦排名研究兩方面,通過預(yù)測評論的效用價值,提取出效用更高的真實評論或依據(jù)評論內(nèi)容對消費者進(jìn)行個性化推薦?,F(xiàn)階段學(xué)者主要以消費者利用他人評論后購買的產(chǎn)品是否滿意為標(biāo)準(zhǔn)來判斷評論是否有用。如圖1所示,在虛假評論識別中通過可信度篩選出一部分虛假評論1,再通過有用性為指標(biāo)篩選出剩余的虛假評論2,有用的評論則作為輔助消費者正確購買的效用價值高的評論。
2 虛假評論形成與影響機(jī)制
2.1 虛假評論形成的影響因素研究
Luca等研究了關(guān)于酒店的在線評論,通過分析Yelp虛假評論識別系統(tǒng)認(rèn)定的虛假評論,發(fā)現(xiàn)了三個規(guī)律:當(dāng)酒店的名譽排名靠后時更易實施虛假評論的行為;連鎖店不易實施虛假評論行為;當(dāng)酒店競爭激烈時,更易向競爭企業(yè)虛假評論。由此得出商家實施虛假評論行為是出于競爭和名譽的誘因而不僅僅是商家的不道德。孟美任等進(jìn)一步采用實證分析的研究方式,對淘寶網(wǎng)上18家網(wǎng)店的評論進(jìn)行為期一年的追蹤分析,同時線下調(diào)研20個商家,總結(jié)出四個方面的動機(jī):推銷、詆毀、干擾、無意義。即商家出于增加商鋪銷量的目的推銷評論;同行競爭者出于不良商業(yè)競爭詆毀評論;商家關(guān)于其他方面的廣告宣傳及鏈接屬于干擾評論;顧客出于敷衍、獎勵機(jī)制、單純發(fā)泄情緒而的評論屬于無意義評論。因此,如圖2所示,筆者將虛假評論的動機(jī)總結(jié)為三個方面:一是商家出于推銷、廣告的目的對購買商品的客戶虛假評論;二是客戶出于敷衍、獎勵機(jī)制、發(fā)泄情緒的目的對商家虛假評論;三是商家之間出于不道德、不良競爭的目的互相虛假評論。另外,非虛假的商品評論應(yīng)該由購買該商品或服務(wù)的客戶,我們將其動機(jī)總結(jié)為:分享欲望、社會互動、產(chǎn)品參與度。
2.2 虛假評論對消費者的影響研究
有些學(xué)者從在線評論的不同維度出發(fā)研究虛假評論對消費者購買決策產(chǎn)生影響。瓦瑜等通過實證分析的方法,證實了評論者專業(yè)性、可信性,評論質(zhì)量、評論量、評論效價通過產(chǎn)品感知價值對消費者的購買意愿存在正向影響;消費者專業(yè)性通過產(chǎn)品感知價值對消費者的購買意愿存在負(fù)向影響。鄭小平等發(fā)現(xiàn)評論內(nèi)容的質(zhì)量、評論者信譽度、評論數(shù)量會產(chǎn)生促進(jìn)影響,寧連舉等詳細(xì)為評論情感負(fù)面程度、評論內(nèi)容相關(guān)性、評論內(nèi)容專業(yè)性、評論數(shù)量會正向影響消費者瀏覽網(wǎng)站時的感知風(fēng)險,進(jìn)而影響其購買意愿。劉麗等具體研究了體驗型產(chǎn)品的負(fù)面在線評論,補(bǔ)充了評論長度、評論表達(dá)方式對消費者感知風(fēng)險均有顯著影響。
有些學(xué)者對影響在線評論發(fā)揮效力的諸多因素進(jìn)行了重要程度研究。瓦瑜等發(fā)現(xiàn)感知價值對消費者購買意愿存在中介作用,評論質(zhì)量、評論量、評論效價通過產(chǎn)品感知價值對消費者影響程度最高。劉麗等認(rèn)為評論內(nèi)容對感知風(fēng)險的影響最大,同時證實對于負(fù)面在線評論相似性對感知風(fēng)險的影響有正向顯著作用。周晶晶等問卷調(diào)查后的排序結(jié)果依次是評論的數(shù)量、評論者的信譽度、評論內(nèi)容的質(zhì)量和評論的效價。總體來看,虛假評論屬于商品評論,會通過以上諸多因素作用于消費者的購買決策,但是直接關(guān)于虛假評論對消費者購買決策以及商家商品銷量的影響的研究仍有待完善。
3 結(jié)語
當(dāng)前關(guān)于在線商品評論的形成與影響機(jī)制研究缺乏統(tǒng)一的研究框架和通用的概念模型,且現(xiàn)有的研究成果比較零散,絕大部分的研究范圍僅局限于特定問題,研究成果缺乏通用性和系統(tǒng)性。
因此,今后對虛假評論形成機(jī)制的研究,不僅僅從心理角度出發(fā)進(jìn)行消費者、商家間的動因分析,而且可從虛假評論者形成虛假評論的順序出發(fā),將形成機(jī)制分為三步驟:評論構(gòu)思階段、評論寫作階段、評論發(fā)表階段。評論構(gòu)思階段級,指用戶在腦海中形成評論內(nèi)容的時期,可研究其他評論信息、用戶的心理狀態(tài)、用戶的情感傾向等對用戶構(gòu)思的影響;評論寫作階段,指用戶寫作評論的過程,可研究用戶個人習(xí)慣、用戶評論動機(jī)、用戶用語方式等方面;評論發(fā)表階段,指用戶點擊發(fā)表評論,可研究商家的鼓勵機(jī)制等影響因素。
參考文獻(xiàn)
1 Luca M,Zervas G.Fake it till you make it: Reputation, competition, and Yelp review fraud[J]. Harvard Business School NOM Unit Working Paper,2013(6)
2 孟美任,丁晟春.虛假商品評論信息者行為動機(jī)分析[J].情報科學(xué),2013(10)
3 瓦瑜,汪蕾.在線評論對消費者購買意愿的影響研究——基于信息傳播的視角[D].杭州:浙江大學(xué),2014
4 鄭小平.在線評論對網(wǎng)絡(luò)消費者購買決策影響的實證研究[D].北京:中國人民大學(xué),2008
5 寧連舉,孫韓.在線負(fù)面評論對網(wǎng)絡(luò)消費者購買意愿的影響[J].技術(shù)經(jīng)濟(jì),2014(3)
旅游商品是旅游者游覽活動的延伸與繼續(xù),是衡量一個國家和地區(qū)旅游業(yè)發(fā)達(dá)程度高低的標(biāo)志。同時,旅游商品是發(fā)展旅游購物的基礎(chǔ),旅游商品的開發(fā)創(chuàng)新是旅游購物可持續(xù)增長的關(guān)鍵。在一般的旅游過程中,吃、住、行、游、購、娛六項旅游花費前四項是基本固定的、“有限”的花費,而旅游購物則是“無限”花費。旅游購物作為“無限”花費,在旅游產(chǎn)品的構(gòu)成要素中可挖掘的經(jīng)濟(jì)效益的潛力最大,做大做強(qiáng)旅游商品產(chǎn)業(yè)對開平本地區(qū)旅游經(jīng)濟(jì)的進(jìn)一步發(fā)展具有十分重要的現(xiàn)實意義。
(一)提高旅游收入,促進(jìn)地方經(jīng)濟(jì)發(fā)展
成功的旅游區(qū)開發(fā)經(jīng)驗表明,旅游商品的開發(fā)生產(chǎn)能夠帶動當(dāng)?shù)氐慕?jīng)濟(jì)活力,提高居民的經(jīng)濟(jì)收入,以及政府的財政收入。根據(jù)近幾年的統(tǒng)計數(shù)據(jù)顯示,旅游者在江門市的旅游消費構(gòu)成中,旅游購物所占比例不足10位數(shù),這反映了購物成為當(dāng)?shù)芈糜瘟笠刂凶畋∪醯沫h(huán)節(jié)。豐富購物活動,是江門旅游取得進(jìn)一步發(fā)展的關(guān)鍵。
(二)豐富本地產(chǎn)品,調(diào)整產(chǎn)品結(jié)構(gòu)
通過調(diào)整本地農(nóng)產(chǎn)品與手工藝品的的產(chǎn)品結(jié)構(gòu),優(yōu)化資源整合,引導(dǎo)旅游商品廠家走特色產(chǎn)品之路,進(jìn)一步拓寬銷售渠道。一來可以提供更多的就業(yè)機(jī)會,再者豐富了開平景區(qū)旅游商品的多元化。
(三)提升當(dāng)?shù)芈糜紊唐肺幕肺?/p>
旅游商品是旅游景區(qū)文化的物化和延伸,游客對開平碉樓與村落文化和生態(tài)的認(rèn)可,進(jìn)而引申為對工藝品、紀(jì)念品、土特產(chǎn)品的認(rèn)可,并通過這種購買行為,達(dá)到與開平文化和生態(tài)的另一種感悟和交流。地方特色商品兼具地域性、文化性、品牌性,因而有利于以“購”來豐富開平旅游的內(nèi)涵,從而與世界文化遺產(chǎn)形成旅游購物商品及其購物場所方面的匹配。
二.開平碉樓與村落旅游商品開發(fā)存在的主要問題
(一)旅游購物所占比重偏低
在開平碉樓與村落申遺成功的直接刺激下,2007年江門全年接待游客1460.75萬人次,比上年增長38.12%。其中城市接待過夜國際旅游者47.95萬人次,同比增長37.54%,一日游游客784.14萬人次,同比增長73.87%;開平旅游出現(xiàn)了“井噴”效應(yīng),主要旅游景點旅游人數(shù)激增300%。開平市旅游總收入11.26億元,增長40.93%①。
中國社會科學(xué)院旅游研究中心的魏小安研究員認(rèn)為,中國的旅游購物市場未來的發(fā)展目標(biāo)應(yīng)該是世界的平均水平——30%。然而根據(jù)開平市旅游局公布的數(shù)據(jù),旅游者在開平的旅游消費構(gòu)成中,旅游購物所占比例卻連百分之十都不到。
(二)旅游商品開發(fā)還處于粗放階段
通過實地旅游體驗調(diào)研,“開平碉樓與村落”這一世界文化遺產(chǎn)地的地方特色商品資源還缺乏全面調(diào)查,開發(fā)處于粗放狀態(tài)。具體表現(xiàn)在:
1.旅游商品研發(fā)力度不夠,產(chǎn)品結(jié)構(gòu)欠合理
開平本地目前大多數(shù)旅游商品生產(chǎn)企業(yè)規(guī)模較小,未能形成規(guī)模效益。此外,還存在部分極具本土特色的商品被忽略,在現(xiàn)代工業(yè)品大潮中逐漸邊緣化,甚至消失,亟待深度挖掘。
2.旅游商品特色不鮮明
作為世界文化遺產(chǎn),開平碉樓文化內(nèi)涵豐富、特色鮮明。一些體現(xiàn)歷史文化及地域特色的旅游商品,還遠(yuǎn)遠(yuǎn)不能滿足各類游客的廣泛需求,且也無法與世界文化遺產(chǎn)的身份匹配。特色明顯、文化含量高的商品所占比重還很小,缺乏拳頭產(chǎn)品。
3.質(zhì)量意識不強(qiáng),包裝層次低
本地區(qū)僅有的數(shù)家旅游商品生產(chǎn)企業(yè)尚處于作坊式生產(chǎn)經(jīng)營狀態(tài),由于其在資金、人力、技術(shù)等方面的限制,使得部分旅游商品做工粗糙,檔次較低。偷工減料、以次充好、以假亂真的現(xiàn)象也較普遍,嚴(yán)重挫傷旅游者的購買積極性。
此外,許多景點購物環(huán)境混亂,產(chǎn)品單一, “回扣”現(xiàn)象普遍存在,售后服務(wù)不完善。
(三)政府對開平碉樓與村落旅游商品的開發(fā)工作收效甚微
伴隨“申遺”工作,江門市政府和市旅游局一直非常重視開平碉樓與村落景區(qū)的建設(shè)和發(fā)展,并通過舉辦評選優(yōu)秀旅游商品相關(guān)活動支持當(dāng)?shù)芈糜翁厣唐返陌l(fā)展,但是旅游商品消費在開平的旅游收入占的比例仍舊很低,舉辦的有關(guān)活動產(chǎn)生的實際效果并不顯著,導(dǎo)致勞民傷財且收效甚微。
三.開平碉樓與村落旅游商品的資源優(yōu)勢與特點
(一)開平碉樓與村落旅游商品開發(fā)的優(yōu)勢與特點
開平碉樓與村落深厚的文化影響優(yōu)勢主要是源自其馳名中外的中西方結(jié)合的僑鄉(xiāng)文化、獨特而且具有地方文化特征的建筑藝術(shù)。同時,開平碉樓與村落景區(qū)地處廣東中南部、珠江三角洲西緣,屬南亞熱帶地區(qū)。受海洋氣候影響,潮濕多雨,年降雨量在1700至2400毫米之間,屬于丘陵地帶,但東部和中部部分地區(qū)為潭江沖積平原。有著獨到的氣候優(yōu)勢,決定了本地區(qū)具備豐富的物產(chǎn)資源。
(二)開平碉樓與村落旅游商品的譜系
經(jīng)過多次的走訪調(diào)查,得出開平本地現(xiàn)有的和潛在的大致旅游商品譜系如下
綠色食品類:潭碧冬瓜、開平廣合腐乳、外海面、金山火蒜、水口白菜、陂頭桂味荔枝、農(nóng)家肥蔬菜、臺山蝦醬、古勞豆豉、聯(lián)竹果蔗、金雞番葛、龍勝甜橘、馬岡鵝
中草藥保健類:錦云單樅茶、東山蜂蜜、新會陳皮、鶴山桔普茶、荷塘頭菜、開平蘆薈、健之源靈芝補(bǔ)品、鄉(xiāng)土味響山簕菜茶、開平陳皮茶、開平陳皮梅
旅游紀(jì)念品類:碉樓微縮模型、碉樓積木、碉樓紙牌游戲、傳統(tǒng)工藝品如碉樓茶磚、皮雕系列工藝品、輕工小紀(jì)念品、有紀(jì)念意義的文化衫及絲綢、紡織品(如LG服飾、牛仔服裝)
旅游文化類:明信片、畫冊、郵冊、開平名人相片集、開平名人書法藝術(shù)集、開平名人繪畫藝術(shù)集、碉樓故事集
宗教類:佛教、道教、基督教、伊斯蘭教
旅游用品類:旅游箱包、首飾盒、生活用品、醫(yī)療保健用品
旅游書刊類:導(dǎo)游圖、導(dǎo)游手冊、美食路線圖、地方雜志
四.開平碉樓與村落旅游商品開發(fā)對策
在前不久CCTV發(fā)現(xiàn)之旅頻道的《華商論見》欄目的拍攝現(xiàn)場,我們看到了常州愛爾威智能科技有限公司的營銷副總何春華。整個錄制過程中,何春華就如何認(rèn)知品牌價值和樹立品牌等話題侃侃而談,給現(xiàn)場的其他企業(yè)家及記者都留下了深刻的印象。
(左二:何春華)
“雖然哥不在江湖,但江湖還有哥的傳說”
提起何春華,可能很多人并不熟悉。但對于臺灣旺旺集團(tuán)的人來說,這個名字在整個集團(tuán)內(nèi)部以及快消品行業(yè)中是有著響當(dāng)當(dāng)?shù)牡匚坏摹:未喝A在九十年代就加入了旺旺集團(tuán),開始了長達(dá)20年的快消品市場營銷管理工作。他曾經(jīng)提出的一些營銷理念和渠道建設(shè)模式至今也都還在被眾多的后來人學(xué)習(xí)與效仿。離開旺旺集團(tuán)后,他進(jìn)入香港海德實業(yè)有限公司,開始負(fù)責(zé)公司的項目設(shè)計與全國的項目布局等工作。在談到這兩段工作經(jīng)歷的時候,我們聽到的最多的關(guān)鍵詞就是“速度”與“深度”。這不僅讓我們產(chǎn)生了一個問題,那就是為什么會從相對比較成熟的傳統(tǒng)行業(yè)一步跨入到智能硬件設(shè)備這個目前還相對小眾的領(lǐng)域呢?
針對這一問題,何春華是如此回答的:“其實對于營銷人員來說做什么行業(yè)不重要。產(chǎn)品只是企業(yè)文化和銷售理念的載體。每一個營銷人員的希望都是能在一個好的平臺上,實現(xiàn)屬于自己的理念與價值。那么,從“衣食住行”這些跟民生息息相關(guān)的行業(yè)看,我以前大部分時間是在做跟“食”這個方面有關(guān)的事情。對于現(xiàn)階段的國人來說,在已經(jīng)解決了“食”這個問題的當(dāng)前,大多數(shù)人開始對“行”這一塊提出了更多的需求。從發(fā)展的角度看,這就是一個大平臺。
選擇愛爾威公司,是一種機(jī)緣巧合,也是一種必然。愛爾威是一家專業(yè)研發(fā)、生產(chǎn)智能交通工具的企業(yè),并且這家企業(yè)非常強(qiáng)調(diào)技術(shù)的高效轉(zhuǎn)換與市場的快速滲透。這和我做事情所追求的“快速”是不謀而合的,所以這是一種緣分。雖然目前智能硬件設(shè)備的確屬于比較小眾的市場,但幾乎所有人都認(rèn)識到了智能化時代的趨勢。所以,從市場角度看,今天的“小”恰恰印證了明天的“大”。而這正是必然!“
“天下武功,唯快不破”
“互聯(lián)網(wǎng)思維”的誕生,給很多傳統(tǒng)行業(yè)都帶去了沖擊、顛覆甚至毀滅,對此相信很多人都深以為然。新興的互聯(lián)網(wǎng)行業(yè)正以強(qiáng)勁的勢頭擠壓著傳統(tǒng)行業(yè)的生存空間,對于這一點,何春華用道家的理論做出了獨特的解讀。
“世間萬物最終都會歸于平衡,這是一種規(guī)律,就是我們常說的‘道’。現(xiàn)在的互聯(lián)網(wǎng)思維與經(jīng)濟(jì)之所以被人們推崇,最主要的原因是順應(yīng)了時代的潮流,符合了消費者的需求。而傳統(tǒng)行業(yè)在應(yīng)變上慢了,導(dǎo)致了這樣一種此消彼長的局面。但是從越來越多的線上企業(yè)和線下企業(yè)加強(qiáng)相互之間的互動和異業(yè)合作可以看出,誰把誰顛覆掉都是個偽命題,正確的理解應(yīng)該是‘借鑒與融合’,最終還是一個詞:歸于平衡,產(chǎn)生一種新的商業(yè)模式。
在當(dāng)今這個互聯(lián)網(wǎng)+的時代,一個顯著的特點就是‘以快制快,以快打快’。不管是哪一類企業(yè)都應(yīng)該對市場的變化做出快速反應(yīng)。在出行交通工具這個行業(yè),我接觸過很多傳統(tǒng)實體經(jīng)銷商,他們正面臨著本行業(yè)市場飽和、利潤瓶頸、品牌寡頭等問題的困擾,面對互聯(lián)網(wǎng)運營與智能時代的來臨,他們充滿了疑惑和焦慮。
對于這些仍停留在傳統(tǒng)模式中的人,如何讓他們快速擁抱互聯(lián)網(wǎng),并且快速獲得過硬的智能硬件技術(shù)支持,從而成功轉(zhuǎn)型,這就是愛爾威想要去實現(xiàn)的。利用我們的專業(yè)和對渠道的感同身受,去引導(dǎo)傳統(tǒng)經(jīng)銷商們做出正確的決策,讓他們能更全面的去認(rèn)識智能交通產(chǎn)業(yè)的發(fā)展預(yù)期,在市場井噴期到來之前找準(zhǔn)自己的位置,做好卡位的工作。
所以,我們將以愛爾威自身對傳統(tǒng)行業(yè)與新興行業(yè)的跨界優(yōu)勢、渠道建設(shè)的經(jīng)驗、以及實際的輔銷行為等,來協(xié)助我們的渠道客戶打好這場行業(yè)的轉(zhuǎn)型戰(zhàn)役?!?/p>
關(guān)鍵詞:產(chǎn)品評論;產(chǎn)品特征;特征提取;評論挖掘
中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2016)14-0159-03
A Product Feature Extraction Method Based on Customer Comments
TU Shun-lin, LIU Li, LI Wei-hua, ZHAO Yi-xia
(Department of Computer Science, Huizhou University, Huizhou 516007, China)
Abstract:The paper combine with the characteristics of Chinese proposed an approach to obtain product features set.Part-of-speech tagging and statistics are used to get the candidate product features set,then use pattern matching to tailors the candidate product features set and filtered it according to the stop words library.Finally the product features set are obtained. The proposed method was tested with the real clothing reviews which were obtained by scrawler technology from Internet and the results show that the validity of the method is proved preliminarily.
Key words: product reviews;product features ; features extracting;review mining
1 概述
電商的蓬勃發(fā)展與規(guī)模的迅速壯大,越來越多的人選擇網(wǎng)購的同時也導(dǎo)致越來越多產(chǎn)品評論的積累。Web上的評論信息是海量的無結(jié)構(gòu)化數(shù)據(jù),企業(yè)和客戶想要從產(chǎn)品中獲得信息只有通過人工閱讀的方式進(jìn)行,而這是一個消耗時間而且容易產(chǎn)生錯誤的過程[1]。如此處理并沒有很好地利用這些數(shù)據(jù),既不能及時有效地反饋客戶對商品的態(tài)度,更難以為企業(yè)高層的決策提供輔助,由此“評論挖掘”應(yīng)運而生。評論挖掘作為非結(jié)構(gòu)化信息挖掘的一個新興領(lǐng)域,主要涉及網(wǎng)絡(luò)評論中的情感分析、產(chǎn)品特征提取以及主觀內(nèi)容識別等[2]。與國外比,漢語評論挖掘方法和技術(shù)的研究起步較晚,而文化的差異、語言表達(dá)方式、詞匯語法等差異也注定很多國外的研究成果無法直接應(yīng)用到中文評論處理上。因此,結(jié)合相關(guān)文獻(xiàn)與研究,本文提出一種簡單自動提取出客戶評論中的產(chǎn)品特征的方法,實驗證明該方法行之有效,可為企業(yè)建立評論挖掘系統(tǒng)提供參考。
2 客戶評論中的產(chǎn)品特征
產(chǎn)品特征指的是客戶、企業(yè)、廠方等對產(chǎn)品本身、產(chǎn)品部件、部件的性能或功能上的抽象概括。一般來說,生產(chǎn)商對于產(chǎn)品都會提供一份描述產(chǎn)品各方面功能和性能的說明文件。對于服裝產(chǎn)品來說,這份說明除了包括品牌、風(fēng)格、上市年份、材質(zhì)等服裝的基本屬性外,還包括更多的技術(shù)細(xì)節(jié),但是這些細(xì)節(jié)客戶往往都不太感興趣。此外,客戶評論中對于產(chǎn)品特征的描述是一個開放性的問題,客戶可能在產(chǎn)品評論中發(fā)表一些企業(yè)或廠商根本就沒注意到的一些產(chǎn)品特征,而這些特征正影響著廣大消費者的購買決策。正因如此,需要從產(chǎn)品評論中提取客戶評論中的產(chǎn)品特征[3]。
產(chǎn)品的特征分為顯式特征和隱式特征兩種[4]。顯式特征是直接出現(xiàn)在產(chǎn)品評論中描述產(chǎn)品的性能或功能的名詞或名詞短語。比如說“好喜歡,尺碼挺準(zhǔn),挺合身的”,這里尺碼是顯式特征。而隱式特征就需要對句子的語義進(jìn)行理解才能提取出來,并沒有在語句中有直接的描述。如“從廣州到佛山給我送了5天我就呵呵了”,其實這里指出了產(chǎn)品物流的這個隱式特征。抽取隱式特征需要自然語言的分析和理解技術(shù),但是目前該技術(shù)尚不成熟,所以這里所說的產(chǎn)品特征提取是指顯式特征的提取。
3 產(chǎn)品顯式特征的提取
3.1 人工定義和自動提取
顯式產(chǎn)品特征的提取分人工定義和自動提取兩類方法。
采用人工定義的方法就是從某特定領(lǐng)域的產(chǎn)品評論庫中以人工的方式抽取出產(chǎn)品特征。當(dāng)產(chǎn)品類型不同或者產(chǎn)品發(fā)生改變時,都需要重新構(gòu)建產(chǎn)品特征集合。這種方法的可移植性、自適應(yīng)性都比較差,查全率較低。
采用自動提取的方法主要依靠詞性標(biāo)注、句法分析等方法配合其他的提取技術(shù)實現(xiàn)。比如利用NLP分詞及詞性標(biāo)注技術(shù)對客戶評論進(jìn)行解析,從中提取名詞或名詞短語來作為候選特征詞。此方法的優(yōu)點是處理速度快,但是只依賴詞性的提取精確度不高。另外有學(xué)者提出基于關(guān)聯(lián)規(guī)則挖掘頻繁項集并用支持度進(jìn)行裁剪的方法提取特征詞,使用這種方法能提取到高頻特征詞但對低頻特征詞提取效果不好[5]。文獻(xiàn)[6]提出一種利用互信息(PMI)的特征提取方法。該方法首先提取出頻率高于某一閾值的名詞或名詞短語來作為候選特征詞,然后利用搜索引擎計算出候選特征詞與產(chǎn)品的互信息,依此確定特征詞與該產(chǎn)品的相關(guān)性。但是由于是基于搜索引擎的方法,所以在處理的速度上會比其他方法慢許多。
3.2 產(chǎn)品特征提取方法
本文依據(jù)中文特點融合多種產(chǎn)品特征提取方法,提出一種簡單有效的產(chǎn)品特征提取方法。該方法通過詞性標(biāo)注和統(tǒng)計抽取產(chǎn)品特征候選集,再利用模式匹配對產(chǎn)品特征候選集進(jìn)行裁剪,最后構(gòu)建無關(guān)詞庫對產(chǎn)品特征候選集進(jìn)行過濾,得到產(chǎn)品特征。提取過程如圖1所示。
該方法的具體步驟如下:
(1)利用爬蟲程序下載服裝商品評論。
本文實驗數(shù)據(jù)采用某品牌天貓服裝的評論信息,因此需要設(shè)計出合適的爬蟲程序。網(wǎng)絡(luò)爬蟲是一種自動提取網(wǎng)頁的程序,提取的數(shù)據(jù)是半結(jié)構(gòu)化的HTML結(jié)構(gòu)。
(2)過濾無價值的評論信息并形成商品評論庫。
爬蟲下載的源文檔HTML結(jié)構(gòu)中包含大量的與商品評論無關(guān)的內(nèi)容。如HTML文檔的頭部和尾部信息、外部資源的鏈接、客戶端腳本程序的定義、文檔樣式定義等內(nèi)容,這些內(nèi)容均屬于無價值的內(nèi)容。另外,由于客戶對商品的評論是開放性的,有部分客戶會借此做出惡意的推廣或誤導(dǎo)評論。包含各種聯(lián)系方式(電話號碼、QQ號等)和外部鏈接的評論基本都屬于無價值的惡意評論。
(3)利用中文分詞和詞性標(biāo)注工具處理評論庫。
通過過濾處理的評論數(shù)據(jù)組成評論庫,評論以句為單位通過分詞工具的處理,同時統(tǒng)計計算出詞語或短語出現(xiàn)的頻率。定義候選詞庫的數(shù)據(jù)結(jié)構(gòu)為{A,B,C,D},其中A為詞語或短語,B為詞性,C為出現(xiàn)頻數(shù),D為該詞在該句評論中的出現(xiàn)語法模式。如:評論“感覺衣服尺碼偏大”,若“尺碼”在庫中出現(xiàn)10次,則提取結(jié)果為{"尺碼","/n",10,"/n/n/尺碼/a/a"},最后形成由詞語和詞性標(biāo)注的有序排列。
(4)抽取候選特征詞。
由于產(chǎn)品特征值主要由名詞或者名詞短語組成,所以本文關(guān)注詞性標(biāo)注為名詞或名詞短語的分詞結(jié)果并將其抽取為候選特征詞集合。每一款服裝商品的所有評論都形成各自的候選特征詞集。
(5)通過半自動的方法建立停用詞庫。
為了節(jié)省空間、提高提取效率和準(zhǔn)確率,需要過濾某些詞,這些詞稱為“停用詞”。這些詞往往出現(xiàn)頻率較高,但卻不是產(chǎn)品特征,有的甚至沒有什么含義。例如:“給表妹買的,很合身”這樣的句式在評論中是很常見的。其中“表妹”一類的人稱代詞出現(xiàn)的頻率較高,而一般的基于概率統(tǒng)計思想的算法往往會將其認(rèn)為是“高頻特征”而錯誤提取。因此,使用停用詞庫進(jìn)行過濾就能較好地解決這一類問題。首先獲取其他類型商品的評論信息,按上述方法抽取出這些商品的特征詞,最后取這些特征詞的交集構(gòu)建停用詞庫。但是因為有的特征詞如上市時間,物流,外觀等屬于通用特征詞所以需人工挑選出來。
(6)裁剪候選特征詞。
通過統(tǒng)計和模式匹配對候選特征詞進(jìn)行裁剪。利用統(tǒng)計的方法選取高頻特征詞,并在這些已經(jīng)選取的高頻特征詞中前后尋找語法模式。然后調(diào)整統(tǒng)計的閾值并用語法模式的匹配裁剪以提取低頻的特征詞。最后通過停用詞庫過濾得出最終的產(chǎn)品特征詞集。
4 數(shù)據(jù)實驗
4.1 特征詞集合
由高頻特征詞以及符合匹配模式的名詞組成,最后通過無關(guān)詞庫的過濾的出特征詞集合。采用某品牌天貓店中的1132款服裝的商品信息和對應(yīng)的17039條有效評論通過本文方法獲取商品特征如下:
其征詞旁的標(biāo)號為該詞在評論語句中出現(xiàn)的頻數(shù),沒有標(biāo)號的詞通過匹配模式提取。
4.2 驗證與評價
對產(chǎn)品特征提取方法的性能判斷,可用查全率和查準(zhǔn)率進(jìn)行評價。產(chǎn)品屬性的提取相當(dāng)于對屬性詞語的二維分類,即真實屬性還是非真實屬性、已提取屬性和未提取屬性的分類。采用列聯(lián)表(表2)說明如下:
查全率(R)=A/(A+B);
查準(zhǔn)率(P)=A/(A+C);
利用人工識別的方法,可做查全率和查準(zhǔn)率的計算,并說明上述方法的準(zhǔn)確性[7]。以一款男裝和一款女裝為例,統(tǒng)計結(jié)果如下:
某款夏季男裝(id:3953xxx0863)
相對于其他產(chǎn)品特征挖掘方法,本文所提出的方法與其他方法的結(jié)果比較如表5所示。以上述兩款服裝為例,算得查全率和查準(zhǔn)率的平均值分別為66.19和85.25。
通過比較,表明本文方法對于商品評論中的特征提取有著較高的查準(zhǔn)率,但是明顯的查全率偏低,基本保持在66%左右。這主要是由于低頻特征詞的獲取是由匹配模式?jīng)Q定的,個別的產(chǎn)品特征出現(xiàn)頻數(shù)較少以及網(wǎng)絡(luò)評論句式的自由化、多樣化都給匹配模式的準(zhǔn)確構(gòu)建提出了更高的要求。隨著匹配模式的進(jìn)一步研究與改進(jìn),相信將會取得更好的效果,同時這也是本文今后的研究方向??傊?,從實驗結(jié)果來看基于詞性標(biāo)注和統(tǒng)計并利用模式匹配對候選特征詞進(jìn)行裁剪的產(chǎn)品特征提取方法還是比較有效的。
5 總結(jié)
產(chǎn)品特征不僅是影響客戶做出商品購買決策的重要因素,也是企業(yè)為提高產(chǎn)品和服務(wù)質(zhì)量、提高收益的關(guān)鍵。而產(chǎn)品特征提取是產(chǎn)品評論挖掘的重要方面,更直接影響到評論挖掘系統(tǒng)的性能。本文提出的方法能夠有效地從商品評論庫中提取出商品特征值,并以真實評論數(shù)據(jù)為實驗,表明了該方法的有效性,可為企業(yè)構(gòu)建評論挖掘系統(tǒng)作參考。
參考文獻(xiàn):
[1] 伍星,何中市,黃永文.產(chǎn)品評論挖掘研究綜述[J].計算機(jī)工程與應(yīng)用,2008,4(36):37-40.
[2] 李實,葉強(qiáng),李一軍,羅嗣卿.挖掘中文網(wǎng)絡(luò)客戶評論的產(chǎn)品特征及情感傾向[J].計算機(jī)應(yīng)用研究,2010,27(8):3016-3019
[3] 郗亞輝, 張明, 袁方,等. 產(chǎn)品評論挖掘研究綜述[J]. 山東大學(xué)學(xué)報:理學(xué)版, 2011, 46(5):16-23.
[4] 王永, 張勤, 楊曉潔. 中文網(wǎng)絡(luò)評論中產(chǎn)品特征提取方法研究[J]. 現(xiàn)代圖書情報技術(shù), 2013(12):70-73.
[5] 李培. 產(chǎn)品評論挖掘的觀點抽取和分類技術(shù)研究[D]. 重慶大學(xué), 2009.
關(guān)鍵詞:在線產(chǎn)品評論;文本評論;文本挖掘技術(shù)
基金項目:教育部人文社會科學(xué)研究青年基金項目:“網(wǎng)頁中產(chǎn)品屬性文本信息對消費者購買決策的影響機(jī)制研究”(編號:14YJC630204)
中圖分類號:F724.6 文獻(xiàn)標(biāo)識碼:A
收錄日期:2015年5月31日
網(wǎng)絡(luò)購物用戶在網(wǎng)上購物時很多人都會瀏覽參考其他人對商品的評論信息,并且在購物后進(jìn)行在線評論。2006年開始對在線產(chǎn)品評論的研究不斷增多(李恒,2015)。由于該研究主題涉及信息系統(tǒng)、電子商務(wù)、消費者行為、圖書與情報科學(xué)等多個不同領(lǐng)域的交叉,相關(guān)研究文獻(xiàn)較難得到系統(tǒng)性的整理。本文擬從在線評論的特征、作用、分析技術(shù)這三個方面對這些文獻(xiàn)進(jìn)行梳理。值得注意的是,由于文獻(xiàn)涉及范圍過于廣泛,為了使本文綜述主題聚焦,文中關(guān)于在線評論的文獻(xiàn)僅局限于商家購物網(wǎng)站的購買者評論,也稱為在線產(chǎn)品評論。其他在線評論或者在線口碑形式不在討論之列,比如第三方平臺的評論(影評、試乘試駕評論、點評網(wǎng)站評論等)、社交媒體中的產(chǎn)品或企業(yè)評論(各類口碑、輿情、內(nèi)容營銷及互動等)。
一、在線產(chǎn)品評論特征
李恒(2015)把消費者的在線評論特征總結(jié)為分屬于評論星級和文本評論兩種形式下的12種維度。其中,評論星級指的是購買者對該次購物的總體評價。這種形式中沒有分出更多的維度,因此評論星級就是一個維度。在文本評論這一形式中,有評論標(biāo)題、評論內(nèi)容一般特性、評論內(nèi)容的語義特征、評論內(nèi)容的時間特性這四類。在這四類中分別包含了評論標(biāo)題、評論質(zhì)量、評論數(shù)量、評論長度、評論差異性、評論效價、評論類型、評論可讀性、評論強(qiáng)度、評論及時性、評論時效性等11個維度。這12個維度具體的隸屬關(guān)系以及其研究焦點屬性本文將其整理至表1中。接下來本文針對表1中的各種在線評論特征維度和其研究焦點屬性逐一進(jìn)行解釋。(表1)
評論星級指的是購買者對該次購物的總體評價。這種形式中沒有分出更多的維度,因此評論星級就是一個維度。通常的研究焦點在于評論星級的極端性與中立性的作用。以大部分購物網(wǎng)站采用的五星評分制度為例,評論星級的極端性即一星為代表的極端負(fù)面評價與五星為代表的極端正面評價,而三星反映中立態(tài)度。
接下來的文本評論中包含了網(wǎng)購用戶有文字留言內(nèi)容的評論中的各種特性的研究維度。大略可以分為文本評論標(biāo)題和文本評論內(nèi)容兩類,文本評論標(biāo)題是評論者對評論內(nèi)容的文本概括,在除了在線產(chǎn)品評論以外的在線評論中比較常見。通過評論者自擬的標(biāo)題使瀏覽者容易從標(biāo)題的關(guān)鍵詞以及總體情感傾向中搜索以及快速知曉評論整體內(nèi)容,但是在購物網(wǎng)站的用戶評論中設(shè)置標(biāo)題的并不多,比如國內(nèi)的淘寶、京東等購物網(wǎng)站的用戶評論中均沒有設(shè)置文本評論的標(biāo)題。因此,本文中不再贅述。文本評論內(nèi)容就是網(wǎng)購用戶用文字留下的購買感受的評價內(nèi)容,李恒(2015)將其特性分為一般特性、語義特征和時間特性三類。本文在介紹完表1這些特征之后,再對其中未包含的一些特征進(jìn)行補(bǔ)充。
評論內(nèi)容的一般特性包括評論的質(zhì)量、數(shù)量、長度和差異性。其中,數(shù)量和長度比較好理解,就是該產(chǎn)品下購買者的累計評論的總數(shù)和評論的文字字?jǐn)?shù)長度,其研究屬性也是總數(shù)和字?jǐn)?shù)長度的計量值。評論質(zhì)量特性借鑒了霍夫蘭德的說服模型中信息內(nèi)容對說服效果的影響作用,強(qiáng)調(diào)了在線產(chǎn)品評論作為消費者用來參考購買的有用信息,信息的瀏覽者對于產(chǎn)品評論信息的真實性、可靠性、內(nèi)容與其所評價的產(chǎn)品的相關(guān)性以及是否為后續(xù)購買者提供了大量有用的信息這幾個方面的主觀感知(郭國慶,2010;李宏,2011)。其研究屬性也基本圍繞這幾個有關(guān)信息質(zhì)量評價的主觀因子展開。評論差異性,即評論離散度,能顯示不同評論中購買者態(tài)度或觀點上的分歧程度。其研究屬性通常采用評論者對網(wǎng)絡(luò)平臺設(shè)置的評分項打分的方差或標(biāo)準(zhǔn)差來度量。
評論內(nèi)容的語義特征包括評論的效價、類型、可讀性和強(qiáng)度,這些特性都與文字評論的文本內(nèi)容的表達(dá)有關(guān)。簡單來說,效價代表了文本內(nèi)容的詞語描述中總體體現(xiàn)出來的情感傾向,其研究屬性有正面、負(fù)面和中立(或綜合)之分;類型代表了文本詞語中對產(chǎn)品屬性及其體驗的描述是客觀還是主觀之分;可讀性代表了評論文本詞語中每個評論者其自身帶有的語言習(xí)慣表達(dá)、拼寫、詞匯選擇、句長句式語法等是否容易讓瀏覽閱讀的人理解,因此其研究屬性也是瀏覽評論者的一種主觀性的感知(Korfiati,2012);強(qiáng)度代表了評論文本詞語措辭中表現(xiàn)出的情感態(tài)度的強(qiáng)烈程度,其研究屬性主要集中于瀏覽者對負(fù)面口碑中負(fù)面情緒強(qiáng)度的感知程度(黎小林,2007)。
評論內(nèi)容的時間特性包括及時性和時效性,這兩條特性與評論的時間信息有關(guān)。評論及時性代表評論時間與購買時間的間隔遠(yuǎn)近,研究屬性是評論發(fā)表的天數(shù),但是究竟天數(shù)長好還是短更好可能并不是簡單的線性關(guān)系,因此到底是否及時的判斷也就比較模糊了;而時效性代表評論時間與現(xiàn)在(瀏覽時間)間隔遠(yuǎn)近,以及是否在最近有頻率較高的密集評論,這反映了該產(chǎn)品的近期火熱與流行程度,研究屬性是評論瀏覽者對時效性強(qiáng)與弱的主觀評價(劉逶迤、逯萬輝,2010;郭國慶等,2010;龔思蘭等,2013)。
其他表1中未提及的較為重要的特性還有評論者特征等等。評論者的特征包括評論者是否匿名(身份知否披露)、評論者的專業(yè)性、評論者的聲譽、排名等等(Racherla P,F(xiàn)riske W,2012;Hyunmi et al.2012)。這個部分我們只是將這些現(xiàn)有研究中涵蓋的特征進(jìn)行了簡單歸類和羅列,其中有些特征在技術(shù)、功能和研究范式發(fā)展過程中會出現(xiàn)不同程度的交叉重疊和所屬類別上的變化,在后文中會有所提及。
二、在線產(chǎn)品評論作用
以上談到的是在線產(chǎn)品評論的特征,對于在線產(chǎn)品評論的功能研究者們也有所探討。在線評論的功能一方面包含有大量產(chǎn)品屬性、使用價值方面的描述信息可以給潛在購買者信息上的借鑒,幫助他們降低不確定性風(fēng)險;另一方面評論中含有大量購買的情感體驗和表達(dá)信息,對商品有強(qiáng)大的推薦作用,大量比較集中的正面或者負(fù)面評論會引起潛在購買者的從眾行為,影響他們購買或者不購買的最終決定。遵從這些意見購買產(chǎn)品(Park DH,et al.2007;Duan W J,et al.2008)。關(guān)于評論功能的衡量焦點主要集中在評論信息質(zhì)量(評論有用性),評論可信度和消費者態(tài)度形成與改變以及具體的銷量數(shù)據(jù)等。
Mudambi和Schuff(2010)從信息經(jīng)濟(jì)學(xué)中信息的診斷性角度定義了評論信息質(zhì)量。早期的評論信息質(zhì)量的評價并不局限于文本評論,但隨著研究者對評論內(nèi)容特征的關(guān)注,評論質(zhì)量越來越多用來反映文本評論內(nèi)容對瀏覽者的信息參考價值。正如上文中提到對于文本評論而言評論質(zhì)量包含真實性、可靠性、相關(guān)性、有用性四個方面。借鑒技術(shù)接受模型TAM中人們接收新技術(shù)會受到對新技術(shù)感知有用性的影響這一思路,評論質(zhì)量中關(guān)于評論有用性的評價指標(biāo)更加受到重視,并成為判斷評價信息功能的主要研究變量。早期的評論有用性研究將評論星級及評論長度作為評論有用性的衡量指標(biāo),其好處是指標(biāo)簡單,易量化。后期產(chǎn)品評論研究的重點轉(zhuǎn)向文本內(nèi)容認(rèn)知,對于文本內(nèi)容有用性的劃分采用了評論長度和可讀性兩個維度來衡量,有的研究中也將評論有用性定義為評論感知價值(Schindler&Bickart,2012)。由于當(dāng)前對文本內(nèi)容分析的方法是基于文本語義屬性的挖掘方法,對于在線產(chǎn)品評論相關(guān)特征的數(shù)據(jù)采集和統(tǒng)計大都是通過網(wǎng)絡(luò)信息搜索軟件實現(xiàn),因此目前評論有用性的衡量通常是用網(wǎng)站中評論有用性的排名數(shù)據(jù)統(tǒng)計來替代。但是并不是所有購物網(wǎng)站的評論系統(tǒng)中都會設(shè)置評論是否有用這一瀏覽者打分機(jī)制,并且受到文化的影響,即便網(wǎng)站設(shè)置了這一功能,國內(nèi)的消費者也沒有去給評論打分的習(xí)慣。因此這種衡量方式的有效性也一直受到爭議。
研究中與評論有用性常常共同出現(xiàn)的一個衡量評論的功能的變量就是評論的可信度。由于在交流有關(guān)研究領(lǐng)域發(fā)現(xiàn)可信度與勸說性之間的強(qiáng)相關(guān),可信度被用來作為評論信息是否對潛在消費者態(tài)度以及行為有強(qiáng)的勸說性的衡量指標(biāo)。從信息傳播的角度來說,信息源、消息和接受者是信息評價的3個主要的信息元素。因此相比于有用性,在線評論的可信度更強(qiáng)調(diào)從評論強(qiáng)度、信息源的可信度、評論間的一致性、評論累積排名等維度來度量,從已有的研究文獻(xiàn)來看,其中又主要側(cè)重于對信息源可信度的判斷,也就是對評論者的可信度的判斷(Cheung等,2009)。Lis(2013)將信息源的專業(yè)度和值得信任程度作為信息源可信度的衡量標(biāo)準(zhǔn)和評論排名一起作為評論可信度的決定因素,其中值得信任程度中包含評論內(nèi)容的質(zhì)量、與其他評論的一致性以及其他消費者對評論的認(rèn)可這幾個方面。因此,評論可信度與評論有用性是有交叉又各有側(cè)重的兩個研究變量。研究者會根據(jù)研究方法以及目標(biāo)選擇其中合適的變量作為對評論功能的衡量。不過由于目前側(cè)重于文本評論數(shù)據(jù)挖掘的研究方法所限,還是以有用性的排名統(tǒng)計作為評論價值功能的衡量更多見。
其他還有一些研究變量,比如將瀏覽者看完評論信息以后持有的態(tài)度作為衡量評論功能實現(xiàn)的衡量指標(biāo),比如對產(chǎn)品的購買意愿、感知的產(chǎn)品質(zhì)量、滿意度、忠誠度等(Reyes A & Rosso P,2012;Chang & Yen,2013),以及直接用企業(yè)經(jīng)營數(shù)據(jù),比如產(chǎn)品的銷量、企業(yè)收入、公司股價來作為評論的作用,不過后兩者多用于第三方評論或者公眾輿論有關(guān)的評論效果研究中,與在線產(chǎn)品評論有關(guān)的經(jīng)營數(shù)據(jù)最主要的還是被評論產(chǎn)品的銷量數(shù)據(jù)(Sonnier等,2011)。
三、在線產(chǎn)品評論分析技術(shù)
在線評論信息挖掘研究集中在信息系統(tǒng)、電子商務(wù)管理科學(xué)等領(lǐng)域。近幾年,在線評論信息挖掘日益成為在線產(chǎn)品評論研究的熱點,由于文本挖掘技術(shù)的研究進(jìn)展還處于不太成熟的階段,各領(lǐng)域中計算機(jī)科學(xué)和信息科學(xué)領(lǐng)域?qū)ξ谋就诰蚣夹g(shù)的研究居多。文本挖掘技術(shù)和自然語言處理等技術(shù)現(xiàn)在已經(jīng)能對半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行挖掘,在線評論的表現(xiàn)形式為數(shù)量眾多且非結(jié)構(gòu)化的文本,但是如何提高對在線評論的挖掘精確度也一直是技術(shù)研究領(lǐng)域關(guān)注的焦點。目前,在挖掘技術(shù)上的研究集中于信息抽取、情感分析和文本分類這三類主流研究方法。信息抽取是情感分析的基礎(chǔ),同時信息抽取和情感分析又是文本分類的基礎(chǔ)。信息抽取主要是通過對評論中描述產(chǎn)品性能或功能的名詞或短語進(jìn)行關(guān)鍵詞的抽取,情感分析是通過語義分析對評論中需要聯(lián)系上下文才能理解評論者表達(dá)效價進(jìn)行情感傾向的判斷,挖掘出的信息結(jié)果包括抽取的主題特征 (價格、質(zhì)量、外觀等)、情感傾向 (正面、中立、負(fù)面)、文本類別(主題和情感類別)。以情感分析為例,當(dāng)前所廣泛采用的文本語義屬性分析的挖掘方法是不夠成熟的,無論是詞語極性推測法、點互信息法、抽取主觀表達(dá)式法還是構(gòu)造情感詞典法,都是基于文本內(nèi)容字面信息的加工和處理,而文本內(nèi)容所包含的潛在信息卻是無法挖掘的,如說話人的語言風(fēng)格所反映出的評論人所屬的用戶群體或?qū)I(yè)程度等,因此僅從字面來進(jìn)行情感傾向的判斷存在一定的不精確性。
但是也有越來越多的學(xué)者在信息抽取和文本挖掘的基礎(chǔ)上從實證研究角度對在線評論的有用性、對消費者態(tài)度以及商家銷量的影響等進(jìn)行研究。有學(xué)者利用主題特征信息抽取技術(shù)從在線評論中抽取產(chǎn)品特征和主題信息,并以此研究發(fā)現(xiàn)評論中消費者提及最多的產(chǎn)品主題特征并不一定對他們的滿意度影響最大(You WJ,et al.2012)。Cao等(2011)運用潛在語義文本分析文本挖掘法(LSA)應(yīng)用logit回歸模型研究了評論星級、評論時間、評論字?jǐn)?shù)、評論中包含的句子數(shù)、語義特征(評論中的情感傾向)對評論有用性投票數(shù)的影響,經(jīng)過發(fā)現(xiàn)評論的語義特征對評論有用性影響最大。Min和Park(2012)從評論者經(jīng)驗這一角度出發(fā)應(yīng)用文本挖掘和實證分析方法研究如何根據(jù)評論者經(jīng)驗識別出高質(zhì)量評論。還有研究者通過對手機(jī)評論進(jìn)行情感分析,識別手機(jī)是否存在過度的功能設(shè)計并以此獲得更多的顧客滿意度來提高銷售績效(Liu P,et al.2010)。未來隨著文本挖掘技術(shù)的進(jìn)步,分析精確性不斷提高,相信這類結(jié)合實證方法證明在線產(chǎn)品評論商業(yè)應(yīng)用效果的研究也會越來越多并得出更有價值的結(jié)論。
四、結(jié)語
綜上所述,在線產(chǎn)品評論現(xiàn)階段為止的研究有以下三個方面的特點:第一,研究中關(guān)于在線產(chǎn)品評論的一般特征,內(nèi)容特征,評論者特征等等這些特征形式早期研究較多。雖然在研究發(fā)展過程中會出現(xiàn)不同程度的交叉重疊和所屬類別上的變化,但隨著購物網(wǎng)站評論體系設(shè)置的成熟化,這些特征形式基本穩(wěn)定下來,并且主要的特征屬性都集中在評論文本的特征描述中,這也說明了文本評論的重要作用。因此,現(xiàn)階段的研究主要集中于評論文本內(nèi)容的深度挖掘帶來的新的特征屬性;第二,文本挖掘技術(shù)和自然語言處理等技術(shù)現(xiàn)在已經(jīng)能對半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行挖掘,而在線評論的表現(xiàn)形式為數(shù)量眾多且非結(jié)構(gòu)化的文本,如何提高對在線產(chǎn)品評論的挖掘精確度也一直是技術(shù)研究領(lǐng)域關(guān)注的焦點。正因為文本挖掘技術(shù)的研究進(jìn)展還處于不太成熟的階段,現(xiàn)階段的挖掘主題比較少,情感分析精度也不夠高,因此其他領(lǐng)域即便將現(xiàn)有挖掘技術(shù)應(yīng)用于實證研究中,也難以得到穩(wěn)定的和有價值的結(jié)論。相信未來隨著文本挖掘技術(shù)的進(jìn)步,這類結(jié)合實證方法證明在線產(chǎn)品評論商業(yè)應(yīng)用效果的研究也會越來越多,并得出更有價值的結(jié)論;第三,在商業(yè)應(yīng)用研究領(lǐng)域,如何選取合適的研究變量和指標(biāo),比如消費者行為變量及觀測指標(biāo)來與文本挖掘技術(shù)得到的計量數(shù)據(jù)相結(jié)合,從而實現(xiàn)更準(zhǔn)確有價值的實證研究,也是在研究方法上需要繼續(xù)探索和解決的問題,比如目前用網(wǎng)站評論有用性的排名數(shù)據(jù)統(tǒng)計來替代評論有用性度量的方式過于單一且準(zhǔn)確性受到質(zhì)疑。
另外,還有兩個在線產(chǎn)品評論研究中比較集中的主題未來也可能會繼續(xù)發(fā)展:一個是購買者參與評論的動機(jī)及其在社交網(wǎng)絡(luò)中的作用;另一個是對購物網(wǎng)站上越來越多出現(xiàn)的虛假評論現(xiàn)象的研究,目前的研究集中在虛假評論的識別以及其影響方面,未來隨著消費者的經(jīng)驗增加以及網(wǎng)站成熟運作,這方面的研究還會有新的熱點出現(xiàn)。
主要參考文獻(xiàn):
[1]李恒.在線評論特征的維度綜述[J].企業(yè)技術(shù)開發(fā),2015.1.
[2]李宏,喻葵,夏景波.負(fù)面在線評論對消費者網(wǎng)絡(luò)網(wǎng)絡(luò)購買決策的影響,一個實驗研究[J].情報雜志,2011.5.
[3]龔思蘭,丁晟春,周夏偉,巢乃鵬.在線商品評論信息可信度影響因素實證研究[J].情報雜志,2013.32.11.
[4]宋曉晴,孫習(xí)祥.消費者在線評論采納研究綜述[J].現(xiàn)代情報,2015.1.
[5]羅彪,叢日飛.留、傳、搜、用:消費者行為視角下的電子口碑研究綜述與展望[J].外國經(jīng)濟(jì)與管理,2015.37.8.
[6]You WJ,Xia M,Liu,L,et al.Customer knowledge discovery form online reviews[J].Electron Markets,2012.7.7.
(廣東外語藝術(shù)職業(yè)學(xué)院,廣東 廣州 510640)
【摘 要】高職院校的網(wǎng)絡(luò)安全類課程教學(xué)中,需要學(xué)生既具有扎實的基礎(chǔ)理論知識,又要求在教學(xué)中給學(xué)生提供一個模擬或者真實的操作環(huán)境幫助學(xué)生全面的掌握網(wǎng)絡(luò)安全知識。如何防范跨站腳本攻擊是當(dāng)前網(wǎng)絡(luò)安全工作中的一個重要課題,本文結(jié)合了日常教學(xué)的經(jīng)驗,在詳細(xì)分析跨站腳本攻擊原理的基礎(chǔ)上,在php+mysql環(huán)境上搭建出一個真實的實驗環(huán)境,幫助學(xué)習(xí)者深刻理解跨站腳本攻擊的相關(guān)知識,并學(xué)會如何進(jìn)行有效防范。
關(guān)鍵詞 跨站腳本攻擊; 網(wǎng)絡(luò)安全; 實驗平臺
【Abstract】The students in vocational college are required to have enough knowledge about the principle of network security, and an experimental platform is also needed to help students lean network security. Cross Site Script(XSS) attack and defense is an important subject in network security field. An experimental platform is developed to help learner understand about XSS attack and defense, and the principle of XSS attack and defense is also analyzed. The platform is developed using php+mysql tools. This article is based on the author’s regular teaching experience.
【Key words】Cross site script attack; Network security; Experimental platform
跨站腳本攻擊在各種網(wǎng)絡(luò)安全漏洞中,一直被OWASP(Open Web Application Security Project) 組織評為十大安全漏洞中的第二威脅漏洞。2011年,國內(nèi)最熱門的信息平臺“新浪微博”爆發(fā)跨站腳本攻擊,僅持續(xù)16分鐘,感染的用戶就達(dá)33000個,可見其危害之大。
高職院校的《網(wǎng)絡(luò)安全與防范》課程也把跨站腳本攻擊作為一個重點的教學(xué)內(nèi)容。為了讓學(xué)生充分掌握跨站腳本攻擊的防范方法,就必須透徹的了解跨站腳本攻擊的原理和具體的實施過程。
我們開展了一項課題,旨在搭建一個網(wǎng)絡(luò)攻防的應(yīng)用平臺,幫助學(xué)習(xí)者更深刻的理解各種網(wǎng)絡(luò)攻防的原理和了解其實施的步驟,以采取更高效的防范措施,來杜絕網(wǎng)絡(luò)攻擊的產(chǎn)生。跨站腳本攻擊就是其中的一項任務(wù)。
本文中,我們會對跨站腳本攻擊進(jìn)行詳細(xì)的分析,并結(jié)合搭建的網(wǎng)絡(luò)平臺重建攻擊過程,并提出防范方法。
跨站腳本攻擊是由于網(wǎng)站的后臺系統(tǒng)對用戶的輸入過濾不嚴(yán)而產(chǎn)生的。攻擊者利用這一點把惡意代碼加入到網(wǎng)站的后臺系統(tǒng)中(通常是網(wǎng)頁之中),當(dāng)用戶瀏覽這些網(wǎng)頁時,那些隱含在正常網(wǎng)頁中的惡意代碼就會在用戶的機(jī)器中得以執(zhí)行,從而達(dá)到各種攻擊用戶電腦的目的。
為了理解跨站腳本攻擊,有必要先了解用戶訪問一個沒有惡意代碼的簡單網(wǎng)頁的過程。訪問如圖 1所示的一個網(wǎng)頁,用wireshark工具進(jìn)行網(wǎng)絡(luò)數(shù)據(jù)的捕獲。
總共捕獲到兩個數(shù)據(jù)包,一個是瀏覽器發(fā)送給網(wǎng)站的請求數(shù)據(jù)包,其內(nèi)容如圖 2:
在請求數(shù)據(jù)包中,比較重要的一個字段是cookie字段,其具體內(nèi)容記錄了用戶平時登錄各種網(wǎng)站的賬號和密碼信息。跨站腳本攻擊往往會通過這個字段獲取到用戶的賬號等重要信息。
網(wǎng)站回送給瀏覽器的響應(yīng)數(shù)據(jù)包如圖 3:
在響應(yīng)數(shù)據(jù)包中,除了一些頭信息外,還附帶上了網(wǎng)頁的內(nèi)容??梢?,一個基本的網(wǎng)頁訪問過程就是由一個請求數(shù)據(jù)包和響應(yīng)數(shù)據(jù)包組成的。
接下來,在我們搭建的實驗平臺上,對一個網(wǎng)站進(jìn)行跨站腳本攻擊,以實現(xiàn)一個不斷彈出的窗口,迫使正常的網(wǎng)頁瀏覽無法繼續(xù)下去。在一個存在有漏洞的商品評價網(wǎng)頁中,通過對商品添加評價進(jìn)行攻擊。如圖 4:
在評論內(nèi)容里面,寫下如下的代碼:
<script>while(true) alert(/You have been XSS attacked!/) </script>,
發(fā)表評論后,當(dāng)其他用戶登錄網(wǎng)站,通過點擊“查看該商品評論”查看評論時,就會出現(xiàn)如圖 5所示的情況:
并且無論點擊多少次“確定”按鈕,都無法關(guān)閉此彈出窗口,表明此用戶已經(jīng)受到了跨站腳本攻擊。打開由網(wǎng)站傳送回來的網(wǎng)頁源代碼,可以發(fā)現(xiàn)這樣一句代碼:“<script>while(true) alert(/You have been XSS attacked!/) </script>”,這段代碼已經(jīng)入到網(wǎng)頁中,當(dāng)瀏覽器解析到這一段代碼時,因為“<script>”標(biāo)簽的原因,標(biāo)簽對里面的內(nèi)容會被解釋執(zhí)行,而不是作為對商品的評論原封不動的顯示在頁面上。通過查看網(wǎng)站后臺數(shù)據(jù)庫,發(fā)現(xiàn)如圖 6所示的語句已經(jīng)被寫入了數(shù)據(jù)庫:
當(dāng)其他用戶查看此商品的評論時,此條記錄被讀出,并插入到網(wǎng)頁中,從而形成了跨站腳本攻擊。
另外一個跨站腳本攻擊的案例是盜取用戶的登錄賬號和密碼。
用戶“qy1”在如圖 7所示的網(wǎng)頁中進(jìn)行登錄后:
在用戶的機(jī)器上會保留一個cookie,里面記錄了用戶登錄時輸入的賬號和密碼。可以通過在用戶的瀏覽器的地址欄輸入語句“javascript:alert(document.cookie)”來顯示出賬號和密碼,如圖 8所示:
可見用戶的賬號和密碼都保存在了用戶的計算機(jī)中。通過跨站腳本攻擊可以在攻擊者的機(jī)器上獲得用戶的賬號和密碼。
攻擊者a在某一個商品的評論中發(fā)表如圖 9所示的內(nèi)容:
其中,評論內(nèi)容中輸入的是: “<script>var ck=document.cookie;var url=\’kaikaixinxin.net/qlunwen1216/jieshoucookie.php?zhanghao=\’+ck;var daima=\´<iframe width=0 height=0 src=\"\’+url+\’\"></iframe>\’;document.write(daima);</script>”。
當(dāng)用戶“qy1”登錄網(wǎng)站查看這一個評論時,其賬號和密碼就會發(fā)送到攻擊者a所指定的機(jī)器上,并存儲在“cookie.txt”文件中,其中的內(nèi)容如圖 10:
由此攻擊者就利用跨站腳本攻擊獲取到了被攻擊者的賬號和密碼等重要信息。
分析此次跨站腳本攻擊,攻擊者在商品評論里面并沒有寫入評論性的語句,而是寫入了一段javascript代碼,這段代碼并沒有經(jīng)過過濾就被寫到了網(wǎng)站的后臺數(shù)據(jù)庫中,如圖 11:
當(dāng)受攻擊者瀏覽這個商品的評論時,這段代碼沒有經(jīng)過任何過濾就被傳送給了瀏覽器,而瀏覽器當(dāng)解析到<script></script>所包括的語句時,會認(rèn)為這是一段javascript語句,會執(zhí)行語句中的內(nèi)容。而這段代碼的作用就是讀取被攻擊者機(jī)器上所存儲的cookie信息,并且把此信息發(fā)送給攻擊者所指定的網(wǎng)站的指定接收頁面。我們再來看,這個接收頁面的內(nèi)容如下:
<?php
$cookie=$_GET[´zhanghao´];
$cookierec=fopen("cookie.txt","a");
fwrite($cookierec,$cookie."\n");
fclose($cookierec);
?>
其作用就是接收被攻擊者發(fā)送過來的賬號信息,并把它存儲在文件“cookie.txt”里面。
被攻擊者的機(jī)器在不知不覺中向攻擊者指定的機(jī)器發(fā)送了數(shù)據(jù)包,其內(nèi)容如圖 12:
數(shù)據(jù)包中的GET語句包括了用戶的賬號等重要信息。
到此為止,一個詳細(xì)的跨站腳本攻擊過程就已經(jīng)詳細(xì)的展現(xiàn)出來。如何防止此種跨站腳本攻擊呢。通過分析以上攻擊過程,發(fā)現(xiàn)實現(xiàn)此類攻擊,要具備以下條件:
(1)網(wǎng)站存在供用戶輸入數(shù)據(jù)的頁面,類似留言板,商品評論,搜索框等。
(2)用戶瀏覽了被攻擊者惡意修改過的網(wǎng)頁。
(3)用戶的機(jī)器允許執(zhí)行這些惡意代碼。
(4)網(wǎng)站沒有對用戶的輸入內(nèi)容進(jìn)行有效的過濾,即過濾掉那些攻擊性的代碼,并且在輸出用戶的評論或者搜索內(nèi)容時也沒有進(jìn)行過濾。
對于以上的第一點,由于現(xiàn)在絕大多數(shù)網(wǎng)頁都會有和用戶交互的需要,所以給用戶輸入信息的功能,不能取消。
對于第二點,用戶可以提高警惕,對于一些非法網(wǎng)站,盡量不要去訪問。
對于第三點,用戶可以禁止瀏覽器的活動腳本的執(zhí)行,可以如圖 13設(shè)置:
對于第四點,要求網(wǎng)站開發(fā)人員對用戶的輸入信息進(jìn)行過濾,過濾掉惡意的代碼?;蛘咴谳敵鰰r進(jìn)行過濾,過濾掉惡意代碼。
例如,可以建立一個如下的函數(shù):
function unhtml($content){
$content=str_replace("&","&",$content);
$content=str_replace("<","<",$content);
$content=str_replace(">",">",$content);
$content=str_replace(" ," ",$content);
$content=str_replace(chr(13),"<br>",$content);
$content=str_replace("\\","\\\\",$content);
$content=str_replace(chr(34),""",$content);
return $content;
}
利用此函數(shù)把”<” ,”>”, “&”等字符轉(zhuǎn)化為<, >, &等字符。這樣瀏覽器在輸出時,遇到<, >, &等字符時,就會在網(wǎng)頁上顯示”<” ,”>”, “&”等字符,而不會把這些字符對中所包含的內(nèi)容當(dāng)作可運行的代碼進(jìn)行執(zhí)行了。
在實驗平臺的網(wǎng)站后臺頁面代碼中加入unhtml函數(shù),例如在顯示商品評論的網(wǎng)頁showpl.php中加入如下代碼
<?php echo unhtml($info1[content]);?>
成功對商品評論中的輸出內(nèi)容進(jìn)行了過濾,避免了跨站腳本攻擊,用戶看到的輸出結(jié)果如圖 14:
結(jié)論:
為了讓學(xué)習(xí)者理解如何防范跨站腳本攻擊,搭建了一個基于php+mysql的實驗平臺,在對跨站腳本攻擊進(jìn)行了原理上的詳訴后,對攻擊中的每個步驟進(jìn)行了模擬,每一步的模擬都是一個真實攻擊的再現(xiàn)。最后,講解如何防范跨站腳本攻擊,對于后臺防范代碼做了詳解,演示了防范后的效果。我們搭建的實驗環(huán)境讓學(xué)習(xí)者不再局限于對跨站腳本攻擊原理上的了解,而是有了一個實操的環(huán)境,極大的提高了學(xué)習(xí)者的學(xué)習(xí)興趣,增加了學(xué)習(xí)效率?;谖覀兇罱ǖ膶嶒炂脚_,將來還可以開展更多的實驗。
參考文獻(xiàn)
[1]趙彬.黑客攻防Web安全實戰(zhàn)詳解[M].北京:中國鐵道出版社,2014.
[2]肖遙.大中型為了入侵要案直擊與防御[M].北京:電子工業(yè)出版社,2011.
我的選品思路:市場容量不是很大真的不怕,最重要是找對趨勢和有發(fā)展空間,因為現(xiàn)在亞馬遜的產(chǎn)品暴利期一般也只有約3-9個月。都是斗快抓機(jī)會做中前期。說實話我做過的爆款都沒用軟件去細(xì)看每一項數(shù)據(jù)如關(guān)鍵詞搜索量,預(yù)估銷量等,真不宜花太多時間做太多技術(shù)性的分析,否則是很容易錯過機(jī)會。
我看關(guān)鍵數(shù)據(jù):看產(chǎn)品評論(Review)有否快速增長就可以確定產(chǎn)品是否有跡象在爆發(fā),因為Review是亞馬遜出單核心,而且Review增長快代表最近有一定銷量支持,相反不用太執(zhí)著銷售排名(Best Sellers Rank),一來變化大,二來排名高的都被數(shù)以萬計賣家關(guān)注,想找下一個爆款肯定是看一些現(xiàn)在被低估或不是太顯眼的,可以告訴你大類目銷售排名就算去到1萬多的實際都有機(jī)會火起來,大類目排名5百至1萬的都是理想范圍。當(dāng)找到目標(biāo)產(chǎn)品后再確認(rèn)一下對手?jǐn)?shù)量及Review都沒太多后,就用最短時間把產(chǎn)品發(fā)FBA上架再做測評
review可能有不少是假的?這是無可否認(rèn),但相對而言,操作假銷量的成本是更低,一些商家可以天天一個listing刷50個銷量,把銷售排名撐到很高,這樣如果我們太聚焦在銷售排名就可能更容易出現(xiàn)誤判,是非常影響大家分析市場的。所以相對之下我會比較看重review變化。而且虛假review實際上亞馬遜都一直有刪,力度更愈來愈大,相信review參考性只會愈來愈高。
過往月銷數(shù)萬美金listing的共通點和運營大方向:自建Listing,以單一Listing銷量最大化做方針 (不鋪貨,有利資金,資源控制),產(chǎn)品單價約$20-$60美金發(fā)FBA(從頭到尾都用FBA)-不依賴站內(nèi)廣告出單(過往廣告產(chǎn)生的訂單不超過總訂單5-10%)-沒有做站外引流(亂引流有可能大幅降低轉(zhuǎn)化率,繼而令搜索排名大幅下降,對listing傷害很大)-不用常常修改listing或關(guān)鍵詞,核心關(guān)鍵詞一般就3-5個,參考亞馬遜搜索框提示,競品標(biāo)題或google adwords關(guān)鍵詞工具已經(jīng)足夠-Listing和說明書別照搬廠家的標(biāo)準(zhǔn)文本,最好找專業(yè)的編寫或讓老外寫,一來影響轉(zhuǎn)化率,二來老外看到抓頭的時候別怪吃一堆負(fù)評和退貨-多改良包裝,盡量弄小一點丶穩(wěn)固一點和劃算一點,要盡量降低運費成本和壞貨率,不信買個Anker移動電源看一下他們包裝怎麼弄就懂-多調(diào)控物流時間,如空運要長期達(dá)成約3-4天內(nèi)到美國亞馬遜倉庫-多調(diào)控產(chǎn)品開發(fā)至上架所需的時間,包括設(shè)計丶生產(chǎn)包裝,設(shè)計Listing,訂貨,打包產(chǎn)品,找測評等每一環(huán)節(jié)都要探討可改善加快之方法-有空多準(zhǔn)備替代方案,包括備用的物流公司,包裝廠,產(chǎn)品廠家。因為只要當(dāng)中一個環(huán)節(jié)出問題令你延遲1-2星期發(fā)貨,即時已損失一些錢,更重要是如果開賣後FBA斷貨1-2星期,Listing是有機(jī)會被亞馬遜嚴(yán)重降權(quán),流量和單量都會持續(xù)明顯下降,有時候Listing更可以直接報廢,相信有不少大賣家也嘗過。所以能調(diào)控好以上說的,每次上新Listing就能提前開賣幾個星期,配合一開始選好在爆發(fā)中的產(chǎn)品,就能占盡先機(jī)。當(dāng)然還有一些細(xì)節(jié)如怎麼建一個具優(yōu)勢的Listing或可運用什麼有效的銷售策略?亞馬遜平臺內(nèi)有什麼重要的規(guī)則/技巧等等,這些都掌握好銷量才能最大化。這些下一次再跟大家分享。
關(guān)鍵詞:物品交易;三層結(jié)構(gòu);.NET
中圖分類號:TP311文獻(xiàn)標(biāo)識碼:A文章編號:1009-3044(2011)27-6583-01
近年來,隨著高校擴(kuò)招,我院在校生規(guī)模的也在不斷擴(kuò)大。由此,間接催生了學(xué)生對用品的需求。據(jù)統(tǒng)計,我院學(xué)生大都家庭狀況不太富裕,他們的消費水平普遍較低,因此二手學(xué)習(xí)生活用品對其而言,則相對顯然經(jīng)濟(jì)實惠。所以學(xué)院社團(tuán)也會不定期地組織跳蚤市場,但這遠(yuǎn)遠(yuǎn)不能滿足學(xué)生需求。在信息化的時代,建立校園物品交易平臺,必將成為一種新型的學(xué)生交易方式。給學(xué)生帶來無窮的方便。在這個平臺,所有學(xué)生都可以注冊登錄在上面購買自己需要的物品。網(wǎng)站將以物品列表的形式的向所有訪客展示這些信息。
1 系統(tǒng)的體系結(jié)構(gòu)
本系統(tǒng)根據(jù)軟件體系的結(jié)構(gòu),結(jié)合本系統(tǒng)的設(shè)計特點,采用三層結(jié)構(gòu)設(shè)計作為系統(tǒng)框架,系統(tǒng)的邏輯體系設(shè)計如圖1所示。
通常意義上的三層架構(gòu)就是將整個業(yè)務(wù)應(yīng)用劃分為:表示層(UI)、業(yè)務(wù)邏輯層(BLL)、數(shù)據(jù)訪問層(DAL)。
1) 表示層(UI):用于顯示數(shù)據(jù)和接受用戶輸入的數(shù)據(jù),為用戶提供一種交互式操作界面。、
2) 業(yè)務(wù)邏輯層(BLL):只要負(fù)責(zé)數(shù)據(jù)的傳遞和處理。
3) 數(shù)據(jù)訪問層(DAL):主要實現(xiàn)對數(shù)據(jù)的保存和讀取操作。
2 系統(tǒng)功能模塊設(shè)計
本系統(tǒng)采用 技術(shù),基于Microsoft SQL Server 2005 數(shù)據(jù)庫系統(tǒng)的數(shù)據(jù)管理使該系統(tǒng)有更高效的性能。系統(tǒng)的基本功能如圖2所示。
系統(tǒng)有4種用戶類型,各種用戶所涉及到得功能有所不同:
1) 游客的主要功能有:搜索商品、按類別查看商品、查看商品信息、查看商品評論、查看熱門商品、查看所有店鋪、查看店鋪中商品、查看校園新聞、看到“關(guān)于我們”中的信息;
2) 普通用戶的主要功能有:用戶注冊、用戶登錄、商品評價、商品留言、查看店主信息、給管理員留言、修改用戶注冊信息;
3) 開店用戶的主要功能有:免費開店、快速搜索自己的店鋪、修改店鋪信息、上傳商品、店鋪過期商品處理、商品留言回復(fù)、管理店鋪商品、延期過期商品;
4) 管理員的主要功能有:用戶管理、店鋪管理、商品管理、評論管理、新聞管理、給管理員的一封信、物品回收站、廣告管理;
3 系統(tǒng)功能的實現(xiàn)
數(shù)據(jù)庫設(shè)計主要涉及14張數(shù)據(jù)表,分別為管理員表、評論表、商品類別表、留言表、新聞表、商品過期時間表、回收站表、商品表、店鋪表、學(xué)生信息表、給管理員一封信表、用戶信息表、用戶狀態(tài)表、用戶類型表。要求每天下班前自動備份數(shù)據(jù)庫到另外一個硬盤上以提高數(shù)據(jù)的安全性。對數(shù)據(jù)庫讀寫、刪除操作最直接的實現(xiàn)方法是客戶端程序通過數(shù)據(jù)庫接口程序直接對數(shù)據(jù)庫進(jìn)行操作。
用編寫的動態(tài)Web網(wǎng)頁時,如果考慮不夠周全,安全意識不強(qiáng),會造成程序不夠穩(wěn)健,再加上數(shù)據(jù)庫本身存在的安全漏洞,用戶有意或無意的交互,就可能會成為網(wǎng)站的攻擊事件。為了防止這些情況的發(fā)生,本系統(tǒng)采用了身份驗證與授權(quán)、使用Parameters參數(shù)防止SQL攻擊以及MD5加密等安全技術(shù)。
4 結(jié)束語
很多院校提倡綠色教育,首先要體現(xiàn)在校園文化上,通過學(xué)生物品交易平臺的有效實施,將會大量減少墻壁污染和廣告垃圾,同時促使了學(xué)生物品的循環(huán)使用,減少不必要的浪費。
在完成系統(tǒng)過程中本熱收獲了很多,同時也認(rèn)識到自己的不足,尤其是自己開發(fā)的物品交易平臺有很多是需要完善的地方。平臺要繼續(xù)增加好友功能,用戶可在線聊天交友、查詢資料等。
參考文獻(xiàn):
[1] 金永濤.基于.NET框架的Web應(yīng)用系統(tǒng)安全問題研究[J].北華航天工業(yè)學(xué)院學(xué)報,2009(6).
[2] 張玉麗框架下工作流管理系統(tǒng)的研究與應(yīng)用[D].青島:中國海洋大學(xué),2008.
[3] 郝冠軍本質(zhì)論[M].北京:機(jī)械工業(yè)出版社,2011.
關(guān)鍵詞: 產(chǎn)品特征; 語義相似度; 聚類算法; 觀點挖掘
中圖分類號: TN911?34 文獻(xiàn)標(biāo)識碼: A 文章編號: 1004?373X(2017)14?0081?04
Abstract: Aiming at the problem of the various product feature expressions existing in user reviews, it′s necessary to cluster the product feature words in the task of fine?grained opinion mining. According to the calculation characteristics of different semantic similarities, a semantic similarity mixture calculation method based on semantic knowledge and context entropy model is proposed to calculate the extract the semantic similarity of feature words. The traditional CBC algorithm is improved. A CBC?LIKE method suitable for product feature words clustering is proposed. The experiment is conducted for the real review corpus in three domains. The performances of the proposed semantic similarity calculation method and clustering algorithm are analyzed. The experimental results show that the method is effective, its performance is better than that of other two benchmark methods, which has perfect effect.
Keywords: product feature; semantic similarity; clustering algorithm; opinion mining
產(chǎn)品評論領(lǐng)域中的細(xì)粒度意見挖掘旨在深入到產(chǎn)品特征層面,產(chǎn)品特征包含商品本身、商品的部件和屬性、以及屬性的特征等[1?2]。比如下面評論句子:I browsed the [pictures] in the computer, and found the [photos] were perfect and the [resolution] was high。其中方括號括起來的是相機(jī)這一領(lǐng)域產(chǎn)品評論的特征,而下劃線的詞語是針對該特征用戶表達(dá)的觀點。由于用戶發(fā)表評論時通常具有很大的自由度和隨意性,并且不同用戶的表達(dá)習(xí)慣也并不相同,因此,用戶評論文本呈現(xiàn)出高度的隨意性和不確定性特點。例如在數(shù)碼相機(jī)領(lǐng)域中,不同用戶可能分別采用“picture quality”和“image clarity”表示“照片”特征,而相機(jī)產(chǎn)品評論中提到的“picture”,“image”和“photo”這三個特征表示的是同一特征[3?4]。針對產(chǎn)品特征詞聚類問題,本文在完成特征抽取任務(wù)的基礎(chǔ)上,結(jié)合不同的語義相似度計算的特點,提出基于語義知識和基于上下文熵模型的語義相似度混合計算方法,計算抽取得到的特征詞的語義相似度,然后提出CBC?LIKE聚類方法完成特征詞集合的聚類任務(wù)。最后對來自于三個領(lǐng)域的真實評論語料上的仿真實驗結(jié)果表明,本文提出的方法對特征詞的聚類效果是有效的,優(yōu)于另外兩種基線方法。
1 產(chǎn)品特征詞聚類
1.1 混合特征詞語義相似度計算
本文采用基于三種語義相似度計算的混合計算方法用于特征聚類。
(1) 對產(chǎn)品特征的表達(dá)往往會共享同樣的詞[5]。比如,“LCD screen”, “LCD viewfinder”,指的都是同樣的產(chǎn)品特征“display”,這時,screen和viewfinder具有相同的含義,所以對共享詞相似度的計算公式如下:
(2) 基于WordNet[6]的語義相似度量方法,常用Jiang & Conrath算法[7],其計算方法如下:
式中:LCS表示和之間的最小公共包含(Least Common Subsumer);IC表示信息量;是一個常量,表示W(wǎng)ordNet的名詞分類中概念總數(shù)。比如,本文實驗中計算的產(chǎn)品特征“image”和“photo”語義相似度為0.744,而“image”和“battery”計算結(jié)果為0.221。
(3) 基于詞典的方法的局限在于詞典容量有限,語義覆蓋程度不足[8]。所以本文進(jìn)一步引入基于上下文熵的方法計算詞的相似度,計算方法如下:
式中:,分別表示分布上下文中出現(xiàn)的特征詞;,其中,和表示當(dāng)前詞的左上下文向量和右上下文向量[9],上下文向量中的每個維度用TF?IDF作為向量值。,之間的距離可以通過它們的左右上下文分布的KL?divergence之和計算得到[10]。因為兩個特征詞分別都有其對應(yīng)的左邊上下文向量和右上下文向量,所以將兩個相加計算得到,如下:
式中:和分別表示第維的詞出現(xiàn)在特征詞和的左(右)上下文向量中的概率權(quán)值;表示向量的維度。
最后,本文對基于上述三個語義相似度度量方法相結(jié)合,得到最終的相似度計算公式:
式中,和分別為語義相似度計算方法的權(quán)重,本文根據(jù)多次重復(fù)實驗結(jié)果取值分別為0.7和0.4,實驗中也對不同的語義相似度計算方法對聚類結(jié)果產(chǎn)生的影響進(jìn)行了分析。
1.2 基于CBC算法的產(chǎn)品特征聚類
CBC算法[11]由Pantel等人提出,其基本思想是首先根據(jù)待聚類數(shù)據(jù)集中的數(shù)據(jù)緊湊度形成若干簇,然后采用遞歸的方法將高質(zhì)量的候選聚類簇形成真正的中心,刪除與其沖突的候選中心,待所有聚類中心確定后,計算殘余元素與聚類中心的相似度,確定其歸屬。與K?means算法只用一個元素表示聚類的思想不同之處在于,該算法通過計算簇中元素的平均距離確定聚類的質(zhì)心,從而可以避免因局部最優(yōu)解而導(dǎo)致的較大誤差,并且已被證明在根據(jù)詞的語義相似度聚類中是有效的[11]。本文對傳統(tǒng)CBC算法進(jìn)行改進(jìn),提出CBC?LIKE算法用于特征詞的聚類任務(wù)。與原始CBC算法一樣該算法也分為三個步驟,不同的是,原始算法中需要兩個閾值進(jìn)行判斷,而CBC?LIKE算法中只需要一個閾值即可,本文根據(jù)經(jīng)驗設(shè)置其值為0.35。另一方面改進(jìn)是原始CBC算法的聚類簇數(shù)是未知的,所以其總是盡可能構(gòu)建聚類簇,但在產(chǎn)品特征聚類任務(wù)中,事先可以根據(jù)產(chǎn)品領(lǐng)域人工設(shè)定聚類簇數(shù)[5],比如“Battery Cluster”,“Photography Cluster”等,從而提高聚類效果。算法如下:
CBC?LIKE算法描述:
輸入: 產(chǎn)品特征詞集合S
聚類簇個數(shù)p
(Committee)種子成員個數(shù)q
輸出: 特征詞聚類結(jié)果C
步驟1:for each feature in S
計算語義相似度:ss(,),,屬于S且將ss(,)按降序存入集合
end for
步驟2:for each feature in S
選擇中前q個特征構(gòu)成的committee:
計算 的平均相似度:
end for
將按照降序存入集合
定義C為存儲聚類中心集合的一個列表,初始化為空
for each in
if 相似度s(C,)
if 為空 then 返回 C
end if
end for
步驟3:for each residue feature
分別計算與p個committee的語義相似度
把fi并入語義相似度最近的簇
end if
2 實驗結(jié)果與分析
2.1 實驗數(shù)據(jù)集與評估指標(biāo)
為測試本文提出方法的有效性,使用從亞馬遜電商網(wǎng)站(http:///)中收集的3個領(lǐng)域的語料,分別是Digital Camera,Vacuum,Cell Phone。為得到最佳標(biāo)準(zhǔn),三個標(biāo)注者對抽取的產(chǎn)品特征進(jìn)行人工分類,從中選擇至少兩個以上相同標(biāo)注者標(biāo)注的標(biāo)簽作為最終標(biāo)注結(jié)果。表1給出了收集語料和標(biāo)注結(jié)果的基本統(tǒng)計信息。
文中,對于特征聚類效果的評價指標(biāo)使用熵值(Entropy)和純度(Purity)[6],熵值用來衡量結(jié)果與標(biāo)準(zhǔn)劃分相比的混亂程度,值越小,分類結(jié)果的混亂程度越低;純度用來衡量分類結(jié)果與標(biāo)準(zhǔn)劃分的一致性程度,值越大,分類結(jié)果的純度越高。給定產(chǎn)品特征詞集合FS和簇數(shù),對該集合的最佳分類記作,聚類算法將特征詞集合FS劃分為k個獨立子集,其熵值:
式中,表示結(jié)果類中包含標(biāo)準(zhǔn)類中元素的比例。給定一組對于每個特征詞分類子集,其純度:
式中,表示結(jié)果類中包含標(biāo)準(zhǔn)類中元素的比例。另外,為評估本文提出的基于CBC?LIKE聚類方法的效果,引入K?means和基于自動標(biāo)注的半監(jiān)督EM方法這兩種聚類策略作為基線方法進(jìn)行對比。
2.2 實驗結(jié)果及分析
為了驗證本文提出的CBC?LIKE算法中種子(committee)的個數(shù)對聚類效果的影響,實驗中設(shè)置種子個數(shù)從1~6,在三個領(lǐng)域語料上分別進(jìn)行了5輪實驗,計算其對應(yīng)的純度和熵值。實驗結(jié)果如圖1所示。隨著種子個數(shù)的增加,CBC?LIKE算法的性能首先是在增加,然后在某些點的位置上減少。這表明種子個數(shù)對產(chǎn)品特征聚類是有幫助的,但是隨著種子數(shù)量的增加,會隨之帶來一些噪聲信息。為了驗證本文提出的基于CBC?LIKE聚類方法的有效性,將其與其他兩個基線方法進(jìn)行了比較,表2給出了不同聚類算法在三種產(chǎn)品領(lǐng)域集上Entropy和Purity值的比較結(jié)果。其中,對于特征詞之間的相似度計算采用了本文提出的三種相似度計算結(jié)合的計算方法??梢钥吹剑cKM和EM方法相比,m然在某些領(lǐng)域上面CBC?LIKE方法的Entropy值和Purity值這兩個指標(biāo)不占優(yōu),但是其在三種產(chǎn)品領(lǐng)域的平均Entropy值上都取得了最小值,同時平均Purity值取得了最大值,準(zhǔn)確率上與KM算法比較,具有較為明顯優(yōu)勢,這表明,本文提出的CBC?LIKE方法在聚類性能上要優(yōu)于其他兩種聚類方法。
為了進(jìn)一步分析不同的相似度計算對于CBC?LIKE聚類算法效果的影響。下面分別給出了基于詞典的計算方法和基于共同詞的相似度計算方法(WordNet+SW),基于上下文熵模型和共同詞的計算方法(CE+SW),本文前述的基于三種方法結(jié)合的相似度計算方法(FS),實驗結(jié)果如表3所示。從實驗結(jié)果中可以看出,采用三種相似度計算相結(jié)合的方法在最后的聚類效果上要優(yōu)于另外兩種。從平均Entropy值和Purity的結(jié)果上可以看到,F(xiàn)S要優(yōu)于前兩種方法,而CE+SW又優(yōu)于WN+SW的方法,說明采用上下文熵模型對于特征詞的相似度度量方法具有較好效果,能較好地反應(yīng)特征詞在產(chǎn)品評論中的語義關(guān)系,這個和本文實驗中對于兩個調(diào)和參數(shù)α和β的實驗性選取上是相印證的。
3 結(jié) 論
針對產(chǎn)品評論觀點挖掘產(chǎn)品特征聚類進(jìn)行了研究,提出在三種不同語義相似度的混合計算方法的基礎(chǔ)上,用CBC?LIKE聚類算法完成特征詞集合的聚類。最后的仿真實驗結(jié)果表明,本文提出的三種不同語義相似度混合計算方法以及CBC?LIKE聚類算法能有效完成聚類任務(wù),純度和熵值這兩個指標(biāo)上的表現(xiàn)優(yōu)于基線方法。
參考文獻(xiàn)
[1] BALAZS J A, VEL?SQUEZ J D. Opinion mining and information fusion: a survey [J]. Information fusion, 2015, 27(C): 95?110.
[2] HU M Q, LIU B. Mining and summarizing customer reviews [C]// Proceedings of 2004 the Tenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Seattle: ACM, 2004: 168?177.
[3] YU Jianxing, ZHA Zhengjun, WANG Meng, et al. Aspect ranking: identifying important product aspects from online consumer reviews [C]// Proceedings of 2011 Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. Portland: Association for Computational Linguistics, 2011: 1496?1505.
[4] XU H, ZHANG F, WANG W. Implicit feature identification in Chinese reviews using explicit topic mining model [J]. Knowledge?based systems, 2015, 76(5): 166?175.
[5] ZHANG S, JIA W, XIA Y, et al. Product features extraction and categorization in Chinese reviews [C]// Proceedings of 2010 IEEE the 6th International Conference on Advanced Information Management and Service. [S.l.]: IEEE, 2010: 324?329.
[6] MILLER G A. WordNet: a lexical database for English [J]. Communications of the ACM, 1995, 38(11): 39?41.
[7] ZHAI Zhongwu, LIU Bing, XU Hua, et al. Clustering product features for opinion mining [C]// Proceedings of the Forth International Conference on Web Search and Web Data Mining. Hong Kong, China: IEEE, 2011: 347?354.
[8] BRYNIELSSON J, JOHANSSON F, JONSSON C, et al. Emotion classification of social media posts for estimating people′s reactions to communicated alert messages during crises [J]. Security informatics, 2014, 3(1): 1?11.
[9] XU T, PENG Q, CHENG Y. Identifying the semantic orientation of terms using S?HAL for sentiment analysis [J]. Knowledge?based systems, 2012, 35(15): 279?289.