公務(wù)員期刊網(wǎng) 論文中心 正文

大數(shù)據(jù)下服裝品牌知識挖掘淺析

前言:想要寫出一篇引人入勝的文章?我們特意為您整理了大數(shù)據(jù)下服裝品牌知識挖掘淺析范文,希望能給你帶來靈感和參考,敬請閱讀。

大數(shù)據(jù)下服裝品牌知識挖掘淺析

摘要:針對網(wǎng)絡(luò)數(shù)據(jù)價值密度低、行業(yè)信息造價昂貴的現(xiàn)狀,從服裝品牌出發(fā)構(gòu)建語料庫,基于語料庫分析法運用數(shù)據(jù)挖掘工具KHcoder進(jìn)行知識挖掘。在此過程中發(fā)現(xiàn)了服裝品牌的數(shù)據(jù)特征并獲得了與服裝品牌相關(guān)的知識集群,證明了用大數(shù)據(jù)技術(shù)挖掘服裝品牌知識的可行性。

關(guān)鍵詞:大數(shù)據(jù);服裝品牌;KHcoder;數(shù)據(jù)挖掘

大數(shù)據(jù)時代產(chǎn)生了海量的數(shù)據(jù),但是數(shù)據(jù)類型多元異構(gòu)、網(wǎng)頁發(fā)布不規(guī)范等因素導(dǎo)致數(shù)據(jù)價值密度低,信息造價昂貴。大數(shù)據(jù)分析和數(shù)據(jù)挖掘是基于統(tǒng)計分析學(xué)的從數(shù)據(jù)中獲取知識的一種研究方法,在互聯(lián)網(wǎng)、金融、醫(yī)療等多個行業(yè)都有很好的發(fā)展與應(yīng)用。語料庫分析法在國外已有三十年以上的研究歷史,目前服裝領(lǐng)域內(nèi)多使用學(xué)術(shù)文獻(xiàn)作為研究語料庫進(jìn)行行業(yè)信息發(fā)現(xiàn)和預(yù)測,缺乏對其他行業(yè)數(shù)據(jù)的探索與使用;為了提高服裝行業(yè)對開源數(shù)據(jù)的利用率,構(gòu)建行業(yè)語料庫、通過合理的數(shù)據(jù)分析工具對行業(yè)數(shù)據(jù)進(jìn)行知識挖掘,對行業(yè)知識工程的建設(shè)具有重要的實踐意義。

1服裝品牌研究語料庫構(gòu)建

1.1數(shù)據(jù)渠道選擇

為保證語料庫中服裝品牌數(shù)據(jù)的多樣性和全面性需對采集渠道進(jìn)行評估篩選,最終確定的數(shù)據(jù)源類型如下:(1)服裝專業(yè)平臺和品牌網(wǎng)站:如WGSN、POP流行趨勢平臺,中國時尚網(wǎng)、中國報告大廳等網(wǎng)站。(2)學(xué)術(shù)資源平臺:CNKI數(shù)據(jù)庫。(3)通用知識網(wǎng)站:如百度百科知識庫。

1.2研究樣本選擇

進(jìn)行品牌調(diào)研,圍繞“服裝品牌排行”檢索知名度較高、數(shù)據(jù)信息分布較多的服裝品牌。共選擇了60個服裝品牌,主要可分為以下幾種類型。(1)國際奢侈品牌。如阿瑪尼、巴寶莉等共32個。(2)國內(nèi)具有一定創(chuàng)建歷史與知名度的服裝品牌。如勁霸、七匹狼等共10個中國品牌。(3)潮牌與戶外品牌。如LARGE、SUPREME、戶外品牌始祖鳥、哥倫比亞等共18個。

1.3數(shù)據(jù)采集與整理

網(wǎng)絡(luò)爬蟲是進(jìn)行大數(shù)據(jù)收集的主要技術(shù)手段。采集過程以爬蟲(后裔采集器)采集為主,人工采集為輔。通用類數(shù)據(jù)平臺結(jié)構(gòu)簡單,先用采集器進(jìn)行數(shù)據(jù)爬取,再對結(jié)果進(jìn)行人工篩選降重,以減少數(shù)據(jù)噪音;專業(yè)類平臺,如WGSN、POP,CNKI有權(quán)限限制,平臺結(jié)構(gòu)復(fù)雜,采集過程主要依賴人工。采集過程中總結(jié)出如下數(shù)據(jù)分布特點:通用網(wǎng)絡(luò)平臺如百度百科、品牌、服裝網(wǎng),數(shù)據(jù)重復(fù)率高類型單一;學(xué)術(shù)平臺的數(shù)據(jù)語料,類型豐富但噪音大。通用網(wǎng)絡(luò)上國際服裝品牌的數(shù)據(jù)量和信息價值多于國內(nèi)的服裝品牌,學(xué)術(shù)平臺數(shù)據(jù)則呈現(xiàn)相反趨勢。奢侈等級越高,其受眾群體小,數(shù)據(jù)缺乏,如定制類品牌Brioni。

2服裝品牌數(shù)據(jù)挖掘

2.1數(shù)據(jù)預(yù)處理

數(shù)據(jù)研究過程使用的是定量內(nèi)容分析和數(shù)據(jù)挖掘軟件KHCoder,該軟件有特征抽取、語義共現(xiàn)、文本聚類、主題分析等功能,適用于大量型非結(jié)構(gòu)化文本的分析。為提高數(shù)據(jù)挖掘的效率和質(zhì)量,數(shù)據(jù)預(yù)處理步驟如下:(1)數(shù)據(jù)集成與格式規(guī)范:數(shù)據(jù)格式整理為單個CSV/Excel表格或批量TXT文本。以品牌為例,每一個品牌數(shù)據(jù)合并在一個TXT文檔里,以品牌名稱和定義的序號命名,匯總在文件夾下。CSV文件中,第一列為分析數(shù)據(jù),第二列第三列可設(shè)置外部變量。(2)詞類篩選與定義:選擇跟分析目的相關(guān)的詞性,排除無意義詞匯對數(shù)據(jù)結(jié)果的影響。一般主要選擇名詞、專業(yè)用詞、形容詞、標(biāo)簽。(3)編碼規(guī)則編寫:KH編碼器可以自定義編碼規(guī)則,執(zhí)行編碼。如“*博柏利Burberry|博寶利/巴寶莉”表示只要出現(xiàn)這些詞匯則認(rèn)為該文檔與品牌“博柏利”有關(guān),借助編碼可協(xié)助品牌語料識別。

2.2關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)分析

語義網(wǎng)絡(luò)是全局性的數(shù)據(jù)結(jié)構(gòu)觀察方法。在KHcoder設(shè)置不同的分析系數(shù)與變量因素,執(zhí)行共現(xiàn)網(wǎng)絡(luò)分析可發(fā)現(xiàn)隱形關(guān)聯(lián),從不同的角度進(jìn)行數(shù)據(jù)特征挖掘,發(fā)現(xiàn)語料庫的數(shù)據(jù)特征和隱藏的知識結(jié)構(gòu)。共現(xiàn)分析是按照關(guān)鍵詞在每篇文章中的共同出現(xiàn)的情況生成的語義網(wǎng)絡(luò)。設(shè)置參數(shù)時將共現(xiàn)網(wǎng)絡(luò)設(shè)置為無向網(wǎng),共現(xiàn)結(jié)果(圖1~圖3)中圈的大小代表頻次,顏色代表聚類情況。語義網(wǎng)絡(luò)呈現(xiàn)的共現(xiàn)關(guān)系可以是詞匯與外部變量之間的。以圖1為例,該圖是以品牌語料作為分析文本,以“品牌名稱”作為外部變量,基于語義相似度計算的語義網(wǎng)絡(luò)。品牌間由特征詞關(guān)聯(lián)起來形成不同的遠(yuǎn)近關(guān)系,其關(guān)聯(lián)與人工劃分的品牌類型相符;由品牌的共現(xiàn)相似性可對競爭關(guān)系展開知識推理。語義網(wǎng)絡(luò)呈現(xiàn)的共現(xiàn)關(guān)系也可以是詞匯與詞匯之間的。圖2是沒有設(shè)置外部變量,由服裝綜合性語料分析后展開的語義網(wǎng)絡(luò),可借此知道文本中存在較多的信息類型。由圖可知,分析文本中包含較多的“市場”“色彩”“元素”“造型”“圖案”等信息類型。圖3是以“雅格獅丹”的品牌語料為分析文本導(dǎo)出的語義網(wǎng)絡(luò)。雅格獅丹是英國倫敦的御用皇家品牌,戰(zhàn)爭期間為軍隊設(shè)計的防水大衣是品牌的經(jīng)典設(shè)計。在共現(xiàn)結(jié)果中,與雅格獅丹品牌相關(guān)的關(guān)鍵詞和信息點在語義網(wǎng)絡(luò)中都有明顯表現(xiàn)。通過語義網(wǎng)絡(luò),可觀察到每個品牌的數(shù)據(jù)特征詞;得到基于大數(shù)據(jù)文本的“品牌數(shù)據(jù)畫像”。語義網(wǎng)絡(luò)中的共現(xiàn)詞匯在一定程度上體現(xiàn)了數(shù)據(jù)的主題,可挖掘語料庫的行業(yè)信息,實現(xiàn)行業(yè)的知識發(fā)現(xiàn)。

2.3集群聚類與KWIC檢索

通過聚類分析和KWIC檢索可在詞匯語境下進(jìn)行數(shù)據(jù)的分析觀察。集群就是把相似的個體(樣本語料)歸于一群。通過集群聚類,可以得到不同場景的文本集群,并可得到不同集群下的特征詞匯表(表2,表3)。Jaccard數(shù)值越高證明該詞在這一集群中的權(quán)重越大。如表2所示,由特征詞可知該集群的文本語料與“顏色”密切相關(guān);如表3所示,該集群的語料與戶外運動密切相關(guān)。以此為依據(jù)可進(jìn)行語料分類和行業(yè)術(shù)語抽取。KWIC檢索也是基于語義相似度計算的統(tǒng)計分析,可輸入關(guān)鍵詞(研究對象)直接查詢該詞的上下文語境。分?jǐn)?shù)越高意味著在分析樣本中該詞與風(fēng)格搭配越頻繁。由上述結(jié)果可知,在KHcoder中執(zhí)行集群聚類可對文本語料進(jìn)行分類;借助集群聚類和KWIC檢索還可獲取特征詞匯,“品牌”“顏色”“單品”“圖案”、“面料”“風(fēng)格”“功能”“場景”等服裝行業(yè)的知識信息都可借此進(jìn)行聚類、提煉。

3結(jié)論

文章借助爬蟲技術(shù)和文本挖掘工具,對60個服裝品牌進(jìn)行了數(shù)據(jù)采集與語料庫構(gòu)建,發(fā)現(xiàn)了不同服裝品牌的數(shù)據(jù)分布特征。在語料庫基礎(chǔ)上進(jìn)行數(shù)據(jù)挖掘,從不同角度繪制了語料文本的語義網(wǎng)絡(luò),并獲取了基于語料庫的服裝品牌知識集群。結(jié)果表明,運用大數(shù)據(jù)技術(shù)在服裝品牌開源數(shù)據(jù)上進(jìn)行知識抽取具備科學(xué)性和可行性。實驗結(jié)果對知識工程建設(shè)者或數(shù)據(jù)分析人員具有一定的借鑒或參考價值。

作者:楊麗麗 劉靜偉 單位:西安工程大學(xué)服裝與藝術(shù)設(shè)計學(xué)院