前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的聚類分析論文主題范文,僅供參考,歡迎閱讀并收藏。
1.芭蕾是一種形式感很強的舞臺表演藝術(shù)
芭蕾是一種形式感很強的舞臺表演藝術(shù)。即使不特別熟悉這一藝術(shù)樣式的觀眾,也知道它是“足尖上的舞蹈”,知道它那挺拔、修長的“Arabesque”,知道它那“天鵝般”靜穆與典雅的舞風。事實上,“形式感”很強的芭蕾,積淀的是包括基督精神、哥特式審美和紳士風度等在內(nèi)的西方文化精神。根據(jù)文化傳播學的原理,某一文化形態(tài)在播遷異域后,反倒比其原生地的母體更固守形態(tài)的原發(fā)性和純粹性。盡管芭蕾的形式在中國大眾的接受境遇中已與原有的文化精神相剝離,但要在這種抽象的幾何形態(tài)中注人中國文化精神也并非易事。更何況“大紅燈籠”所面對的是《妻妾成群》這樣的文化舊俗和社會陋習。張藝謀高掛芭蕾“大紅燈籠”的初衷,可能是燈籠的象征、京劇的意味以及傳統(tǒng)中國的文化色彩,但他不能不首先對原著的敘述焦點及焦點人物作顛覆性的處理,否則他將被芭蕾的“形式感”所顛覆。非常看重“形式”在藝術(shù)表現(xiàn)中的重要作用的張藝謀,不可能置芭蕾藝術(shù)的“形式感”不顧而為所欲為。
2.按照舞劇敘述的特性升華原著的主題
據(jù)稱芭蕾舞劇《大紅燈籠高高掛》改編自張藝謀的同名電影,但張藝謀的電影則是改編自蘇童不同名的小說《妻妾成群》。我并不認為張藝謀電影的選材是迎合西方世界期待的中國“民族性”,從小說《妻妾成群》更名為電影《大紅燈籠高高掛》來看,毋寧說是張藝謀更看重選材中“鏡頭語言”的藝術(shù)張力及其文化內(nèi)涵。將《妻妾成群》的直描隱匿在“大紅燈籠”的暗喻之后,是電影敘述中“鏡頭語言”的特性所決定的;電影無需改變原著的敘述焦點和焦點人物,因為在“大紅燈籠”高掛的鏡頭下,仍然是老爺?shù)拿呋ㄋ蘖推捩臓庯L吃醋。但顯然,芭蕾“形式感”所決定的“舞劇敘述”拒絕老爺成為“男首席”。這一方面是由于芭蕾“男首席”體態(tài)語言的美學規(guī)范拒絕“老爺”的委瑣和陰毒,另一方面也是由于老爺“成群的妻妾”使“女首席”難以抉擇。于是,芭蕾舞劇“大紅燈籠”將“男首席”聚集于那位與三太太“”的戲班武生,三太太也就順理成章地成了“女首席”;又于是,男、女首席的“”事件沿著自身的敘述邏輯展開,它不是“妻妾成群”中的“世態(tài)百象”,而是其原有的“純情”之戀的“一以貫之”。于是,芭蕾舞劇《大紅燈籠高高掛》敘述的主線,體現(xiàn)為三太太的與其戀人——戲班武生的四段雙人舞:序幕中三太太被迫出嫁時憶及舊時戀人的“純情”雙人舞;三幕中戲班武生唱堂會時相逢三太太的“傾情”雙人舞;三幕中三太太不顧家法、以身相許舊時戀人的“”雙人舞;尾聲中戲班武生與三太太被老爺杖刑奪去年輕生命的“殉情”雙人舞……在我看來,舞劇的敘述特性首先體現(xiàn)為按男、女首席舞者的命運來設(shè)定情節(jié),盡管“大紅燈籠”還不可能完全擺脫原著情節(jié)的構(gòu)成框架,但原著的情節(jié)框架已拉開成背景,原著的主題也由于焦點人物的轉(zhuǎn)換而得以升華。值得注意的是,在這種敘述特性的觀照下,二太太從告密以邀寵到點燈而遭難的線索難免給人以枝蔓橫生之感。
〔關(guān)鍵詞〕移動圖書館;熱點;共詞分析;因子分析;聚類分析;多維尺度分析
DOI:10.3969/j.issn.1008-0821.2014.07.008
〔中圖分類號〕G2501〔文獻標識碼〕A〔文章編號〕1008-0821(2014)07-0040-05
移動圖書館(Mobile library)原指“汽車圖書館”,是一種以大型交通工具作為空間載體,內(nèi)置書架及各種圖書報刊,通過位置移動的方式供不同地方讀者取閱的圖書館。隨著移動互聯(lián)網(wǎng)技術(shù)、移動通信技術(shù)以及智能終端的快速發(fā)展,移動圖書館具有了新的內(nèi)涵,如今主要是指利用各種智能終端,不受時間和空間限制,以無線接入方式訪問圖書館資源的一種新型服務(wù)方式。移動圖書館方便、高效、快捷的服務(wù)方式迎合了現(xiàn)代人們的信息需求特點,因此,移動圖書館的研究受到了國內(nèi)外學術(shù)界的普遍重視,現(xiàn)已成為國內(nèi)外圖書情報領(lǐng)域的一個研究熱點。我國于2000年正式啟動移動圖書館建設(shè),經(jīng)過十多年的發(fā)展,我國在移動圖書館理論與實踐研究領(lǐng)域已取得了豐碩的成果。
筆者以CNKI數(shù)據(jù)庫中的相關(guān)期刊論文為研究基礎(chǔ),采用共詞分析方法,借助中國醫(yī)科大學醫(yī)學信息學系開發(fā)的書目共現(xiàn)分析Bicomb軟件確定高頻關(guān)鍵詞和高頻關(guān)鍵詞共詞矩陣,用SPSS190軟件進行因子分析、聚類分析以及多維尺度分析,從而在此基礎(chǔ)上揭示我國移動圖書館研究領(lǐng)域的熱點和現(xiàn)狀。
1關(guān)于共詞分析方法
共詞分析方法是一種基于內(nèi)容分析的方法,是法國文獻計量學家于20世紀70年代中后期基于引文耦合與共被引概念提出的。其基本原理主要是通過分析某一學科領(lǐng)域文獻集中的詞匯對或名詞短語共同出現(xiàn)的情況,來判斷該學科領(lǐng)域文獻各主題之間的關(guān)系。筆者在研究過程中,主要是對移動圖書館文獻集中的關(guān)鍵詞進行共現(xiàn)統(tǒng)計,以此確定不同主題的相關(guān)關(guān)系,并且在運用共詞分析方法分析我國移動圖書館研究熱點時,主要遵循了以下幾個步驟:①確定移動圖書館研究領(lǐng)域高頻關(guān)鍵詞;②利用Bicomb軟件構(gòu)建高頻關(guān)鍵詞共詞矩陣;③利用SPSS190軟件進行斯皮爾曼系數(shù)處理后得到相關(guān)矩陣進行因子分析;④用1減去相關(guān)矩陣中的所有數(shù)據(jù)的方法得到相異矩陣后利用SPSS190軟件進行聚類分析;⑤利用SPSS190軟件對已得到的相關(guān)矩陣進行多維尺度分析;⑥對所獲得的信息結(jié)果進行分析。
2014年7月第34卷第7期現(xiàn)?代?情?報Journal of Modern InformationJuly,2014Vol34No72014年7月第34卷第7期我國移動圖書館研究熱點分析July,2014Vol34No72數(shù)據(jù)來源與處理
在共詞分析過程中,考慮到我國移動圖書館研究論文收錄的全面性,2014年2月12日,筆者以CNKI全文數(shù)據(jù)庫為數(shù)據(jù)來源進行檢索,檢索策略為“主題=移動圖書館”或者“主題=手機圖書館”,共檢索到729篇文獻,經(jīng)過剔除不相關(guān)文獻之后得到680篇文獻,然后下載這些論文的題錄,利用Bicomb軟件的統(tǒng)計功能進行關(guān)鍵詞統(tǒng)計,統(tǒng)計結(jié)果顯示所有文獻共含有2 466個關(guān)鍵詞,從中選擇出57個詞頻大于等于5的關(guān)鍵詞作為共詞分析的基礎(chǔ)(見表1)。
3移動圖書館的共詞分析
31因子分析
因子分析的主要思想是利用盡可能少的因子去描述眾多指標或要素之間的聯(lián)系,即將相關(guān)性較高的幾個變量歸為一組,在每一組變量中找出隱藏的具有代表性的因子成為一個公共因子,以較少的公共因子反映原始資料的大部分信息,最后使得同組內(nèi)的變量之間具有較高的相關(guān)性,不同組的變量之間具有相對較低的相關(guān)性。
利用SPSS190分析中的斯皮爾曼系數(shù)將已生成的高頻關(guān)鍵詞共詞矩陣轉(zhuǎn)換成相關(guān)矩陣,并以此相關(guān)矩陣為基礎(chǔ),在SPSS190中選擇主成份方法、協(xié)方差矩陣和最大方差旋轉(zhuǎn)進行因子分析,得到相關(guān)矩陣的解釋總方差(見表3)。
32聚類分析
聚類分析又稱群集分析,是根據(jù)“物以類聚”的思想對事物的特性進行比較分類,將具有相近特性的事物歸為一類,將具有特性差別較大的事物歸入不同的類。
在聚類分析中,為消除共詞頻次差異的影響,需要將57*57的共詞相關(guān)矩陣轉(zhuǎn)化為相異矩陣,具體方法是用1減去相關(guān)矩陣中的所有數(shù)據(jù)的方法進行轉(zhuǎn)化。然后利用SPSS190軟件聚類分析中常用的系統(tǒng)聚類法對共詞矩陣進行聚類,聚類時聚類方法選用Wards算法,聚類度量標準選擇“計數(shù)”中的斐方(Phi square measure),轉(zhuǎn)換值標準化選擇Z得分。最后經(jīng)過分析得到聚類樹狀結(jié)構(gòu)圖,通過這個樹狀圖可以初步判斷各關(guān)鍵詞之間的親疏關(guān)系,結(jié)合前面的因子分析結(jié)果,我國移動圖書館研究領(lǐng)域的聚類樹狀結(jié)構(gòu)圖可以確定為5個大類(見圖1),進而可以為多維尺度分析的最終分組提供依據(jù)。
33多維尺度分析
多維尺度分析是研究對象之間相似性或差異性的一種多元統(tǒng)計分析方法,其基本原理是將研究對象從多維空間簡化到低維空間進行定位、分析和歸類,同時又保留對象間原始關(guān)系的數(shù)據(jù)分析方法[1]。
筆者以前面的相關(guān)矩陣為基礎(chǔ)利用SPSS190軟件進行多維尺度分析,結(jié)合因子分析和聚類分析的結(jié)果,繪制了具有5個類團的多維尺度分析圖(見圖2)。這5個類團分別代表的主題是:1移動圖書館服務(wù)模式;2移動技術(shù)在圖書館的應(yīng)用;3移動圖書館系統(tǒng)設(shè)計分析及實現(xiàn);4移動圖書館現(xiàn)狀及發(fā)展趨勢;5移動圖書館應(yīng)用實例介紹。
5結(jié)語
本文以我國移動圖書館研究領(lǐng)域的高頻關(guān)鍵詞為基礎(chǔ),通過共詞分析方法進行了因子分析、聚類分析和多維尺度分析,結(jié)果發(fā)現(xiàn)我國的研究學者對移動圖書館的研究主要集中在移動圖書館服務(wù)模式、移動技術(shù)在圖書館的應(yīng)用、移動圖書館系統(tǒng)設(shè)計分析及實現(xiàn)、移動圖書館現(xiàn)狀及發(fā)展趨勢、移動圖書館應(yīng)用實例介紹五個方面。盡管我國學者在移動圖書館研究領(lǐng)域取得了不錯的研究成績,但是從因子分析和聚類分析結(jié)果來看,我國移動圖書館的新興主題研究不夠,難以形成一類,如“個性化服務(wù)”、“移動閱讀”等主題,由于研究涉獵不多,所發(fā)表的論文數(shù)量偏少,結(jié)果在共詞分析中只能依附于其他相關(guān)主題。
值得注意的是本研究在研究過程中存在一定局限性,一是由于某些論文的關(guān)鍵詞著錄不規(guī)范,使得關(guān)鍵詞數(shù)據(jù)還不夠全面完善;二是移動圖書館的高頻關(guān)鍵詞的閥值選定是個值得商榷的事,到底選擇多大閥值的關(guān)鍵詞才能全面反映移動圖書館的整體狀況仍是一個值得不斷探索的事情,筆者將在未來的研究中不斷地進行實踐完善。
參考文獻
[1]陸宇杰,張鳳仙,范并思.基于共詞分析的高校圖書館核心價值研究[J].大學圖書館學報,2011,(6):34-40.
[2]宋鸞姣,李利.面向智能手機的移動圖書館服務(wù)需求調(diào)查分析[J].圖書館,2012,(5):71-72.
[3]宋恩梅.移動的書海:國內(nèi)移動圖書館現(xiàn)狀及發(fā)展趨勢[J].中國圖書館學報,2010,36(5):36-48.
[4]龍泉,謝春枝,申艷.國外高校移動圖書館應(yīng)用現(xiàn)狀調(diào)查及啟示[J].圖書館論壇,2013,(5):60-64.
[5]潘志鵬.基于手機平臺的圖書館延伸服務(wù)――以武漢圖書館手機服務(wù)為例[J].情報理論與實踐,2011,(1):76-79.
[6]袁輝,楊新涯,王寧.移動圖書館的實踐與展望──以重慶大學圖書館為例[J].圖書館建設(shè),2011,(11):66-70.
[7]董偉.國內(nèi)近十年數(shù)字圖書館領(lǐng)域研究熱點分析――基于共詞分析[J].圖書情報知識,2009,(131):58-63.
房地產(chǎn)投資環(huán)境屬于城市投資環(huán)境的子系統(tǒng),縱觀國內(nèi)外學者建立的各種投資環(huán)境評價方法,現(xiàn)階段用的比較多的方法有:灰色關(guān)聯(lián)分析法(鄧聚龍,1988),層次分析法(SAATYTL,1908),模糊評判法(CHUATW,1979),人工神經(jīng)網(wǎng)絡(luò)法(HECHT-NIELSENR,1987),物元分析法(蔡文,1994)以及投影尋蹤法(FriedmanJH,TukeyJW,1974)等.其中灰色關(guān)聯(lián)分析法、模糊評判法、物元分析法是主觀分析方法,在此類方法的應(yīng)用中主要由人為的根據(jù)經(jīng)驗確定各個指標的權(quán)重,因此其評價結(jié)果具有一定的人為隨意性;人工神經(jīng)網(wǎng)絡(luò)方法能夠消除評價過程中的人為隨意性,但是其學習訓練需要相當多的樣本,況且還容易陷入局部極小點,因此不便于推廣應(yīng)用;投影尋蹤方法能夠?qū)⒏呔S數(shù)據(jù)轉(zhuǎn)變?yōu)榈途S數(shù)據(jù),通過低維空間數(shù)據(jù)來分析高維空間數(shù)據(jù),但是其中的密度半徑窗口參數(shù)需要根據(jù)經(jīng)驗來確定,其評價結(jié)果仍然帶有一定的主觀性;當然也有一些經(jīng)典的傳統(tǒng)降維方法能夠利用指標數(shù)據(jù)信息對投資環(huán)境做出較客觀的評價,比如主成分分析法和因子分析法,但是此類方法是從眾多指標中提取少量指標來反應(yīng)樣本信息,使得樣本的信息損失量較大,同時對樣本數(shù)據(jù)也有嚴格的要求.投影尋蹤動態(tài)聚類模型依據(jù)動態(tài)聚類思想來構(gòu)建投影指標,完全依靠樣本數(shù)據(jù)自身特性根據(jù)投影指標來尋找投影向量,利用投影向量將高維樣本數(shù)據(jù)投影到低維數(shù)據(jù),然后通過研究處理低維數(shù)據(jù)達到研究高維數(shù)據(jù)目的,同時實現(xiàn)樣本數(shù)據(jù)的排序和自動聚類分析.投影尋蹤動態(tài)聚類模型已經(jīng)在洪水災害管理、氣候分區(qū)和區(qū)域水安全評價等領(lǐng)域的多元數(shù)據(jù)分析中取得了一定的應(yīng)用.本文將投影尋蹤動態(tài)聚類模型應(yīng)用到房地產(chǎn)投資環(huán)境評價中,以期為房地產(chǎn)投資環(huán)境評價提供更多的方法論。
2實例研究
為了驗證投影尋蹤動態(tài)聚類模型在房地產(chǎn)投資環(huán)境評價中的適用性,下文將進行實例研究.考慮指標數(shù)據(jù)的易獲得性,以遼寧省工業(yè)地產(chǎn)的投資環(huán)境分析為例.張軍濤和劉建國利用主成分分析法篩選了影響遼寧省主要城市投資環(huán)境評價的主要指標,之后利用聚類原理對數(shù)據(jù)進行了聚類分析;楊建喜和宋永發(fā)利用基于遺傳算法的投影尋蹤方法將高維數(shù)據(jù)降維到低維數(shù)據(jù),然后利用雷達圖對投影特征值進行聚類分析,研究了遼寧工業(yè)地產(chǎn)投資環(huán)境的排序.以上兩篇論文中使用兩類不同的方法得到了類似的排序和聚類結(jié)論.本文的研究以此為基礎(chǔ),通過投影尋蹤動態(tài)聚類模型進行遼寧省工業(yè)地產(chǎn)投資環(huán)境評價,然后與文獻的結(jié)論進行比較,以檢驗投影尋蹤動態(tài)聚類模型的適用性.工業(yè)地產(chǎn)是區(qū)別于住宅地產(chǎn),商業(yè)地產(chǎn)和綜合用地以外的工業(yè)性質(zhì)的房地產(chǎn).影響工業(yè)地產(chǎn)投資環(huán)境評價的因素眾多,參考文獻從社會文化環(huán)境、基礎(chǔ)設(shè)施環(huán)境、經(jīng)濟發(fā)展環(huán)境、工業(yè)發(fā)展環(huán)境4個方面選擇36個指標對遼寧省14個地級市的工業(yè)地產(chǎn)投資環(huán)境進行分析評價。首先,確定遼寧省工業(yè)地產(chǎn)投資環(huán)境的分類數(shù),這里參照文獻的分類,將整個樣本分為3類。同時得各個城市的投影特征值,投影特征值排序以及投影特征值聚類結(jié)果。最后,將本文的分析結(jié)果與文獻的分析結(jié)果進行對比。所得排序和分類結(jié)果與用投影尋蹤分析方法和用主成分分析方法基本一致,驗證了本模型在房地產(chǎn)投資環(huán)境評價中的適用價值.但與文獻中的基于遺傳算法的投影尋蹤算法相比:克服了需要根據(jù)經(jīng)驗來確定投影指標函數(shù)的密度窗口半徑參數(shù)和對投影特征值要借助雷達圖進行聚類再處理的過程;與文獻的主成分分析方法相比:投影尋蹤動態(tài)聚類模型能夠更多的利用原始指標信息,使得出的結(jié)論可能更加客觀可靠.同時投影尋蹤動態(tài)聚類模型在對數(shù)據(jù)的排序過程中自動輸出聚類結(jié)果,不需要再借助其他方法進行聚類分析.這具有文獻中所用方法無法比擬的優(yōu)勢.在同一聚類數(shù)據(jù)中,個別數(shù)據(jù)的排序結(jié)果與文獻中結(jié)論稍微不一致,這主要是由于在用遺傳算法求解時每次生成的單位投影向量帶有一定的隨機性所致。
3結(jié)語
關(guān)鍵詞: 居民出行特征; 數(shù)據(jù)挖掘; GPS軌跡數(shù)據(jù); DBSCAN
中圖分類號:TP29 文獻標志碼:A 文章編號:1006-8228(2017)05-37-03
Research on the characteristics of resident travel based on the taxi
GPS trajectory data mining
Lin Jiyan, Zhang Yaqiong, Zhang Hui
(School of Information Technology, Yulin University, Yulin, Shaanxi 719000, China)
Abstract: The analysis to the characteristics of urban residents travel is becoming increasingly important in urban traffic planning, and has become an important basis of urban road traffic construction. The urban taxi can well reflect the characteristics of residents travel because of its operational characteristics and rule. Therefore, in order to effectively solve the problem of city road congestion and provide the basis for city traffic planning, the paper presents the research on the characteristics of resident travel based on the taxi GPS trajectory data mining. The research uses DBSCAN algorithm to realize the clustering analysis of the historical GPS trajectory data, which can not only extract the temporal and spatial characteristics of urban resident travel, but also effectively reduce the taxi no-load rate.
Key words: resident travel characteristic; data mining; GPS trajectory data; DBSCAN
0 引言
在城市的上下班高峰期,道路磯率淺鞘薪煌ㄎ侍庵兇釵突出的難題,這跟城市居民出行行為密不可分,因為出行的居民是交通量的主要來源[1]。一個城市的交通系統(tǒng)狀況跟城市居民的出行行為息息相關(guān),居民的出行行為會對城市交通體系產(chǎn)生影響[2]。對居民出行特征進行研究是城市和交通規(guī)劃、城市公共基礎(chǔ)設(shè)施建設(shè)管理中的一個基礎(chǔ)性任務(wù),不僅可以用來對目前的交通出行情況進行評估,也可以用來對居民的出行需求進行預測,對實施合理有效的城市交通規(guī)劃起著至關(guān)重要的作用[3]。
出租車因其靈活性和便利性,已日漸成為城市交通系統(tǒng)的重要組成部分,同時,因為它的起點和終點由乘客決定,且24小時不間斷服務(wù),所以,出租車的運營規(guī)律能夠反映出乘客的出行特征[4]。由于裝載在出租車上的GPS和通信設(shè)備以一定的頻率向城市交通客運管理中心傳送出租車的實時經(jīng)緯度、運營狀態(tài)、行駛方向、速度等信息,因此,管理中心會積累大量的出租車GPS軌跡數(shù)據(jù)[5],利用DBSCAN對這些進行數(shù)據(jù)進行聚類分析,可以在一定程度上挖掘乘客出行的時空特征,也能為出租車尋找最佳的載客區(qū)域提供依據(jù),有效的降低出租車的空駛率。
1 GPS軌跡數(shù)據(jù)挖掘設(shè)計
1.1 數(shù)據(jù)預處理
本文選取榆陽區(qū)(地理坐標為東經(jīng)108?58'-110?24',北緯37?49'-38?58'之間)作為研究區(qū)域,GPS軌跡數(shù)據(jù)使用榆陽區(qū)1100多輛出租車五天的運營數(shù)據(jù),對數(shù)據(jù)進行預處理后,出租車軌跡數(shù)據(jù)由車牌ID tID、、當前位置loc、GPS時間ct、營運狀態(tài)tsta、行駛方向tdir、GPS速度dspe等六個屬性組成,部分屬性值如表1所示。
表1中,營運狀態(tài)的取值為0-3,其中0表示空載,1表示載客,2表示駐車,3表示停運;GPS方向的取值為000-360,以度為單位,即與北極方向的夾角,代表車輛的行駛方向。
1.2 利用DBSCAN算法進行聚類挖掘
居民的作息和社會活動有明顯的時間規(guī)律,比如上下班高峰期的載客點分布情況和非高峰期的居民出行特征有可能完全不同,因此,可以先將GPS歷史軌跡數(shù)據(jù)根據(jù)時間特征分類,再進行密度聚類分析,如此便可充分挖掘在不同時間段上居民出行特征的空間密度分布情況,給出租車提供更加合理的時空載客區(qū)域分布數(shù)據(jù),有效地提高其巡游過程中的載客成功率。基于此,論文引入了DBBSCAN算法,該算法需要3個輸入?yún)?shù):歷史軌跡數(shù)據(jù)對象D,空間半徑ε,以及密度閾值MinPts;輸出參數(shù)為聚類簇C,部分MATLAB代碼如下:
data=importdata('data.xlsx');
data=data.data.Sheet1;
……
num=size(data,1);
k=floor(log(num))+1;
k=round(num/25)+1;
k_dist=zeros(num,1);
for i=1:num
temp=repmat(data(i,:),num,1);
gx0=temp(:,1); gy0=temp(:,2);
gx1=data(:,1);gy1=data(:,2);
dist0=sqrt((gx0-gx1).^2+(gy0-gy1).^2);
dist_s=sort(dist0);
k_dist(i)=dist_s(k);
end
x=1:num;
figure;plot(x,k_dist,'r-');
xlabel('?ù±?±à??');ylabel('k_{-}dist');title('k_{-}dist??');
……
x=[(1:m)' data];
[m,n]=size(x);
types=zeros(1,m);
dealed=zeros(m,1);
dis=calDistance(x(:,2:n));
number=1;
……
img=imread('map.jpg');
[Ny,Nx]=size(img);
……
figure;imagesc(x00,y00,img); colormap(gray); hold on;
for i=1:m
if class(i)==-1
plot(data(i,1),data(i,2),'.r');
else if class(i)==1
if types(i)==1
plot(data(i,1),data(i,2),'+b');
else
plot(data(i,1),data(i,2),'.b');
end
elseif class(i)==2
if types(i)==1
plot(data(i,1),data(i,2),'+g');
else
plot(data(i,1),data(i,2),'.g');
end
……
plot(x1,y1,'r*');
xlabel('度'); ylabel('緯度');
2 實驗結(jié)果
聚類結(jié)果如圖1和圖2所示,出行熱點區(qū)域在圖中用圓圈標出。
以上的聚類結(jié)果顯示,榆陽區(qū)的居民出行呈現(xiàn)一定空間和時間特征。工作日和非工作日出租車熱點區(qū)域不同,且工作日的不同時間居民出行的特征不同;在工作日,出租車的載客熱點數(shù)比非工作日多;而載客熱點分布,工作日比非工作日分散。該聚類結(jié)果也可以給出租車司機提供歷史載客熱點序列,從一定程度上解決巡游方式的出租車空載率高的問題。
3 結(jié)束語
本文利用DBSCAN算法對出租車的歷史GPS軌跡數(shù)據(jù)進行挖掘,從挖掘結(jié)果可以分析出居民出行的時空特征,從而用來對目前的交通出行情況進行評估,同時也可以用來對居民的出行需求進行預測;再者,可以根據(jù)挖掘結(jié)果給出租車司機提供歷史載客熱點序列,幫助出租車司機降低空駛率。本文僅針對工作日和周末特定時刻給出了聚類分析,沒有詳細地分析一天中不同時刻的居民出行特征,以后的工作中會繼續(xù)研究和改進。
參考文獻(References):
[1] 衛(wèi)龍,高紅梅.基于軌跡數(shù)據(jù)挖掘的居民出行特征研究進展[J].西部交通科技,2016.10:87-92
[2] 馮琦森.基于出租車軌跡的居民出行熱點路徑和區(qū)域挖掘[D].重慶大學,2016.
[3] 陳世莉,陶海燕,李旭亮,卓莉.基于潛在語義信息的城市功能區(qū)識別――廣州市浮動車GPS時空數(shù)據(jù)挖掘[J].地理學報,2016.3:471-483
[4] 張俊濤,武芳,張浩.利用出租車軌跡數(shù)據(jù)挖掘城市居民出行特征[J].地理與地理信息科學,2015.6:104-108
[5] 張薇,林龍.基于數(shù)據(jù)挖掘的增城居民出行特征分析[J].科技和產(chǎn)業(yè),2015.7:61-64
[6] 趙苗苗.基于出租車軌跡數(shù)據(jù)挖掘的推薦模型研究[D].首都經(jīng)濟貿(mào)易大學碩士學位論文,2015.
[7] 童曉君.基于出租車GPS數(shù)據(jù)的居民出行行為分析[D].中南大學碩士學位論文,2012.
[關(guān)鍵詞]期刊共被引 對角線取值 聚類分析 核心-邊緣結(jié)構(gòu)分析
[分類號]G350
1 引 言
共被引分析方法是引文分析方法的一種,自從1973年分別由Small和I.V.Marshakova提出后,就備受研究者們關(guān)注。根據(jù)分析對象的不同,共被引分析方法主要分為文獻共被引、作者共被引、期刊共被引和專利共被引等幾種。
期刊共被引是以期刊為基本單元而建立的共被引關(guān)系。期刊共被引分析方法于1991年McCain首先引入并運用于期刊及學科領(lǐng)域的研究以來,理論與方法逐漸發(fā)展,運用領(lǐng)域也不斷擴大。隨著科學知識圖譜、可視化技術(shù)、社會網(wǎng)絡(luò)分析等逐漸成為科學計量學研究的熱門,期刊共被引分析越來越成為人們關(guān)注的熱點。
期刊共被引分析的步驟,學術(shù)界普遍采用1990年McCain對作者共被引技術(shù)總結(jié)的模式,其歸納為選擇作者、檢索共被引頻次、生成共被引矩陣、轉(zhuǎn)化為Pear.SOil相關(guān)系數(shù)矩陣、多元分析和解釋結(jié)果等幾個步驟。這幾個步驟中,生成共被引矩陣是基礎(chǔ)和關(guān)鍵的一步,后面的分析均基于該矩陣。
共被引矩陣是個對稱矩陣,非對角線上元素表示兩兩之間共被引的次數(shù)(也稱共被引強度),共被引強度越高,則說明關(guān)系越密切;然而,對共被引矩陣對角線取值的處理,學術(shù)界提出過多種觀點,但至今沒有統(tǒng)一的定論。由于不同的對角線取值,會造成期刊共被引分析結(jié)果的差異,因此有必要對期刊共被引矩陣對角線取值問題進行探究。
2 共被引矩陣對角線取值的幾種方法
2.1 總被引次數(shù)
對角線上的數(shù)值采用文獻總被引次數(shù)或作者總被引次數(shù)(包括了作者自引的次數(shù)),這是學者們對共被引分析對角線取值的最初思考。國內(nèi)學術(shù)界一些早期的研究L2-3]即采用這種觀點。這種做法,數(shù)據(jù)易取,容易操作。但其取值依據(jù)明顯與共被引理論不一致,造成分析的結(jié)果失真嚴重。因而,用總被引次數(shù)填充共被引矩陣對角線的做法,逐漸被其他做法代替。
2.2排序前三的共被引頻次之和的一半
White和Grififth最初是將對角線值定為:排序前三的共被引頻次之和的一半。因為,一方面對角線上取作者總被引次數(shù)遠遠高出其他作者間的共被引次數(shù),另一方面是作者同名造成的影響很大。
對角線取排序前三的共被引頻次之和的一半,部分解決了失真和作者同名的問題,又可突出共被引分析中對角線上數(shù)值的相對重要性。這樣做能解決對角線取總被引次數(shù)的一些問題,但此做法的合理性缺乏有效的證明。并且,現(xiàn)代檢索技術(shù)的發(fā)展,同名的問題已基本得到解決。
2.3 缺失值
對角線上的取值直接采用默認的缺失值,是Mc.Cain提出的,這也是影響最廣泛、目前最普遍的一種對角線確定方法。MeCain提出這種做法,也是為了解決對角線上采用總被引次數(shù)造成失真嚴重的問題,并通過作者共被引的實例證實缺失值的聚類、多維尺度、主成分分析的結(jié)果與White和Griffith采用排序前三的一半的做法,結(jié)果相差不大。
在聚類分析、多維尺度分析中,對角線值缺失的共被引矩陣需要將對角線默認為0,再轉(zhuǎn)化成相關(guān)系數(shù)矩陣,這樣相似矩陣對角線就自動變?yōu)?,這種取值方法解決了進一步多元分析中程序的限制問題。從表面看來,在處理數(shù)據(jù)方面非常方便,但忽略了研究對象的背景與含義。共被引矩陣是考察各對象之間親疏關(guān)系的相似矩陣,撇開對象與自己的關(guān)系,孤立地分析對象與對象之間的親疏關(guān)系,存在一定的不合理性。
2.4 最大值和最大值+1
White在文獻[6]中,建議使用期刊被引頻次的最大值作為對角線取值。他從Person相關(guān)系數(shù)矩陣測度相似性的角度出發(fā),并通過實例,說明采用默認值的做法會使分析結(jié)果存在一定的人為特定目的。取最大值的做法,比起排序前三的一半的做法,更加凸顯對角線的重要性,也方便操作。
我國學者邱均平從臨近矩陣的角度出發(fā),認為:按照共被引的假設(shè)――具有相同的共被引強度意味著具有相同的相似程度,期刊與自身的關(guān)系應(yīng)為最親近(相似),建議用最大值+1來凸顯期刊與自身的親密關(guān)系,并以編輯出版類期刊群和圖書館學情報學期刊群做了實證分析。
采用最大值或最大值+1的做法,從相似性的角度看,存在一定的合理性,而且數(shù)據(jù)易取,操作簡單。但難于解釋的一個問題是:為何取最大值或最大值+1,而不是最大值+2、最大值+N?理論依據(jù)是什么?另外,“期刊與自身的關(guān)系最親近”這一假設(shè)同樣存在一定的局限性。在文獻(或?qū)@?共被引中,共引意味著文獻(或?qū)@?相互引證,文獻(或?qū)@?主題存在相似性,共被引強度越大相似程度越大。但,在作者共被引或期刊共被引分析中,作者研究領(lǐng)域的改變、期刊辦刊方向的變化等都會造成“期刊與自身關(guān)系最親近”的假設(shè)不成立。
2.5期刊與自身的實際共被引次數(shù)
Ahlgren等認為,采用排序前三的共被引頻次之和一半和缺失值的做法僅是采用總被引次數(shù)的替換。雖然能生成共被引矩陣,但并不是最好的做法。從共被引的原理和統(tǒng)計意義上,應(yīng)該使用自己與自己實際共被引次數(shù),這樣產(chǎn)生的矩陣才是嚴格意義上的共被引矩陣。此結(jié)論是Ahlgren在探討作者共被引分析時得出的,這種做法由于數(shù)據(jù)收集困難而很少被采用,更缺乏實證的驗證。
通過以上分析,本文認為,針對作者、期刊、專利等不同分析對象的特點,對角線取值方式應(yīng)該有所不同。從社會網(wǎng)絡(luò)、共被引分析的原理和期刊動態(tài)變化的特點三個角度看,期刊共被引矩陣對角線取值采用期刊與自身的實際共被引次數(shù)最為合理。
首先,從社會網(wǎng)絡(luò)的角度看,期刊共被引矩陣(網(wǎng)絡(luò))是典型的自反網(wǎng)絡(luò),即期刊與自身是有關(guān)系的;因此,在考察期刊群之間相互關(guān)系的過程中,不應(yīng)該拋開期刊與自身的關(guān)系,應(yīng)對其加以考慮。從這個意義上來說,對角線取缺失值的做法并不合理。
其次,期刊共被引關(guān)系把眾多的期刊按被引證關(guān)系聯(lián)系起來,從期刊所載論文被利用的角度揭示期刊之間的某種學科或?qū)I(yè)上的聯(lián)系。換言之,期刊共被引分析通過期刊所載文獻之間的共被引關(guān)系揭示期刊的主題、地位上的密切關(guān)系,而期刊共被引矩陣是期刊之間密切關(guān)系的外在表現(xiàn)。采用自己與自己實際共被引次數(shù)作為矩陣對角線的值,形成嚴格意義上的共被引矩陣,更符合共被引原理。
第三,不同于耦合關(guān)系,共被引關(guān)系所反映的是變化的或暫時的關(guān)系,而且期刊共被引是對某一跨度時間內(nèi)形成的共被引關(guān)系進行分析,因而有必要考慮期刊動態(tài)變化的特點。造成這種變化可能是期刊季
刊、雙月刊、月刊、半月刊的改變,也存在期刊載文主題的變化。在這個意義上,“期刊自己與自己的關(guān)系最為密切”的假設(shè)并不一定成立,共被引矩陣對角線取最大值、最大值+1或其他遠大于非對角線的做法的合理性值得商榷。而這幾種對角線取值方式中,最能反映期刊動態(tài)變化的是實際共被引次數(shù)。
3 實證研究――以圖書情報學期刊群為例
3.1 數(shù)據(jù)的收集和處理方法
前面提到,對角線上的數(shù)值采用文獻總被引次數(shù)或作者總被引次數(shù)(包括了作者自引的次數(shù))的做法,是共被引分析的最初做法,已逐漸被其他方法完全替代。這里不再對該種做法進行研究。其余幾種對角線的處理方法,本文通過實例進行聚類分析和核心一邊緣結(jié)構(gòu)分析,對各種對角線取值方式得到的結(jié)果進行比較。
本文以文獻[9]為基礎(chǔ),采用該文選取的期刊群及數(shù)據(jù)收集的時間段,同樣以CNKI為信息源及相關(guān)的分析軟件(sPSS及UCINET),并于2009年8月13日對文獻[9]中期刊源(29種)的共被引數(shù)據(jù)進行檢索整理,得到如表1所示的共被引矩陣①:
3.2 聚類分析和核心-邊緣模型分析
共被引矩陣的不同會影響分析的結(jié)果,而造成共被引矩陣不同的原因是對角線的處理方法。以下是對幾種對角線處理方法逐一進行聚類分析和核心一邊緣模型分析。
3.2.1排序前三的共被引頻次之和的一半 圖1是采用該種對角線處理方法的聚類分析圖。從聚類分析結(jié)果,我們可以清楚地看到,采用排序前三的共被引頻次之和的一半的做法,將這29種期刊聚類成三大類:第一類包括《圖書情報工作》、《中國圖書館學報》等21種(圖1中a類)偏圖書館學領(lǐng)域的期刊和《情報理論與實踐》、《情報學報》等5種(上圖中b類)偏情報學領(lǐng)域的期刊;第二類為《農(nóng)業(yè)圖書情報學刊》和《情報探索》;第三類是《中華醫(yī)學圖書情報雜志》。這種對角線取值的方法,第一類包含了29種期刊中的26種,圖書館學領(lǐng)域期刊群和情報學領(lǐng)域期刊群聚成一個大類。
圖1右邊核心邊緣結(jié)構(gòu)分析,得到的結(jié)果顯示數(shù)據(jù)和理想模型的相關(guān)系數(shù)能達到0.919。這里得到的期刊核心度數(shù)值與邱均平、李俊佩的文獻《圖書情報學期刊的同被引研究》存在不同,但期刊核心度排名基本一致。
3.2.2缺失值對角線默認缺失值是共被引分析最普遍的做法。圖2是對角線取缺失值的期刊共被引聚類圖和核心邊緣結(jié)構(gòu)分析圖。聚類結(jié)果同樣不精確,除《圖書情報工作》、《情報理論與實踐》與《情報學報》各聚成一類外,其余聚成一個大類。而核心邊緣結(jié)構(gòu)分析,得到的結(jié)果顯示數(shù)據(jù)和理想模型的相關(guān)系數(shù)為0.889。
3.2.3 最大值和最大值+1最大值和最大值+1得到聚類分析和核心邊緣分析結(jié)果幾乎相同,如圖3和
聚類分析將29種期刊大致分成四類:第一類包括22種期刊,這些期刊主要以圖書館學領(lǐng)域的文章為主;第二類是以情報學領(lǐng)域的文章為主的期刊,它們都是情報學期刊,并且技術(shù)方面的文章占的比例也相對較高;第三類《情報探索》單獨成一類;第四類是《中華醫(yī)學圖書情報雜志》單獨成一類。
核心邊緣結(jié)構(gòu)分析顯示該取值方法與理想模型的相關(guān)系數(shù)為0.951。
3.2.4期刊與自身的實際共被引次數(shù)將期刊與自身的實際共被引次數(shù)作為共被引矩陣對角線數(shù)值得到的聚類見圖5,分為四類:
?第一類是研究圖書館學主題為主的23種期刊,包括《圖書情報工作》、《中國圖書館學報》等。這23種期刊又分成四個子類:a類全部都是圖書館學的核心期刊;b類包括各地圖書館學期刊,大多不是核心期刊;c類是以情報學為主題較多的期刊;d類是偏應(yīng)用較多的期刊。
?第二類是主題以情報學為主的4種期刊:《情報理論與實踐》、《情報學報》、《情報科學》和《現(xiàn)代圖書情報技術(shù)》。
?第三類、第四類分別是獨自成一類的《農(nóng)業(yè)圖書情報學刊》及《中華醫(yī)學圖書情報雜志》,這兩種期刊都是以特定專業(yè)領(lǐng)域為主題的期刊。
將實際共被引次數(shù)作為共被引矩陣對角線數(shù)值,進行核心邊緣結(jié)構(gòu)分析,顯示數(shù)據(jù)和理想模型的相關(guān)系數(shù)為0.962,優(yōu)于其他取值方法得到的結(jié)果。
3.3對比分析
從聚類結(jié)果上看,上文中3.2.1、3.2.2聚類結(jié)果較為模糊,形成類別少,類內(nèi)距離很大;3.2.3能聚成四類,但其第一類的組內(nèi)距離很大;3.2.4最能滿足層次聚類法“類內(nèi)距離小,類間距離大”的條件,聚類結(jié)果更為良好。
和3.2.3比較,3.2.4除了聚類分類更詳細更準確外,還有一個差別,即:《情報資料工作》期刊的歸類不同:3.2.3將該刊物聚為情報學期刊子群,3.2.4則歸為圖書館學期刊子群。為驗證其歸屬,筆者對《情報資料工作》2002-2007年發(fā)表學術(shù)論文的關(guān)鍵詞進行考察??紤]到關(guān)鍵詞是表征論文內(nèi)容的核心詞匯,本文將從對關(guān)鍵詞的統(tǒng)計對上述問題給出解釋。統(tǒng)計結(jié)果顯示,2002-2007各年間,《情報資料工作》刊載學術(shù)論文的前十位高頻關(guān)鍵詞(限于篇幅,具體數(shù)據(jù)略去,有需要可向作者索取),更多表征的是圖書館學的內(nèi)容,特別需要一提的是除了2007年排名第二的高頻關(guān)鍵詞是“知識管理”,其余各年排名第一、第二的高頻關(guān)鍵詞表征的均是圖書館學的內(nèi)容。這也從另一個側(cè)面證明了《情報資料工作》歸類于圖書館學期刊更為合理。
從核心一邊緣結(jié)構(gòu)分析結(jié)果來看,對角線取值的不同會影響期刊核心度,但對核心度排名的影響不大。就分析結(jié)果和理想模型的擬合系數(shù)來看,3.2.4能達到0.962,是這幾種取值方法中最高的,這也從實證的角度證明對角線取值為“期刊與自身的實際共被引次數(shù)”更為合理。
4 結(jié)語
[關(guān)鍵詞]機器學習;半監(jiān)督學習;半監(jiān)督聚類;文本聚類
中圖分類號:TP31 文獻標識碼:A 文章編號:1009-914X(2016)29-0361-01
0 研究背景
數(shù)據(jù)庫技術(shù)為存儲海量數(shù)據(jù)信息提供了可能,但隨著通信網(wǎng)、互聯(lián)網(wǎng)的迅速發(fā)展和日益普及,信息量呈指數(shù)級別增長,由于信息產(chǎn)生的速度遠遠超過人們對信息的利用能力,使得人們在海量的信息面前無所適從,給使用者帶來巨大的時間、資金和精力的浪費。因此,通過建立合適的學習系統(tǒng),將信息分門別類才便于挖掘信息的內(nèi)部規(guī)律,這些信息才可能為人類所利用。
在現(xiàn)實問題中通常存在大量無標記樣本,但有標記樣本則比較少,無標記樣本的獲也取相對容易,而獲取有標記的樣本則要困難得多。尤其是在一些在線應(yīng)用中這一問題更加明顯,從大量的在線文檔中獲取無類標記的新文章十分簡單,如果建立一個分類器來把這些新文檔分類到各個類中去,或者想要獲得這些文檔的類標記可能需要耗費大量的人力、物力和財力。顯然,如果只使用少量的有標記樣本,那么利用它們所訓練出來的學習系統(tǒng)往往很難具有泛化能力,在某些特定的條件下同時使用標記樣本和無標記樣本的學習結(jié)果要優(yōu)于僅僅使用少量已標記樣本的學習結(jié)果。
1 研究現(xiàn)狀
聚類技術(shù)已經(jīng)在模式識別、圖像處理、信息檢索、商業(yè)數(shù)據(jù)分析等許多領(lǐng)域的應(yīng)用中取得長足進展。在模式識別中,聚類分析被應(yīng)用于語音識別、計算機視覺、字符識別、雷達信號識別、文本識別、氣象數(shù)據(jù)分了、食品檢驗、水質(zhì)分析、自動化過程控制和工具狀態(tài)監(jiān)測等方面。在圖像處理中,聚類分析方法被應(yīng)用于灰度圖像的分割、彩色圖像的分割、紋理圖像的分割、圖像邊緣的檢測、圖像增強、恢復與壓縮等方法;在商業(yè)領(lǐng)域,聚類分析常被應(yīng)用用于客戶群體分類、預測客戶的消費模式和習慣等;文本聚類在信息檢索領(lǐng)域有著廣泛的應(yīng)用,通過聚類發(fā)現(xiàn)數(shù)據(jù)空間分布特征,從而建立主題索引,幫助用戶快速的找到所需信息。同時,聚類分析也用于個性化信息推薦系統(tǒng)。
2.基于標記樣本和相似度矩陣調(diào)整的k-means算法
基于標記樣本和相似度調(diào)整的k-means算法(LSKM)是根據(jù)半監(jiān)督學習的聚類假設(shè)條件,結(jié)合了基于約束和距離測度兩種思想的半監(jiān)督聚類算法。為了讀者更好地理解這個算法,本章首先闡述了文本處理技術(shù)、無監(jiān)督學習的的理論基礎(chǔ)半監(jiān)督聚類算法和半監(jiān)督聚類算法研究的一些相關(guān)問題,包括:樣本間的距離學習、聚類算法的評價準則、k-means聚類的擴展算法等。
2.1 文本處理
文本是非結(jié)構(gòu)化的數(shù)據(jù),無法用數(shù)據(jù)挖掘的方法對文本直接進行處理,需要先對文本進行預處理,使文本最終表示成為一種結(jié)構(gòu)化的計算機能夠處理的形式。文本預處理是聚類分析中一個非常重要的環(huán)節(jié),預處理的質(zhì)量直接影響著聚類分析的性能。預處理包括:正文提取、去除停用詞(stopwordremoval),提出詞干(stemming),處理數(shù)字、連接詞、標點以及字母大小寫等預處理工作。如果處理中文還需要對文本分詞。對于網(wǎng)頁,還需要移除HTML標簽和鑒定網(wǎng)頁主要內(nèi)容等。雖然經(jīng)過預處理后的本文長度會有所降低,但此時的文本仍然是非結(jié)構(gòu)化的數(shù)據(jù)。為了方便計算機處理,需要將這些文本轉(zhuǎn)化成某種結(jié)構(gòu)化的模式,這個轉(zhuǎn)化的過程就是文本的表示和特征選擇。這一節(jié)將對這兩種技術(shù)進行簡要的闡述。
2.2 聚類
將物理或抽象對象的集合分成相似的對象簇的過程稱為聚類(Clustering),簇(cluster)是樣本對象的集合,這些對象與同一個簇中的對象彼此相似,而與其它簇中的對象相異。一個樣本對象簇可以整體看作一個組,因此可以看作一種數(shù)據(jù)壓縮形式。盡管分類是一種識別對象組或類的有效手段,但是它常常需要高昂的代價收集和標記大量訓練元組集或模式,以便分類算法使用它們對每個組建模。通常,人們更希望反方向處理:首先,基于樣本的相似性把樣本劃分成組,然后給這些數(shù)量相對較少的組指定標記。這種基于聚類的過程的另一個優(yōu)點是可以適應(yīng)變化,并且能夠挑選出區(qū)分不同組的有用特征。
2.3 聚類算法評估
聚類結(jié)果體現(xiàn)了數(shù)據(jù)的分布特征,從未知數(shù)據(jù)中發(fā)現(xiàn)有意義的模式。評估過程是對所發(fā)現(xiàn)的的模式的有效性的驗證,用來指導用戶調(diào)整模型和參數(shù)值。從直觀上看,就是把相似數(shù)據(jù)劃分到同一個簇中,而不相似的數(shù)據(jù)盡可能劃分到不同簇中。
(1)純度度
純度(purity)可以理解為被正確聚類的對象的比例。該值越大,說明聚類的結(jié)果與被數(shù)據(jù)的實際分布情況越符合。對于輸出結(jié)果的每個簇,統(tǒng)計其每個樣本類標簽,用出現(xiàn)次數(shù)最多的類別作為該簇的類標簽,純度值即為類別與所在簇類標簽相同的樣本所占的比例。
(2)信息增益
信息增益(InformationGain)也是一種評價聚類結(jié)果與實際數(shù)據(jù)的匹配程度的一種方法。其匹配度為每個簇的信息增益的加權(quán)求和,其權(quán)值為簇中樣本占全部樣本的比例。這個值越小,表示聚類結(jié)果與實際數(shù)據(jù)的匹配程度越高。如果結(jié)果中簇的樣本的類標簽相同,信息增益為0,反之,如果簇中樣本含有多個類標簽,則信息增益就比較高。
(3)緊密度和分離度
緊密度(compactness)和分離度(separation)用來反映聚類的質(zhì)量。緊密度反映屬于同一類的成員之間相似的程度,緊密度越大,類內(nèi)相似性越大;分離度反映類間成員之間的相似性,分離度越大類間相似性越高。
2.4 半監(jiān)督學習的兩個假設(shè)
半監(jiān)督學習之所以能夠發(fā)揮作用要歸功于兩個常用的基本假設(shè),即聚類假設(shè)(ClusterAssumption)和流形假設(shè)(ManifoldAssumption)。聚類假設(shè)是指在相同簇(cluster)中的樣本有較大的可能擁有相同的標記。該假設(shè)等價于低密度分隔(LowDensitySeparation),即決策邊界應(yīng)盡可能通過數(shù)據(jù)較為稀疏的地方,從而避免把稠密的簇中的數(shù)據(jù)點分到?jīng)Q策邊界兩側(cè)。在這一假設(shè)下,大量無標記樣本的作用就是幫助探明樣本空間中數(shù)據(jù)分布的稠密和稀疏區(qū)域,從而指導學習算法對利用有標記樣本學習到的Q策邊界進行調(diào)整。聚類假設(shè)簡單、直觀,經(jīng)常以不同的方式直接應(yīng)用于各種半監(jiān)督學習算法的設(shè)計當中。
3 總結(jié)
半監(jiān)督學習已經(jīng)成為機器學習領(lǐng)域的一個研究熱點,它必將得到更加廣泛的應(yīng)用。本文提出的基于正例和相似度矩陣調(diào)整k-means算法,還有可以改進之處。近年來,語義網(wǎng)技術(shù)得到了快速的發(fā)展,成為未來的重要研究方向之一。語義網(wǎng)技術(shù)使文本的特征提取和文本距離公式都發(fā)生了改變,從語義層次進行文本理解和分類是作者今后研究工作的重點。對半監(jiān)督學習領(lǐng)域進行的初步探索,雖然取得了一些成果,但是許多問題有待于進一步深入研究和發(fā)現(xiàn)。
參考文獻
[1] BingLiu,Web數(shù)據(jù)挖掘[M].俞勇,薛貴榮,韓定一譯.北京:清華大學出版社,2009.111-140.
關(guān)鍵詞:房價影響因素 聚類分析 可變模糊 指標特征規(guī)格化矩陣
引言
房地產(chǎn)是國民經(jīng)濟的基礎(chǔ)性產(chǎn)業(yè),對廣大人民群眾的生活有很重要的影響。其價格是房地產(chǎn)發(fā)展走向的重要風向標,對投資者和消費者都有重要的現(xiàn)實的參考價值,因而成為房地產(chǎn)供需雙方的關(guān)注點。長期的低利率為房地產(chǎn)的開發(fā)提供了有利的條件,同時市場上的剛性需求和投資需求的急劇增長,特別是投資需求,使得房地產(chǎn)市場出現(xiàn)求大于供,根據(jù)需求供給價格機制原理,這必將導致房價上漲。由此可見,影響房價的因素很多,利用聚類迭代模型對其影響因素進行分析,找出影響較大的類別,為政府的宏觀調(diào)控提供建議。
目前常用的聚類方法有層級分析法及非層級分析法。1965年札德提出模糊集合概念,以后逐漸發(fā)展形成的模糊聚類方法。1974年J.C.Dunn提出了模糊C―均值聚類算法,1981年J.C.Bezdek對其進行了改進和發(fā)展,1990年代大連理工大學的陳守煜教授先后提出了以相對隸屬函數(shù)為基礎(chǔ)的模糊識別、決策與模糊聚類理論模型,并在水利領(lǐng)域得到了廣泛的應(yīng)用。本文擬采用陳守煜教授提出的可變模糊聚類迭代模型對影響房地產(chǎn)價格的因素進行聚類分析,找出影響價格的敏感的因素。
一、分析模型的選用
目前對房價影響因素關(guān)系的研究主要是應(yīng)用關(guān)聯(lián)度來衡量因素之間的關(guān)系,這類方法具有不可改變的缺點,即公式只能夠?qū)σ环N情況進行分析,不能反映事物的本質(zhì)。而事物的發(fā)展是連續(xù)漸變的,它們之間的界限不是絕對清晰的,而是存在著模糊性的。本文采用的可變模糊模型的聚類方法具有既可處理可變性又能處理模糊性因素的特點,既考慮了房價影響因素的可變性,有分析了各個因素之間的相關(guān)性,能夠更真實客觀的反映出結(jié)果,找到影響房價最重要的因素,具有實用性。
二、可變模糊聚類分析方法
2.1指標特征值規(guī)格化矩陣的確定
設(shè)有待聚類的n個樣本組成的集合,可用mn階指標特征值矩陣對樣本集進行聚類。
(1)
式中:χij為聚類樣本j指標i的特征值,i=1,2,,m;j=1,2,,n。
由于m個聚類指標特征值的物理量綱可能不同,需要對其進行規(guī)格化,即要將指標特征值χij變換為對聚類樣本關(guān)于模糊概念的指標相對隸屬度。在模糊聚類中通常有兩類指標:
(1)越大越優(yōu)效益型指標,也稱為正相關(guān)指標,即指標值越大,聚類類別排序越前,其規(guī)格化公式為:
(2)
(2)越小越優(yōu)成本型指標,也稱為負相關(guān)指標,即指標值越小,聚類類別排序越前,其規(guī)格化公式為:
(3)
在式(2)、(3)中、分別表示樣本集指標i的最大、最小特征值。如果對指標的相關(guān)性不是很清楚,可以使用式(4)進行判別。
(4)
其中:y表示指標標準特征值,其他字母符號同前。
經(jīng)過規(guī)格化,矩陣X變換為模糊概念的相對隸屬矩陣,即為指標特征值規(guī)格化矩陣R。
2.2可變模糊聚類矩陣的確定
設(shè)n個樣本依據(jù)m個指標特征值規(guī)格化數(shù)按c個類別進行聚類,其模糊聚類矩陣為U。
式中:上式分別為(6)、(7)
為樣本j隸屬于類別h的相對隸屬度,h=1,2,,n,并且滿足條件,,。表示各個指標所占的權(quán)重。α,P為可變參數(shù),體現(xiàn)了模糊聚類的可變性。通常取α=±1,P=±2,對出現(xiàn)的四類情況進行分別討論。類別h的m個指標特征值規(guī)格化數(shù)表示了h類的聚類特征,在模糊聚類中通常稱為聚類中心,則c個類別的聚類特征可用m×c階聚類中心矩陣S表示。
S=(), (8)
式中為類別h指標i的聚類特征規(guī)格化數(shù),i=1,2,,m;h=1,2,,c。
2.3類別特征值的確定
由于模糊概念在分級條件下具有不適用行,陳守煜教授提出了類別特征值的概念和公式。設(shè)已知對模糊概念的級別變量相對隸屬度分布列h(h=1,2,,c)。級別變量h,以其相對隸屬度為權(quán)重,其總和:
(9)
稱為類別變量的特征值,簡稱類別特征值。
根據(jù)可反饋得到相應(yīng)的級別,據(jù)此可對作出屬于何種類別的判斷。為了更細致的應(yīng)用類別特征值進行判斷,給出了判斷準則公式[7]:
當,歸屬于1級;當,歸屬于h級,偏(h-1)級(h=2,3,,c-1);當,歸屬于h級,偏(h+1)級(h=2,3,,c-1);當,歸屬于c級。
在實際運用的過程中,由式(7)可知,在一般的情況下,存在四類的可變的情形,因而會產(chǎn)生四組,在進行類別判斷時,取四組的平均值得到,最后依據(jù)上述判斷準則進行評判。
三、 房價影響因素聚類分析的實證分析
基于可變模糊聚類分析方法的基本要求,在依據(jù)實際案例對房價影響因素進行聚類分析時,為了減少計算量,本論文只是針對α=2、P=2 這一類情況進行討論,其余三種情況可根據(jù)這一步驟進行計算。因此本文從敏感性的角度以河南省安陽市的房價影響因素進行聚類分析,其中所使用到得數(shù)據(jù)大都是來源于河南統(tǒng)計年鑒以及中國統(tǒng)計年鑒,部分數(shù)據(jù)來源于安陽房管局網(wǎng)站公布的信息和網(wǎng)上搜集得到的資料分析處理所得。
3.1敏感性的聚類中心矩陣
房價影響因素對房價的影響的程度是各不相同的,采用敏感性進行分類,分為五類即:很敏感、比較敏感、敏感、不太敏感、不敏感等,規(guī)定敏感性的聚類中心矩陣S。
S=(0.9, 0.7, 0.5, 0.3, 0.1)
3.2房價影響因素指標的選取
表1安陽房價及影響因素
指標 房地產(chǎn)價格(元/平方米) 城市化水平(%) 房地產(chǎn)開發(fā)投資額 (億元) GDP(億元) 城鎮(zhèn)居民人均可支配收入(元) 人口密度(人/平方千米)
參數(shù) Y X1 X2 X3 X4 X5
2004 1470.92 31 11.6 463.47 4502.00 716
2005 1622.17 32.5 13.99 557.46 8649.02 720
2006 1610.40 34.2 24.22 646.00 9624.04 724
2007 1514.87 35.8 35.45 807.82 10723.64 728
2008 1683.11 37.3 43.69 1036.05 11556.78 732
(數(shù)據(jù)來源:河南省統(tǒng)計年鑒)
房價是在市場中形成的,因此市場的基本規(guī)律―供需理論對房地產(chǎn)依然起著重要的作用。從供給角度來看,房地產(chǎn)開發(fā)投資額反映了市場房地產(chǎn)供給的狀況,因此將其作為供給的反映指標。從需求角度來看,城鎮(zhèn)居民收入反映了房地產(chǎn)的有效需求,人口密度反映了房地產(chǎn)需求的總量要求,因此,選取這兩個指標作為需求的反映指標。
通過查閱2005―2009年河南省統(tǒng)計年鑒,將上述五個指標的樣本值整理如表1。
3.3房價影響因素的指標特征值規(guī)格化矩陣的確定
由表1可知,房價影響因素的指標特征值矩陣X,同時由式(4)可求得:=0.57>0,=0.4>0,=0.5>0,=0.6>0,=0.5>0,因為>0,所以五類指標均為正相關(guān)性指標,采用式(2)對其進行規(guī)格化,得到指標特征值規(guī)格化矩陣R為:
3.4不可變模糊聚類矩陣的確定
由于在文章的開始已經(jīng)將,P常數(shù)化,因此,原來具有可變性質(zhì)的式(7)已經(jīng)轉(zhuǎn)換為不可變的模型。根據(jù)式(7)以及α=2、P=2可求得不可變模糊聚類矩陣U為:
3.5類別特征值的求得
由于敏感性分為五類,所以在這里取c=5,由式(9)可知:
H=(2.8983,3.0891,3.2411,2.2796,2.9040)
3.6房價影響因素類別判定
由上節(jié)的判斷準則并且結(jié)合該實際案例,我們可以確定房地產(chǎn)價格五個影響因素的類別如下:
沒有因素屬于第1類、第4類、第5類;屬于第2類―比較敏感的指標有X4,即城鎮(zhèn)居民收入水平,其他四個指標均屬于第3類―敏感的指標。又2.5
四、結(jié)論
對影響河南省安陽市的房價的因素進行模糊聚類分析可以看出,在這五個因素中城鎮(zhèn)居民收入對房價最為敏感。一般來說,不同地區(qū)的收入水平對應(yīng)著不同的房價。從感性認識上看,北京、上海、天津等發(fā)達城市地區(qū)因收入水平相對較高,其的房價明顯高于其他不發(fā)達地區(qū)低收入城市的房價,而東部地區(qū)的房價也明顯高于中西部地區(qū)的房價,也說明了居民收入對房價影響的敏感度高與其他因素。這也是符合我們所得出的結(jié)論的。
參考文獻:
[1] 計長鵬. 發(fā)展住宅建設(shè)尚需進一步努力[J]. 建筑管理現(xiàn)代化, 1999(2):18.
關(guān)鍵詞:空間數(shù)據(jù)挖掘;聚類;設(shè)施選址
中圖分類號:TP391文獻標識碼:A文章編號:1007-9599 (2010) 10-0000-02
The Application of Spatial Clustering Algorithms in the Facility Location Optimization
Zhang Jimei1,Shu Chuanling2
(1.Anhui University,Institute of Computer Science and Technology,Hefei230061,China;2.Institute of Management,Hefei University of Technology,Hefei230026,China)
Abstract:This paper summarizes the spatial data mining technology and spatial clustering algorithms.With facility location,by using graph theory and simulated annealing algorithm for traditional algorithms of exploratory improvement,which optimizes the clustering results.
Keywords:Spatial data mining;Cluster;Facility location
選址是指在建筑之前對地址進行論證和決策的過程,首先是考慮設(shè)置的區(qū)域以及區(qū)域的環(huán)境和應(yīng)達到的要求;其次是考慮具體的地點和方位。設(shè)施選址是眾多選址問題的一個重要研究領(lǐng)域。1909年,Weber研究了在平面上確定一個倉庫的位置使得倉庫與多個顧客之間的總距離最小的問題(稱為韋伯問題),正式開始了選址理論的研究。1964年,Hakimi提出了網(wǎng)絡(luò)上的p-中值問題與p-中心問題,從此,選址理論的研究開始活躍起來,文獻數(shù)目也急劇增多。
一、關(guān)于空間數(shù)據(jù)挖掘
近幾年隨著空間數(shù)據(jù)庫系統(tǒng)和存儲技術(shù)的發(fā)展,以GIS為代表的空間數(shù)據(jù)庫系統(tǒng)在人類的生產(chǎn)生活中發(fā)揮了重要的作用。所謂空間數(shù)據(jù)挖掘是指從空間數(shù)據(jù)庫中抽取空間關(guān)系知識或其它沒有在空間數(shù)據(jù)庫明確存放的有意義的模式??臻g數(shù)據(jù)挖掘可以幫助理解空間數(shù)據(jù)、發(fā)現(xiàn)空間關(guān)系和空間與非空間數(shù)據(jù)間關(guān)系、構(gòu)造空間知識庫、重組空間數(shù)據(jù)庫,以及優(yōu)化空間查詢等。
常用的空間數(shù)據(jù)挖掘方法有:基于概率論的方法,空間分析方法,統(tǒng)計分析方法,聚類分析方法,基于模糊集合論的方法,遺傳算法和空間關(guān)聯(lián)規(guī)則挖掘方法等。
二、空間聚類分析主要方法
聚類分析是指從給定的數(shù)據(jù)集中搜索數(shù)據(jù)對象之間存在的有價值聯(lián)系??臻g聚類分析是將空間數(shù)據(jù)庫中的數(shù)據(jù)對象按照某些特征劃分為不同的有意義的組,同一組中的對象某些特征具有高度相似性,不同組中的數(shù)據(jù)對象具有明顯的差異。
有關(guān)的聚類方法主要有:劃分類方法、分層類方法、基于密度類方法、基于網(wǎng)格類方法和基于模型類方法。這里只介紹前兩種方法。
(一)層次算法
層次聚類算法是通過將數(shù)據(jù)組織為若干組并形成一個相應(yīng)的樹來進行聚類的。其構(gòu)建方法有分裂和凝聚兩類。層次算法不需要參數(shù),但需要定義分解的停止條件。層次聚類方法又可分為自頂而下和自下而上層次聚類兩種。
(二)劃分算法
給定一個包含n個對象或數(shù)據(jù)集,用劃分算法將其劃分為m個子集,其中每個子集均代表一個聚類(mQn)。每個子集至少包含一個對象且每個對象必須只能屬于某一子集。代表性的算法有K-means算法,K-medoids算法,Clara算法,以及可用于隨機分布空間的DBCLASD算法和改進的用于空間數(shù)據(jù)挖掘的Clarans算法。
1.K-means算法。K-means算法的工作過程是首先從n個數(shù)據(jù)對象中任意選m個對象作為初始聚類中心,對于剩下的對象,則根據(jù)它們與這些聚類中心的相似度(距離),分別將它們分配給與其最相似的聚類;然后再計算每個所獲新聚類的聚類中心,不斷重復這一過程直到標準測度函數(shù)開始收斂為止。一般都采用均方差作為標準測度函數(shù)。K-means算法對異常數(shù)據(jù)很敏感。
2.K-medoids算法。K-medoids算法的基本策略是通過首先任意為每個聚類找到一個代表對象而首先確定n個數(shù)據(jù)對象的m個聚類,其它對象則根據(jù)它們與這些聚類代表的距離分別歸屬到各相應(yīng)聚類中。如果替換一個聚類代表能改善所獲聚類質(zhì)量的話,就可以用一個新對象替換老聚類對象。在聚類效果上,K-medoids算法較好地解決了K-means算法易受噪音點影響的問題,但K-medoids算法的處理時間較K-means算法更大。
三、設(shè)施選址問題應(yīng)用舉例
(一)問題描述
現(xiàn)以某地的某新區(qū)為例,該新區(qū)中新建了n個居民點,現(xiàn)要對新區(qū)中再建設(shè)m所學校進行選址(注:m
(二)解決算法
基于以上設(shè)施選址問題描述,此類問題可以用聚類分析算法處理解決。具體算法(算法1)如下:
輸入:n個居民點;建學校數(shù)目m;其中(mQn);循環(huán)次數(shù):s;
輸出:m個校址;
處理流程:
1.在A中任意選擇m個居民點(a1’,a2’,……,am’)作為聚類中心;依次計算A中的每一個ai與每一個聚類中心aj’之間的距離dij;其中dij用直接空間距離表示dij= ;對于每一個ai選擇出dij的最小值Min(dij),并將ai劃分到該聚類中心所在的劃分中;
3.在每個劃分中,計算所有屬于這個劃分的ai的坐標均值;
在每個劃分中,計算所有屬于這個劃分的ai與該劃分的坐標均值之間的距離;在每個劃分中,將坐標均值作為該劃分的新的聚類中心aj’;
4.計算d= ;循環(huán)執(zhí)行(2)、(3),直至到達既定循環(huán)次數(shù)s;
(三)聚類分析方法在設(shè)施選址應(yīng)用中的改進
1.模擬退火算法。模擬退火算法來源于固體退火原理,將固體加溫至充分高,再讓其徐徐冷卻,加溫時,固體內(nèi)部粒子隨溫升變?yōu)闊o序狀,內(nèi)能增大,而徐徐冷卻時粒子漸趨有序,在每個溫度都達到平衡態(tài),最后在常溫時達到基態(tài),內(nèi)能減為最小,溫度為T時粒子達到平衡態(tài)的概率為exp(-E/kT),其中k為常數(shù),E為內(nèi)能改變量。針對設(shè)施選址問題,可將內(nèi)能E模擬為距離,將溫度T模擬為空間點。算法略。
2.聚類分析方法應(yīng)用于設(shè)施選址的改進算法?;谝陨戏治龊退惴?通過對K-means算法和模擬退火算法的有效結(jié)合,聚類方法應(yīng)用于設(shè)施選址的改進算法如下:
輸入:n個待聚類空間點,聚類中心數(shù)目m,直接空間距離s;
輸出:m個聚類,m個聚類中心;
處理流程:
(1)調(diào)用算法1,用K-means方法求出m個聚類中心和m個聚類;
(2)依次在每個聚類中,取其子集,使得子集中的每個數(shù)據(jù)點距離該聚類中心的直接空間距離不大于s,從而產(chǎn)生m個子集;
(3)對以上產(chǎn)生的m個子集和m個聚類中心,調(diào)用模擬退火算法,產(chǎn)生m個新的聚類中心;返回m個聚類中心和m個聚類;終止。
四、結(jié)束語
本文通過空間數(shù)據(jù)挖掘聚類算法在設(shè)施選址方面的應(yīng)用展開研究,目的是為公共設(shè)施選址提供決策支持。在聚類分析算法應(yīng)用于設(shè)施選址的傳統(tǒng)解決辦法的基礎(chǔ)上,作了三方面改進,第一,解決了決策空間中有障礙物存在的情況下距離表示;第二,將道路交通狀況差異列入聚類依據(jù),使聚類結(jié)果得到優(yōu)化;第三,在使用K-means算法的基礎(chǔ)上,用取聚類子集方法和模擬退火算法對K-means的聚類結(jié)果進行優(yōu)化,既保證了算法的執(zhí)行效率,又避免了噪音點的干擾和聚類中心落在障礙物上所造成的聚類結(jié)果無意義的情況。
參考文獻:
[1]王海起,王勁鋒.空間數(shù)據(jù)挖掘技術(shù)研究進展[J].地理與地理信息科學,2005
[2]鞏華榮,何佳.空間數(shù)據(jù)挖掘技術(shù)的研究與發(fā)展[J].測繪與空間地理信息,2007,5
[3]王新洲.論空間數(shù)據(jù)處理與空間數(shù)據(jù)挖掘[J].武漢大學學報(信息科學版),2006,1
[4]朱明.數(shù)據(jù)挖掘.合肥:中國科學技術(shù)大學出版社,2002,5
[5]王輝.城市空間數(shù)據(jù)挖掘方法的研究[A].山東省測繪學術(shù)年會論文集[C].2006
關(guān)鍵詞:關(guān)聯(lián)數(shù)據(jù) 社會網(wǎng)絡(luò)分析 共詞分析 Ucinet SPSS
中圖分類號: G254 文獻標識碼: A 文章編號: 1003-6938(2013)05-0129-04
關(guān)聯(lián)數(shù)據(jù)(Linked Data)概念由“萬維網(wǎng)之父”Tmi Berners-Lee于2006年首次提出[1]。 關(guān)聯(lián)數(shù)據(jù)是語義web的主題之一,描述了通過可鏈接的 URI 方式來、分享、連接Web 中各類資源的方法。關(guān)聯(lián)數(shù)據(jù)通過網(wǎng)絡(luò)把以前沒有關(guān)聯(lián)的相關(guān)數(shù)據(jù)鏈接在一起,允許用戶發(fā)現(xiàn)、關(guān)聯(lián)、描述并再利用各種數(shù)據(jù),因而自關(guān)聯(lián)數(shù)據(jù)提出以來便得到了社會廣泛的認同和快速的發(fā)展,BBC、紐約時報、美國國會圖書館等都紛紛加入到關(guān)聯(lián)數(shù)據(jù)的出版之列[2],關(guān)聯(lián)數(shù)據(jù)也日益成為國內(nèi)學術(shù)界的關(guān)注熱點。因此本文運用社會網(wǎng)絡(luò)分析方法和共詞分析方法,通過關(guān)聯(lián)數(shù)據(jù)領(lǐng)域作者合著網(wǎng)絡(luò)、關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)和關(guān)鍵詞共詞聚類分析,了解我國關(guān)聯(lián)數(shù)據(jù)研究團隊發(fā)展現(xiàn)狀、研究熱點和內(nèi)容結(jié)構(gòu),以期為后續(xù)研究與實踐的開展提供參考。
1 數(shù)據(jù)來源與研究方法
1.1 數(shù)據(jù)來源
本文選取CNKI的中國學術(shù)期刊網(wǎng)絡(luò)出版總庫為數(shù)據(jù)來源庫,以“關(guān)聯(lián)數(shù)據(jù)”或“l(fā)inked data”為檢索詞在主題字段檢索,檢索時間是2013年4月10日,剔除重復和非相關(guān)文獻后得到有效學術(shù)論文117 篇。
1.2 數(shù)據(jù)處理工具
在共詞分析和社會網(wǎng)絡(luò)分析方法中,數(shù)據(jù)處理是十分重要的步驟。使用浙江大學信息資源管理系劉啟元開發(fā)的文獻題錄信息統(tǒng)計分析工具(Statistical Analysis Toolkit for Informetrics,SATI)。該軟件通過對期刊全文數(shù)據(jù)庫題錄信息的字段抽取、頻次統(tǒng)計,進而生成共現(xiàn)矩陣。生成的共現(xiàn)矩陣可以直接導入Ucinet和SPSS軟件進行處理分析[3]。
1.3 研究方法
本文運用社會網(wǎng)絡(luò)分析法生成作者合著網(wǎng)絡(luò)和關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)圖譜來分析關(guān)聯(lián)數(shù)據(jù)領(lǐng)域的作者合著關(guān)系及學科的研究熱點;運用共詞聚類分析法生成共詞聚類樹狀圖來分析關(guān)聯(lián)數(shù)據(jù)研究論文的主流研究領(lǐng)域的結(jié)構(gòu)及其關(guān)系。
2 構(gòu)建共現(xiàn)矩陣
將從CNKI中導出的Endnote格式的文獻題錄信息導入 SATI 軟件,分別選取作者和關(guān)鍵詞字段,進行抽取和頻次統(tǒng)計,構(gòu)建高頻作者合著共現(xiàn)矩陣和高頻關(guān)鍵詞共現(xiàn)矩陣,保存為 Excel文件,便可直接導入Ucinet和SPSS進行處理分析。
3 高頻作者合著分析
3.1 高頻作者合著網(wǎng)絡(luò)分析
打開 Ucinet 導入 Excel 格式的高頻作者共現(xiàn)矩陣,利用Ucinet軟件集成的可視化工具Netdraw繪制高頻作者合作關(guān)系網(wǎng)絡(luò)圖,通過K-cores分析,將所有節(jié)點分類,選擇 Transform—node attribute editor 添加節(jié)點的大小和連線的粗細對網(wǎng)絡(luò)進一步調(diào)整后,得到高頻作者合著網(wǎng)絡(luò)圖譜(見圖1)。圖中每個節(jié)點代表作者,節(jié)點越大代表著者的頻次越高,節(jié)點之間的連線粗細表示作者之間的合作強度。圖中最大的團體是上海圖書館和廣東外語外貿(mào)大學圖書館為合作機構(gòu)下的劉煒、夏翠娟、張春景、趙亮、錢國富,在該合著網(wǎng)絡(luò)中頻率達到最高。該團體以劉煒和夏翠娟為代表圍繞國家社會基金項目“關(guān)聯(lián)數(shù)據(jù)的理論和應(yīng)用研究”和“《資源描述與檢索》的中文化及其應(yīng)用研究”對關(guān)聯(lián)數(shù)據(jù)技術(shù)及其實現(xiàn)、開放應(yīng)用協(xié)議、RDA進行了研究;四川大學和中國醫(yī)學科學院醫(yī)學信息研究所為合作機構(gòu)下的范煒、方安、洪娜和鄒慶圍繞國家社會科學基金項目“關(guān)聯(lián)數(shù)據(jù)中潛在知識關(guān)聯(lián)的發(fā)現(xiàn)方法研究”對生物醫(yī)學關(guān)聯(lián)數(shù)據(jù)研究、語義管道技術(shù)、詞表資源關(guān)聯(lián)化、術(shù)語服務(wù)進行了研究;以中國科學院國家科學圖書館和中國科學院研究生院為合作機構(gòu)下的的李春旺、黃永文、劉媛媛和鄧蘭蘭等人圍繞國家社會科學基金資助項目“我國數(shù)字圖書館集成融匯方法研究”和中國科學院國家科學圖書館青年人才領(lǐng)域前沿項目“利用LOD實現(xiàn)數(shù)字圖書館中數(shù)字資源與知識內(nèi)容關(guān)聯(lián)揭示的技術(shù)方法研究”對關(guān)聯(lián)參考服務(wù)、對象共指問題、關(guān)聯(lián)數(shù)據(jù)應(yīng)用的體系框架、關(guān)聯(lián)數(shù)據(jù)資源集相似度計算方法、Web數(shù)據(jù)關(guān)聯(lián)創(chuàng)建、信息檢索服務(wù)和注釋服務(wù)等進行了研究。從圖中還可以看出,作者合著網(wǎng)絡(luò)圖譜整體聯(lián)系稀疏,網(wǎng)絡(luò)中大多數(shù)節(jié)點之間沒有連線,關(guān)聯(lián)程度非常小,表明目前關(guān)聯(lián)數(shù)據(jù)領(lǐng)域還沒有形成一支成熟的研究隊伍。
3.2 網(wǎng)絡(luò)密度分析
網(wǎng)絡(luò)密度可以用來度量網(wǎng)絡(luò)成員之間聯(lián)系的緊密程度。一般來說,密度高的網(wǎng)絡(luò)信息溝通性較強;而密度低的網(wǎng)絡(luò)常信息不暢[4]。利用Ucinet軟件得到高頻作者合著網(wǎng)絡(luò)密度(見圖2)為0.0097,這是一個相對偏低的密度值,網(wǎng)絡(luò)連通性不好,這也印證了在前面作者合著網(wǎng)絡(luò)分析中的結(jié)果。說明作者之間的合作程度低,作者之間不能很好地進行深層次的知識構(gòu)建,不利于我國關(guān)聯(lián)數(shù)據(jù)研究的快速發(fā)展。
3.3 高頻作者合著中心性分析
中心性是社會網(wǎng)絡(luò)分析中的重點之一,它反映了行動者在其社會網(wǎng)絡(luò)中所處的地位及權(quán)力影響。
3.3.1 點度中心性分析
本文使用點度中心性來測量作者在網(wǎng)絡(luò)中的重要性。作者點度中心性越高者,表示其在網(wǎng)絡(luò)中與較多的作者合作,在網(wǎng)絡(luò)中具有較高的影響力,從而可以認為其具有核心作用。利用Ucinet進行點度中心性分析得到點度中心度排名在前10位的作者(見圖3)。一般情況下,頻次較高的作者與其他作者合作的機會更多,因而普遍點度中心性也較高。通過分析可知,張勇、邢春曉等的點度中心性較原先頻次排名有較大幅的提升,說明這些作者具備相對其頻次排名有更高的影響力;而范煒、劉煒、黃永文等的點度中心性較原先頻次排名有較大幅度的回落,說明這些作者發(fā)表獨著的頻率高。由圖3可見,張春景的點度中心性最大,其次為夏翠娟,表明這些作者與網(wǎng)絡(luò)內(nèi)其他作者的知識交流更加頻繁,在關(guān)聯(lián)數(shù)據(jù)作者合作網(wǎng)絡(luò)中具有核心作用。
3.3.2 中介中心性分析
中介中心性排名較高的人往往是處于結(jié)構(gòu)洞位置的人。結(jié)構(gòu)洞是社會網(wǎng)絡(luò)分析中一個重要的概念,它的意義在于處于結(jié)構(gòu)洞位置,說明他們掌握了更多的學術(shù)資源,更具有學術(shù)創(chuàng)新力;其次處于結(jié)構(gòu)洞位置對于他們迅速提高自身聲望具有重要作用[9]。本文利用Ucinet進行中介中心性分析,結(jié)果如圖4所示,從圖中可看出,李春旺的中介中心性最高,其次是范煒、劉煒、夏翠娟和張春景,表明這些作者在整個網(wǎng)絡(luò)中具有舉足輕重的地位,往往是連接多數(shù)作者的核心人物,他們對于關(guān)聯(lián)數(shù)據(jù)的研究產(chǎn)生了極為深遠的影響。
4 高頻關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)分析
打開 Netdraw 軟件,導入高頻關(guān)鍵詞共現(xiàn)矩陣,并用K-cores分析,得到基于節(jié)點在網(wǎng)絡(luò)中作用大小的圖譜(見圖5)。從圖中可以看出網(wǎng)絡(luò)中節(jié)點最大的正方形占據(jù)網(wǎng)絡(luò)核心地位,說明語義網(wǎng)、圖書館、RDF、URI、數(shù)據(jù)網(wǎng)絡(luò)等是關(guān)聯(lián)數(shù)據(jù)領(lǐng)域的核心關(guān)鍵詞,是目前該領(lǐng)域的研究熱點。在某種程度上,可以認為其他研究領(lǐng)域都是圍繞著這些核心展開的。同時利用Ucinet進行中介中心性分析(見圖6),得到的大部分也都是這些關(guān)鍵詞,更加充分說明這些關(guān)鍵詞在網(wǎng)絡(luò)中的重要地位。除此之外,在中介中心性中前十位中的本體、SKOS、SPARQL和術(shù)語服務(wù)也可說明是該領(lǐng)域的研究熱點。從關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)來看,除了核心關(guān)鍵詞以外,其它的節(jié)點聯(lián)系較為松散,說明關(guān)聯(lián)數(shù)據(jù)引入我國時間很短,發(fā)展還很不成熟,還沒有形成明顯的研究主題。
5 高頻關(guān)鍵詞共詞聚類分析
為了更加全面地了解關(guān)聯(lián)數(shù)據(jù)研究的主題結(jié)構(gòu),本文采用共詞聚類分析方法對關(guān)聯(lián)數(shù)據(jù)研究的內(nèi)部結(jié)構(gòu)進行深入分析。將高頻關(guān)鍵詞共現(xiàn)矩陣導入SPSS11.5進行層次聚類分析。得到高頻關(guān)鍵詞的聚類分析樹狀圖(見圖7)。聚類結(jié)果顯示,國內(nèi)關(guān)聯(lián)數(shù)據(jù)領(lǐng)域的研究熱點主要集中在六大主題:開放數(shù)據(jù)和關(guān)聯(lián)開放數(shù)據(jù)研究;知識組織系統(tǒng)研究;書目研究;關(guān)聯(lián)數(shù)據(jù)基本理論研究;圖書館的數(shù)字資源整合研究和關(guān)聯(lián)數(shù)據(jù)研究。
(1)開放數(shù)據(jù)和關(guān)聯(lián)開放數(shù)據(jù)研究。包括關(guān)鍵詞開放數(shù)據(jù)、信息組織、開放政府數(shù)據(jù)、關(guān)聯(lián)開放數(shù)據(jù)、用戶模型和互操作。開放數(shù)據(jù)是一種哲學理念及實踐,要求數(shù)據(jù)可以被任何人自由獲取,沒有來自版權(quán) 、專利或其它機制限制。隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,互聯(lián)網(wǎng)中日益豐富的具有異構(gòu)、無序、多元特點的海量信息資源使網(wǎng)絡(luò)信息組織面臨著巨大的挑戰(zhàn),而開放數(shù)據(jù)能與現(xiàn)代信息組織的關(guān)鍵技術(shù)關(guān)聯(lián)數(shù)據(jù)、語義網(wǎng)、云計算等相結(jié)合而成為網(wǎng)絡(luò)信息組織的有效實踐。開放數(shù)據(jù)在信息組織中的應(yīng)用朝兩個方向分別發(fā)展:公共信息服務(wù)領(lǐng)域(政府、科研組織等)的數(shù)據(jù)開放與信息透明制度方面的應(yīng)用、商業(yè)領(lǐng)域的應(yīng)用[5]。在政府公共信息服務(wù)領(lǐng)域中,美英等國先后開展了開放數(shù)據(jù)的實踐應(yīng)用。
(2)知識組織系統(tǒng)研究。包括關(guān)鍵詞中國分類主題詞表、術(shù)語服務(wù)、本體、數(shù)字圖書館、NKOS、SKOS。主要涉及詞表資源關(guān)聯(lián)化、知識組織規(guī)范研究、術(shù)語服務(wù)和知識序化等研究。2008年國家圖書館啟動的“國家圖書館知識組織標準規(guī)范”項目是國內(nèi)圖書館界首次對網(wǎng)絡(luò)環(huán)境下知識組織系統(tǒng)的設(shè)計、構(gòu)建和應(yīng)用進行全面系統(tǒng)的總結(jié)和編制[6]。
(3)書目研究。包括關(guān)鍵詞FRBR、關(guān)聯(lián)數(shù)據(jù)集、RDA、SPARAL、關(guān)聯(lián)服務(wù)和元數(shù)據(jù)。主要對書目數(shù)據(jù)關(guān)聯(lián)化、書目數(shù)據(jù)、編目規(guī)則RDA和FRBR進行了研究。關(guān)聯(lián)數(shù)據(jù)是今后書目數(shù)據(jù)獲得開放應(yīng)用的關(guān)鍵技術(shù)之一。它能夠使 RDA 編目的數(shù)據(jù)直接以機器可理解的方式、鏈接和利用。
(4)關(guān)聯(lián)數(shù)據(jù)基本理論研究。包括關(guān)鍵詞RDF、URI、D2R。研究涉及關(guān)聯(lián)數(shù)據(jù)發(fā)展背景、定義、基本原則、實現(xiàn)機制以及關(guān)聯(lián)數(shù)據(jù)在當前國內(nèi)外的應(yīng)用現(xiàn)狀等研究。
(5)圖書館的數(shù)字資源整合研究。包括關(guān)鍵詞信息聚合、本體映射、圖書館、信息技術(shù)、數(shù)據(jù)網(wǎng)絡(luò)、信息資源、知識服務(wù)和數(shù)字資源整合。對圖書館數(shù)字資源整合的研究主要集中在關(guān)聯(lián)數(shù)據(jù)在圖書館館藏信息資源聚合中的作用、應(yīng)用和基于關(guān)聯(lián)數(shù)據(jù)的館藏資源聚合模式研究。同時也有涉及圖書館、檔案館和博物館數(shù)字資源整合方面的研究。
(6)關(guān)聯(lián)數(shù)據(jù)研究。包括關(guān)鍵詞語義網(wǎng)、Dbpedia、數(shù)據(jù)、電子政務(wù)、知識組織和知識發(fā)現(xiàn)。主要圍繞關(guān)聯(lián)數(shù)據(jù)的基礎(chǔ)、技術(shù)和實現(xiàn)方式展開研究,尤其通過實例進行關(guān)聯(lián)數(shù)據(jù)的研究成為很多學者關(guān)注的熱點,并取得了豐碩的研究成果。
參考文獻:
[1]Berners-Lee T. Linked Data-Design Issues[EB/OL]. [2009-02 -18]. http: ///DesignIssues/Linked
Data. html.
[2]黃永文.關(guān)聯(lián)數(shù)據(jù)在圖書館中的應(yīng)用研究綜述[J].現(xiàn)代圖書情報技術(shù),2010,(5):1-7.
[3]劉啟元,葉鷹.文獻題錄信息挖掘技術(shù)方法及其軟件SATI的實現(xiàn)-以中外圖書情報學為例[J].信息資源管理學報,2012,(1):50-58.
[4]張利華,閆明.基于SNA的中國管理科學科研合作網(wǎng)絡(luò)分析[J].技術(shù)與創(chuàng)新管理,2010,(4):39-45.
[5]李佳佳.信息管理的新視角-開放數(shù)據(jù)[J].情報理論與實踐,2010,(10):35-39.