前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的個(gè)性化推薦主題范文,僅供參考,歡迎閱讀并收藏。
關(guān)鍵詞:個(gè)性化推薦;icon;協(xié)同過(guò)濾算法;權(quán)值;關(guān)鍵點(diǎn);
中圖分類(lèi)號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2017)03-0250-03
1 概述
隨著信息時(shí)代的不斷發(fā)展,網(wǎng)絡(luò)給人們的生活帶來(lái)了翻天覆地的變化,人們可以足不出戶(hù)就能夠在網(wǎng)絡(luò)上購(gòu)買(mǎi)到自己想要的任何商品。網(wǎng)絡(luò)的便利,使得人們的購(gòu)物方式得到了改變,同時(shí)也滋生了很多購(gòu)物平臺(tái)的產(chǎn)生。無(wú)論大型還是小型的電子商務(wù)平臺(tái),都會(huì)存在著一些弊端,信息過(guò)載問(wèn)題,就是商品的種類(lèi)太過(guò)于豐富多樣性,以至于用戶(hù)不能很快地查找到自己喜歡的商品。所以平臺(tái)開(kāi)發(fā)商們就會(huì)想盡辦法來(lái)避免這種情況,個(gè)性化推薦應(yīng)運(yùn)而生,個(gè)性化推薦就是在正確的時(shí)間把正確的商品推薦給正確的用戶(hù),來(lái)拉攏用戶(hù),防止用戶(hù)的流失,從而提升自己平臺(tái)的競(jìng)爭(zhēng)力。
1.1課題背景及研究的目的
當(dāng)今時(shí)代是信息的時(shí)代,每天人們都會(huì)被不同的海量數(shù)據(jù)所圍繞,如何從這些繁雜的數(shù)據(jù)中找到自己想要的數(shù)據(jù),是我們每個(gè)人都迫切需要的。我們都希望每個(gè)平臺(tái)系統(tǒng)都能給我們展示出契合我么自己的數(shù)據(jù),這樣我們就不需要花費(fèi)太多的精力在尋找數(shù)據(jù)上。
基于和老師同學(xué)們一起做的這個(gè)ICON項(xiàng)目(一個(gè)類(lèi)似圖片交際購(gòu)物系統(tǒng)),因?yàn)橛脩?hù)的不斷增加,所上傳的圖片也越來(lái)越多,為了滿(mǎn)足用戶(hù)查找數(shù)據(jù)的方便,就打算給系統(tǒng)添加一個(gè)個(gè)性化推薦策略。由于自己對(duì)推薦這一塊比較陌生,閱讀了多篇關(guān)于推薦系統(tǒng)的論文及報(bào)告,大多都會(huì)涉及諸多復(fù)雜的算法,就想到針對(duì)我們這個(gè)系統(tǒng)來(lái)設(shè)計(jì)一個(gè)較為簡(jiǎn)單的個(gè)性化推薦。
1.2 本文主要研究的內(nèi)容和組織架構(gòu)
1.2.1 本文主要工作
本文主要探討了一下個(gè)人設(shè)計(jì)的簡(jiǎn)單個(gè)性化推薦策略及相關(guān)工作。介紹了該推薦策略的研究背景和目的,然后又詳細(xì)地介紹了該策略算法。最后就該研究成果在ICON項(xiàng)目中的應(yīng)用效果進(jìn)行了展示,說(shuō)明了我們算法的可行性。
1.2.2 本文的組織架構(gòu)
第一章是緒論部分,介紹了個(gè)性化推薦系統(tǒng)的背景,以及研究目的。簡(jiǎn)單個(gè)性化推薦策略的由來(lái)。
第二章是算法簡(jiǎn)述部分,大概地介紹了一下算法。
第三章是算法詳解部分,在本章節(jié)中詳細(xì)介紹了算法的構(gòu)成。
第四章是指標(biāo)的權(quán)重計(jì)算部分,介紹了算法中一個(gè)比較重要的權(quán)重計(jì)算方法,并計(jì)算出了算法中各個(gè)特性的權(quán)重值。
第五章是結(jié)果分析部分,對(duì)推薦前后用戶(hù)滯留系統(tǒng)的時(shí)間和點(diǎn)擊look的數(shù)量進(jìn)行觀察比較,得出分析結(jié)果。
2 算法簡(jiǎn)述
1) 找出平臺(tái)關(guān)鍵點(diǎn);
2) 統(tǒng)計(jì)關(guān)鍵點(diǎn)數(shù)據(jù);
3) 畫(huà)出涉及關(guān)鍵點(diǎn)的表格;
4) 整理分析,推薦圖片;
5) 通過(guò)圖片推薦給用戶(hù)商品。
3 算法詳解
3.1 找出平臺(tái)關(guān)鍵點(diǎn)
用戶(hù)發(fā)表一個(gè)look(即圖片),都會(huì)給這個(gè)look選擇一個(gè)性別、季節(jié)、品牌、風(fēng)格等,其中風(fēng)格包含有正裝、暗黑、韓國(guó)風(fēng)、運(yùn)動(dòng)、嘻哈等多達(dá)20多種的不同風(fēng)格,其中肯定會(huì)有一種是你發(fā)表的look風(fēng)格。性別和風(fēng)格是主要的,從這兩個(gè)特性中我們就能看出你平時(shí)穿衣打扮,因?yàn)榘l(fā)表的每一張look都是對(duì)自己平時(shí)的一個(gè)真實(shí)寫(xiě)照。用戶(hù)發(fā)表的每一張look都是對(duì)應(yīng)自己所購(gòu)買(mǎi)的衣服,從而我們就可以從look中對(duì)應(yīng)到相應(yīng)的商品中。
拋開(kāi)性別這個(gè)普遍的共性來(lái)分析,我們可以根據(jù)用戶(hù)平時(shí)發(fā)表的look的風(fēng)格來(lái)觀察該用戶(hù)的穿衣習(xí)慣,從而得到用戶(hù)可能喜歡的商品類(lèi)型,繼而向用戶(hù)推薦他們想要看到或者想要購(gòu)買(mǎi)的衣服。
在icon的系統(tǒng)中,用戶(hù)看見(jiàn)自己喜歡的look時(shí),可以對(duì)其進(jìn)行點(diǎn)贊或者收藏。用戶(hù)也可以關(guān)注其他的用戶(hù),成為他的粉絲,隨時(shí)關(guān)注他(她)發(fā)表的look,你們之間也可以相互交流探討穿衣打扮的技巧。
在認(rèn)真觀察項(xiàng)目后,可以看出用戶(hù)發(fā)表look的風(fēng)格就是所謂的關(guān)鍵點(diǎn)。
3.2 y計(jì)關(guān)鍵點(diǎn)數(shù)據(jù)
用戶(hù)發(fā)表的look,關(guān)注的look,點(diǎn)贊的look,以及收藏的look我們都統(tǒng)一存到了數(shù)據(jù)庫(kù)中。平臺(tái)是用mybatis連接的數(shù)據(jù)庫(kù),所以,數(shù)據(jù)我們可以寫(xiě)sql語(yǔ)句直接獲取到,而不用去分析歷史數(shù)據(jù)或者網(wǎng)絡(luò)爬蟲(chóng)去解析用戶(hù)瀏覽行為等。
這個(gè)算法,我要求只需要能獲取到用戶(hù)偏重的前三個(gè)就行,所以常用到的mysql中的limit關(guān)鍵字,limit接受一個(gè)或兩個(gè)數(shù)字參數(shù),參數(shù)必須是一個(gè)整數(shù)常量,如果給定兩個(gè)參數(shù),第一個(gè)參數(shù)指定第一個(gè)返回記錄行的偏移量,第二個(gè)參數(shù)指定返回記錄行的最大數(shù)目。在使用limit時(shí),要先判斷查詢(xún)到的數(shù)據(jù)集的數(shù)目有多少,防止查詢(xún)的時(shí)候出錯(cuò)。
舉個(gè)例子,通過(guò)tbl_look表和tbl_user_likes表來(lái)查找id為131的用戶(hù)點(diǎn)贊的look風(fēng)格的前三個(gè)的mysql語(yǔ)句:
SELECT tul.id,tul.uid,tul.lookid,tl.style,COUNT(tl.style) AS sc FROM tbl_user_likes tul ,tbl_looks tl WHERE tul.uid=131 and tl.id=tul.lookid GROUP BY tl.style ORDER BY sc DESC LIMIT 3
3.3 畫(huà)出涉及關(guān)鍵點(diǎn)的表格
為了更形象的觀察用戶(hù)的自己的風(fēng)格以及自己和其他人的風(fēng)格,我們將查詢(xún)的數(shù)據(jù)用表格的形式展示出來(lái)。這樣就可以一目了然的通過(guò)觀察表格得出合理的結(jié)論。
3.4 整理分析,推薦內(nèi)容
分析表1,因?yàn)橛脩?hù)發(fā)表、點(diǎn)贊和收藏的數(shù)量差別可能比較大,所以我們就按照表格中展示的三項(xiàng)以及它們的權(quán)值來(lái)計(jì)算每個(gè)用戶(hù)表側(cè)重的風(fēng)格。
每個(gè)用戶(hù)的風(fēng)格評(píng)分計(jì)算如下:
[fur=i=03wiri]
[fur]表示u用戶(hù)r風(fēng)格的評(píng)分,其中[wi]表示每個(gè)i指標(biāo)的權(quán)值,會(huì)在第四章詳細(xì)介紹權(quán)值算法;[ri]表示u用戶(hù)r風(fēng)格是否存在i指標(biāo)的參數(shù),存在為1,不存在為0。
經(jīng)過(guò)計(jì)算,我們得出甲用戶(hù)和丁用戶(hù)都比較側(cè)重ABC折三種風(fēng)格,并且甲和丁也互相關(guān)注了,那么我們完全就可以認(rèn)為甲和丁用戶(hù)風(fēng)格類(lèi)似,可以看成是相似用戶(hù)。按照基于用戶(hù)的協(xié)同過(guò)濾算法來(lái)考慮的話,我們可以把E風(fēng)格的服飾推薦給丁用戶(hù),而把G風(fēng)格的服飾推薦給甲用戶(hù)。
我們還可以得出,BC風(fēng)格總是在一起,EF風(fēng)格總是在一起,我們就可以這樣認(rèn)為,喜歡B風(fēng)格服飾的人通常也會(huì)喜歡C風(fēng)格的服飾,喜歡E風(fēng)格服飾的人通常也會(huì)喜歡F風(fēng)格服飾的人,反過(guò)來(lái)也一樣。按照基于內(nèi)容的系統(tǒng)過(guò)濾算法考慮的話,我們就可以把B風(fēng)格的服飾推薦給乙用戶(hù)。
3.5 通過(guò)圖片推薦給用戶(hù)商品
整個(gè)系統(tǒng)的模式是這樣的,通過(guò)用戶(hù)的各項(xiàng)特征找到一個(gè)關(guān)鍵點(diǎn),再由該關(guān)鍵點(diǎn)給用戶(hù)推薦look,最后由推薦的look來(lái)決定用戶(hù)可能喜歡的商品(服裝)。如圖1所示:
4 指標(biāo)的權(quán)重計(jì)算
各項(xiàng)指標(biāo)的權(quán)重根據(jù)定量統(tǒng)計(jì)法算法計(jì)算得出。
定量統(tǒng)計(jì)計(jì)算權(quán)重的步驟如下:
1) 按照沒(méi)有關(guān)聯(lián)、有點(diǎn)關(guān)聯(lián)、關(guān)聯(lián)和非常關(guān)聯(lián)四個(gè)等級(jí)繪制出統(tǒng)計(jì)表格。
2) 以67%(2/3)位界限,若選擇“關(guān)聯(lián)”和“非常關(guān)聯(lián)”的比例合計(jì)小于67%,就刪除該指標(biāo),不予考慮。
3) 分別把沒(méi)有關(guān)聯(lián)賦值為1,有點(diǎn)關(guān)聯(lián)賦值為2,關(guān)聯(lián)賦值為3,非常關(guān)聯(lián)賦值為4,選擇出沒(méi)有關(guān)聯(lián)之外以上數(shù)據(jù)都進(jìn)入統(tǒng)計(jì),那么三種選項(xiàng)的權(quán)重分別為[w′1]=2/(2+3+4)=0.22;[w′2]=3/(2+3+4)=0.33;[w′3]=4/(2+3+4)=0.45。
4)指標(biāo)權(quán)重計(jì)算:
[wi=pii=13pi]
其中[pi]為指標(biāo)i的統(tǒng)計(jì)權(quán)值和:
[pi=j=13w′iaij]
其中,[aij]表示i指標(biāo)除沒(méi)有關(guān)聯(lián)外的其他關(guān)聯(lián)度的統(tǒng)計(jì)數(shù),[a11]就表示指標(biāo)1有點(diǎn)關(guān)聯(lián)的統(tǒng)計(jì)人數(shù),[a32]就表示指標(biāo)3關(guān)聯(lián)的統(tǒng)計(jì)人數(shù)。
我們對(duì)使用該系統(tǒng)的用戶(hù)進(jìn)行了一次統(tǒng)計(jì),隨機(jī)抽出統(tǒng)計(jì)過(guò)的100名用戶(hù)來(lái)計(jì)算權(quán)值。
首先畫(huà)出統(tǒng)計(jì)的表格如下:
分別代表用戶(hù)發(fā)表、點(diǎn)贊和收藏look的風(fēng)格權(quán)值。通過(guò)計(jì)算得到的數(shù)值可明顯看出,用戶(hù)發(fā)表和收藏的look風(fēng)格所占比重比較大,點(diǎn)贊風(fēng)格所占比重較小。所以,發(fā)表和收藏風(fēng)格的特性能較大反映出用戶(hù)的風(fēng)格類(lèi)型,而點(diǎn)贊風(fēng)格的特性稍次于發(fā)表和收藏特性。
5 結(jié)果分析
項(xiàng)目中我們引入了cnzz流量統(tǒng)計(jì)、網(wǎng)絡(luò)分析數(shù)據(jù)專(zhuān)家,可以通過(guò)cnzz來(lái)獲取到用戶(hù)滯留平臺(tái)的時(shí)間和點(diǎn)擊各個(gè)look的數(shù)量。
為了驗(yàn)證該個(gè)性化推薦策略的可行性,我們隨機(jī)抽取了四名用戶(hù),利用cnzz獲取到在推薦系統(tǒng)應(yīng)用的前后,用戶(hù)滯留系統(tǒng)的時(shí)間(從進(jìn)入系統(tǒng)到退出系統(tǒng)的滯留時(shí)間),以及用戶(hù)點(diǎn)擊look的數(shù)量,描繪成線形圖如下:
通^這兩個(gè)柱狀圖,可以明顯的觀察到推薦策略應(yīng)用前后的效果,證明了我們所做的工作的可行性。
參考文獻(xiàn):
[1] 丁宏飛,黃戰(zhàn).個(gè)性化電子商務(wù)系統(tǒng)中用戶(hù)興趣模型的研究[D].廣州:暨南大學(xué),2008.
[2] 王國(guó)霞,劉賀平.個(gè)性化推薦系統(tǒng)綜述[J].計(jì)算機(jī)工程與應(yīng)用,2012(9).
[3] 劉瑋.電子商務(wù)系統(tǒng)中的信息推薦方法研究[J].情報(bào)科學(xué),2006(4).
[4] 米鵬,段建勇,付曉宇.面向社區(qū)用戶(hù)的推薦策略研究[D].北京:北方工業(yè)大學(xué),2016.
[5] 曾春,邢春曉,周立柱.個(gè)性化服務(wù)技術(shù)綜述[J].軟件學(xué)報(bào),2002(5).
[6] 于波,陳庚午,王愛(ài)玲,等.一種結(jié)合項(xiàng)目屬性的混合推薦算法[J].計(jì)算機(jī)技術(shù)應(yīng)用,2017(5).
如何關(guān)閉微博個(gè)性化廣告推薦 2、點(diǎn)擊右上方的【設(shè)置圖標(biāo)】進(jìn)入設(shè)置。
如何關(guān)閉微博個(gè)性化廣告推薦 3、點(diǎn)擊【隱私設(shè)置】選項(xiàng)進(jìn)入。
如何關(guān)閉微博個(gè)性化廣告推薦 4、點(diǎn)擊底端【個(gè)性化廣告推薦】的開(kāi)關(guān)按鈕。
如何關(guān)閉微博個(gè)性化廣告推薦 5、點(diǎn)擊關(guān)閉后,頁(yè)面顯示【設(shè)置成功】即可。
2、在“美團(tuán)”窗口中,點(diǎn)擊下方“我的”菜單選項(xiàng)。
3、在彈出窗口中,點(diǎn)擊右上方“設(shè)置”符號(hào)選項(xiàng)。
4、在“設(shè)置”窗口中,找到“通用”選項(xiàng)并點(diǎn)擊它。
5、在“通用”窗口中,找到“隱私管理”選項(xiàng)并點(diǎn)擊它。
6、在“隱私管理”窗口中,找到“接收個(gè)性化推薦”選項(xiàng)并點(diǎn)擊“關(guān)閉”按鈕。
7、在彈出窗口中,點(diǎn)擊“確認(rèn)關(guān)閉”按鈕選項(xiàng)。
關(guān)鍵詞:社會(huì)化標(biāo)簽;學(xué)習(xí)平臺(tái);協(xié)同過(guò)濾
中圖分類(lèi)號(hào):TP311.56 文獻(xiàn)標(biāo)志碼:B 文章編號(hào):1673-8454(2014)19-0044-04
引言
泛在學(xué)習(xí)是一種隨時(shí)隨地的、個(gè)性化的學(xué)習(xí)過(guò)程,是人們最喜歡的一種學(xué)習(xí)模式。泛在學(xué)習(xí)是現(xiàn)在信息社會(huì)最流行的一種非正式學(xué)習(xí)方式,它彌補(bǔ)了數(shù)字學(xué)習(xí)的不足和限制,也是構(gòu)建學(xué)習(xí)型社會(huì)的主要途徑之一。泛在學(xué)習(xí)環(huán)境中需要數(shù)量巨大的各類(lèi)學(xué)習(xí)資源,但由于泛在學(xué)習(xí)的隨時(shí)隨地性與個(gè)性化等特點(diǎn),學(xué)習(xí)主體對(duì)各類(lèi)資源的需求層出不窮,如果能在數(shù)量巨大的各類(lèi)學(xué)習(xí)資源中找到學(xué)習(xí)者需要的學(xué)習(xí)資源,屏蔽那些學(xué)習(xí)者不喜歡的學(xué)習(xí)資源,建立起這種學(xué)習(xí)者與學(xué)習(xí)資源的匹配機(jī)制,將大大提高學(xué)習(xí)者的學(xué)習(xí)效率。[1]不同的學(xué)習(xí)者興趣愛(ài)好不同,為不同的學(xué)習(xí)者提供自己喜歡的學(xué)習(xí)資源,讓學(xué)習(xí)資源來(lái)適應(yīng)學(xué)習(xí)者,這將是以后研究的熱點(diǎn)。
一、個(gè)性化學(xué)習(xí)的現(xiàn)狀
目前絕大多數(shù)的網(wǎng)絡(luò)學(xué)習(xí)資源平臺(tái)都可以對(duì)本平臺(tái)的資源進(jìn)行管理,可以進(jìn)行資源的分類(lèi)瀏覽和基于關(guān)鍵知識(shí)點(diǎn)的資源檢索功能,當(dāng)不同的學(xué)習(xí)者訪問(wèn)網(wǎng)絡(luò)學(xué)習(xí)資源平臺(tái),平臺(tái)為所有學(xué)習(xí)者的服務(wù)是完全一樣的,未考慮每位學(xué)習(xí)者的個(gè)性化需求,不能為學(xué)習(xí)者提供他們需要的、想要的服務(wù)和需求。 “大量資源”和個(gè)性化學(xué)習(xí)網(wǎng)絡(luò)的人的需求之間的矛盾就已經(jīng)存在,這種矛盾的存在,一方面降低了資源的有效利用、造成了資源的浪費(fèi);另一方面給學(xué)習(xí)者使用資源帶來(lái)了諸多困難。[2]
個(gè)性化推薦是目前一種重要的解決“信息過(guò)載”問(wèn)題和提供個(gè)性化服務(wù)的方案。個(gè)性化推薦是利用已有的Web用戶(hù)興趣愛(ài)好和行為信息,講web學(xué)習(xí)者和學(xué)習(xí)資源關(guān)聯(lián)起來(lái),通過(guò)Web用戶(hù)與Web用戶(hù)、Web用戶(hù)與學(xué)習(xí)資源之間相似性、相關(guān)性關(guān)系挖掘和發(fā)現(xiàn)學(xué)習(xí)者潛在感興趣的學(xué)習(xí)資源,進(jìn)而對(duì)Web學(xué)習(xí)者進(jìn)行個(gè)性化推薦服務(wù)。本質(zhì)上是對(duì)信息進(jìn)行帥選、提取,它根據(jù)Web用戶(hù)的偏好、興趣等,對(duì)其提供具有個(gè)性化特征的信息產(chǎn)品推薦。
二、推薦策略的組合使用
1.社會(huì)化標(biāo)簽的引入
社會(huì)化標(biāo)簽是近幾年新使用的一種標(biāo)注網(wǎng)絡(luò)資源的工具,其思想是根據(jù)用戶(hù)的訪問(wèn)內(nèi)容來(lái)判斷用戶(hù)的行為和需求,和基于內(nèi)容的推薦很類(lèi)似?;趦?nèi)容的推薦技術(shù)是以資源信息為研究對(duì)象,利用信息檢索技術(shù)來(lái)分析項(xiàng)目的內(nèi)容,通常應(yīng)用鄰居函數(shù)和分類(lèi)技術(shù)來(lái)分析和聚類(lèi)項(xiàng)目的文本內(nèi)容,并基于項(xiàng)目特征與用戶(hù)檔案產(chǎn)生推薦。[3]通過(guò)使用社會(huì)化標(biāo)簽,資源信息變得更加準(zhǔn)確和明白,進(jìn)而給資源信息定義了一種新的社會(huì)屬性。
標(biāo)簽由用戶(hù)定義,反應(yīng)了用戶(hù)的興趣偏好,我們可以通過(guò)分析用戶(hù)標(biāo)簽來(lái)判斷出用戶(hù)的興趣愛(ài)好。同時(shí),標(biāo)簽表達(dá)了與資源之間的語(yǔ)義關(guān)系,可以用來(lái)分析資源的潛在屬性。我們可以根據(jù)標(biāo)簽建立相似資源集,為目標(biāo)用戶(hù)找到感興趣的學(xué)習(xí)資源,同時(shí)社會(huì)化標(biāo)簽還提供了解決冷啟動(dòng)問(wèn)題的方法。
因?yàn)闃?biāo)簽可以由用戶(hù)自己定義,會(huì)遇到同義詞標(biāo)簽的問(wèn)題,解決方法為:通過(guò)窮舉的方式查詢(xún)同義詞庫(kù),對(duì)同義詞標(biāo)簽進(jìn)行歸一。
2.協(xié)同過(guò)濾算法的改進(jìn)
(1)通過(guò)社會(huì)化標(biāo)簽計(jì)算資源之間的相似度
對(duì)于新增的學(xué)習(xí)者,由于學(xué)習(xí)者對(duì)資源的評(píng)分很少,不能進(jìn)行很好的協(xié)同過(guò)濾的推薦,這就是冷啟動(dòng)問(wèn)題。這里我們根據(jù)用戶(hù)注冊(cè)時(shí)填寫(xiě)的興趣標(biāo)簽,向?qū)W習(xí)者推送學(xué)習(xí)者所感興趣標(biāo)簽相似度最大的資源。
對(duì)于評(píng)分?jǐn)?shù)據(jù)稀疏的問(wèn)題,我們通過(guò)社會(huì)化標(biāo)簽計(jì)算資源之間的相似度,通過(guò)資源間的相似度來(lái)對(duì)評(píng)分矩陣進(jìn)行進(jìn)一步的填充。其流程如圖1所示。
1)計(jì)算資源之間的相似度。這里使用向量空間模型(VSM)對(duì)資源和社會(huì)化標(biāo)簽進(jìn)行描述,向量空間模型就是用一組關(guān)鍵詞及其權(quán)重(形如((key1,weighty1),(key2,weight2),(key3,weighty3),(keyn,weightyn)),其中n為關(guān)鍵詞維度)。這里的關(guān)鍵詞即轉(zhuǎn)換為社會(huì)化標(biāo)簽,而權(quán)重通過(guò)TF-IDF算法計(jì)算得來(lái)(具體計(jì)算時(shí),對(duì)于資源――標(biāo)簽,weight的計(jì)算公式為:tag在該資源中年出現(xiàn)的次數(shù)/該資源所有的標(biāo)簽數(shù) + tag標(biāo)識(shí)過(guò)的資源數(shù)量/總的資源數(shù)量),形成(tag1,weight1), (tag2,weight2), (tag3,weight3)……(tagn,weightn)再根據(jù)標(biāo)簽和資源形成資源―標(biāo)簽矩陣表。[4]
2)通過(guò)Pearson算法計(jì)算資源之間的相似度,選取相似度最大K個(gè)資源。Pearson算法:Tij表示標(biāo)簽i和標(biāo)簽j所標(biāo)注的資源的交集,j表示標(biāo)簽j所占的平均權(quán)重,i表示標(biāo)簽i所占的平均權(quán)重。
3)根據(jù)資源的相似度來(lái)填充學(xué)習(xí)者――資源評(píng)分矩陣,解決數(shù)據(jù)稀疏問(wèn)題。相似資源的集合Su,Rn,表示資源n的評(píng)分,sim(u,n)表示資源u、n的相似度,u表示資源u所得到的平均評(píng)分。
(2)通過(guò)協(xié)同過(guò)濾算法得到最相似的Top-N個(gè)學(xué)習(xí)者
協(xié)同過(guò)濾算法是根據(jù)學(xué)習(xí)者和資源的評(píng)分矩陣,計(jì)算出學(xué)習(xí)者之間的相似度,來(lái)推算出那些學(xué)習(xí)者沒(méi)有進(jìn)行評(píng)分的資源的評(píng)分,并且系統(tǒng)綜合學(xué)習(xí)者的興趣愛(ài)好,給學(xué)習(xí)者推送他們可能會(huì)評(píng)分高的資源[10]?;趨f(xié)同過(guò)濾的個(gè)性化推薦具體流程:
1)得到m個(gè)用戶(hù)對(duì)n個(gè)資源的評(píng)分矩陣。
2)通過(guò)Pearson算法計(jì)算用戶(hù)的相似度,選取相似度最大的前k個(gè)用戶(hù)。
Pearson算法:Iij表示用戶(hù)i評(píng)過(guò)分的項(xiàng)目和j評(píng)過(guò)分的項(xiàng)目的交集,j表示用戶(hù)j評(píng)分的平均分。
3)根據(jù)用戶(hù)的相似度得到用戶(hù)對(duì)其他的沒(méi)有評(píng)過(guò)分的項(xiàng)目的評(píng)分,產(chǎn)生推薦。相似用戶(hù)的集合Su,Rn,j表示用戶(hù)n對(duì)項(xiàng)目i的評(píng)分,sim(u,n)表示用戶(hù)u、n的相似度,u表示用戶(hù)u對(duì)項(xiàng)目的平均評(píng)分。
三、學(xué)習(xí)平臺(tái)的架構(gòu)
本學(xué)習(xí)平臺(tái)設(shè)計(jì)主要分為三部分:學(xué)習(xí)者管理模塊、資源管理模塊、個(gè)性化推薦模塊。其總體架構(gòu)如圖2所示。
學(xué)習(xí)資源建設(shè)主要通過(guò)兩種方式:服務(wù)器中存放的大部分的學(xué)習(xí)資源、學(xué)習(xí)者自己上傳自己感興趣的資源。學(xué)習(xí)者模塊主要是記錄學(xué)習(xí)者的學(xué)習(xí)情況,分析學(xué)習(xí)者的興趣愛(ài)好。學(xué)習(xí)者和資源之間有一個(gè)資源描述文件,該文件記錄了資源本身的內(nèi)容特征、學(xué)習(xí)者訪問(wèn)的次數(shù)、訪問(wèn)的時(shí)間和各種行為,形成一種學(xué)習(xí)者和資源之間的關(guān)系表。
個(gè)性化推薦模塊是平臺(tái)的主要功能模塊。該模塊中最主要的是推薦算法,推薦算法的使用直接會(huì)影響到本系統(tǒng)的準(zhǔn)確性。該平臺(tái)采組合使用了多種推薦算法,引入了社會(huì)化標(biāo)簽,并且對(duì)協(xié)同過(guò)濾算法做了一定的改進(jìn)。
四、學(xué)習(xí)者模型和資源模型的具體構(gòu)建
1.學(xué)習(xí)者模型
對(duì)學(xué)習(xí)者的學(xué)習(xí)興趣抽取,并對(duì)興趣愛(ài)好進(jìn)行量化,建立學(xué)習(xí)者模型,并且不斷地更新用戶(hù)的興趣變化,進(jìn)一步地完善學(xué)習(xí)者模型,凸顯出以學(xué)習(xí)者為中心的學(xué)習(xí)理念[2]。其創(chuàng)建流程如圖3所示。
(1)顯性數(shù)據(jù)的獲取
顯性數(shù)據(jù)主要包括學(xué)習(xí)者注冊(cè)時(shí)填寫(xiě)的學(xué)習(xí)者的基本學(xué)習(xí)情況和相關(guān)的興趣愛(ài)好以及學(xué)習(xí)者的直接評(píng)分和評(píng)價(jià)。學(xué)習(xí)者注冊(cè)信息主要有學(xué)習(xí)者的教育層次、正在學(xué)習(xí)的課程資源、使用的資源標(biāo)簽、喜歡觀看視頻還是文字等。其相關(guān)數(shù)據(jù)如表所示。
(2)隱性數(shù)據(jù)的獲取
學(xué)習(xí)者在平臺(tái)中學(xué)習(xí)時(shí),對(duì)學(xué)習(xí)資源就會(huì)產(chǎn)生收藏、下載、瀏覽、在頁(yè)面停留的時(shí)間、瀏覽的次數(shù)和評(píng)價(jià)等學(xué)習(xí)行為,這些學(xué)習(xí)行為就表現(xiàn)出了他的學(xué)習(xí)興趣,我們將學(xué)習(xí)者的學(xué)習(xí)動(dòng)作收集并記錄下來(lái)。根據(jù)學(xué)習(xí)者的行為的不同進(jìn)行打分,作為學(xué)習(xí)者對(duì)資源的評(píng)分。[5]例如:瀏覽一次得2分、瀏覽并且收藏了得4.5分等。
用戶(hù)特征的提取中,不同用戶(hù)的瀏覽行為反映了不同用戶(hù)的興趣愛(ài)好,而且,用戶(hù)的興趣總會(huì)隨著時(shí)間的變化,具有一定的漂移性,動(dòng)態(tài)轉(zhuǎn)移的。這樣,在用戶(hù)模型中,用戶(hù)的興趣度值也會(huì)相應(yīng)變化的;用戶(hù)對(duì)感興趣的資源也會(huì)在一段時(shí)間內(nèi)是高頻點(diǎn)擊瀏覽的,時(shí)間也是會(huì)越長(zhǎng)的,那么,用戶(hù)就會(huì)對(duì)其相應(yīng)感興趣的資源的興趣度值也會(huì)提高。[6]
2.學(xué)習(xí)資源模型
學(xué)習(xí)資源是學(xué)習(xí)者學(xué)習(xí)、交流、互動(dòng)的根本和媒介,建立符合學(xué)習(xí)者的學(xué)習(xí)資源模型同樣重要,目前大多數(shù)學(xué)習(xí)資源的建立都是根據(jù)學(xué)習(xí)者的學(xué)習(xí)需求建立的,但是學(xué)習(xí)資源之間的聯(lián)系很松散,學(xué)習(xí)資源都是在雜亂無(wú)序的生長(zhǎng),所以我們對(duì)學(xué)習(xí)資源進(jìn)行統(tǒng)一的管理和歸類(lèi)。[7]
學(xué)習(xí)資源分為學(xué)習(xí)主題、學(xué)習(xí)文檔、學(xué)習(xí)序列,每個(gè)資源都必須要用兩個(gè)以上的標(biāo)簽進(jìn)行標(biāo)注,這樣每個(gè)學(xué)習(xí)資源都用標(biāo)簽來(lái)代替,標(biāo)簽的引入有助于對(duì)資源內(nèi)容進(jìn)行分類(lèi),實(shí)現(xiàn)資源的統(tǒng)一管理和高度共享。
五、展望
1.推薦系統(tǒng)實(shí)時(shí)性的提高
推薦系統(tǒng)都需要學(xué)習(xí)者的反饋,所以會(huì)產(chǎn)生一個(gè)冷啟動(dòng)的問(wèn)題,一個(gè)新的資源很難很快地推薦給學(xué)習(xí)者。如果系統(tǒng)可以及時(shí)地向?qū)W習(xí)者推薦新的學(xué)習(xí)資源,推薦的質(zhì)量就要受到很大的影響,如何保證這兩個(gè)的協(xié)調(diào)需要進(jìn)一步的研究。
2.深化學(xué)習(xí)資源特征的描述
可以把學(xué)習(xí)資源先根據(jù)某些標(biāo)準(zhǔn)進(jìn)行分類(lèi),并且和學(xué)習(xí)者的教育級(jí)別相結(jié)合,在大的方向上向?qū)W習(xí)者推薦。隨著信息時(shí)代的發(fā)展,信息量的擴(kuò)大,數(shù)據(jù)挖掘技術(shù)的發(fā)展,我們可以將協(xié)同過(guò)濾算法和數(shù)據(jù)挖掘相結(jié)合,向?qū)W習(xí)者更準(zhǔn)確地推薦學(xué)習(xí)資源。同時(shí)加大對(duì)新的資源的引入和分類(lèi),將信息更及時(shí)地推向給學(xué)習(xí)者。
參考文獻(xiàn):
[1]楊麗娜,肖克曦,劉淑霞.面向泛在學(xué)習(xí)環(huán)境的個(gè)性化資源服務(wù)框架[J].中國(guó)電化教育,2012(7):84-88.
[2]楊麗娜,顏志軍,孟昭寬.基于個(gè)性化推薦思想的虛擬社區(qū)學(xué)習(xí)共同體動(dòng)態(tài)構(gòu)建[J].現(xiàn)代教育技術(shù),2012(1):88-92.
[3]王永固.基于協(xié)同過(guò)濾技術(shù)的學(xué)習(xí)資源個(gè)性化推薦研究[J].遠(yuǎn)程教育雜志,2011(3): 66-71.
[4]李高敏.基于協(xié)同過(guò)濾的教學(xué)資源個(gè)性化推薦技術(shù)的研究及應(yīng)用[D].北京交通大學(xué),2011:58.
[5]程成.基于社會(huì)化標(biāo)簽和混合模式的教學(xué)資源個(gè)性化推薦系統(tǒng)的設(shè)計(jì)[D].北京交通大學(xué),2012:66.
關(guān)鍵詞:推薦系統(tǒng);Mahout;單機(jī)內(nèi)存算法;組件
中圖分類(lèi)號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)25-0171-02
隨著信息技術(shù)和互聯(lián)網(wǎng)的發(fā)展,人們逐漸從信息匱乏的時(shí)代進(jìn)入了信息過(guò)載的時(shí)代。推薦系統(tǒng)的出現(xiàn)可以幫助用戶(hù)發(fā)現(xiàn)對(duì)自己有價(jià)值的信息,同時(shí)能夠讓信息展現(xiàn)在對(duì)它感興趣的用戶(hù)面前。個(gè)性化推薦系統(tǒng)依賴(lài)于用戶(hù)的行為數(shù)據(jù),目前被廣泛地應(yīng)用在包括電子商務(wù)、社交網(wǎng)絡(luò)、電影和視頻、音樂(lè)、個(gè)性化郵件和廣告、基于位置的服務(wù)、閱讀等領(lǐng)域中,從而提高相關(guān)網(wǎng)站的點(diǎn)擊率和轉(zhuǎn)化率。Mahout是來(lái)自Apache的、開(kāi)源的機(jī)器學(xué)習(xí)軟件庫(kù),主要提供了機(jī)器學(xué)習(xí)領(lǐng)域的推薦引擎(協(xié)同過(guò)濾)、聚類(lèi)和分類(lèi)算法的實(shí)現(xiàn),為推薦系統(tǒng)的應(yīng)用和研究提供了支持。
本文通過(guò)對(duì)Mahout中的推薦算法進(jìn)行研究,使用一個(gè)示例對(duì)推薦算法進(jìn)行評(píng)估,從而找到一個(gè)有效的推薦程序應(yīng)用到示例中,為用戶(hù)實(shí)現(xiàn)推薦。
1 Mahout的推薦算法
基于Hadoop分布式框架的機(jī)器學(xué)習(xí)算法庫(kù)Mahout封裝了多種機(jī)器學(xué)習(xí)算法的分布式實(shí)現(xiàn),由多個(gè)組件混搭而成,各個(gè)組件的組合可以定制,從而針對(duì)特定應(yīng)用提供理想的推薦。通常包括的組件如下:數(shù)據(jù)模型由DataModel實(shí)現(xiàn);用戶(hù)間的相似性度量由UserSimilarity實(shí)現(xiàn);用戶(hù)近鄰的定義由UserNeighborhood實(shí)現(xiàn);推薦引擎由一個(gè)Reommender實(shí)現(xiàn)。從數(shù)據(jù)處理能力上,Mahout推薦算法可以分為單機(jī)內(nèi)存算法和基于Hadoop的分布式算法,本文僅討論單機(jī)內(nèi)存算法。
1.1 推薦數(shù)據(jù)的表示
推薦引擎的輸入是偏好數(shù)據(jù)(preference data),通常用(用戶(hù)ID,物品ID,偏好值)的元組集合來(lái)表示。在Mahout中使用DataModel對(duì)推薦程序的輸入數(shù)據(jù)進(jìn)行封裝,GernericDataModel是現(xiàn)有DataModel實(shí)現(xiàn)中最簡(jiǎn)單的,它通過(guò)程序在內(nèi)存中構(gòu)造數(shù)據(jù)表示形式,將偏好作為輸入,將用戶(hù)ID映射到這些用戶(hù)數(shù)據(jù)所在的PreferenceArray(一個(gè)接口,表示一個(gè)偏好的聚合)上。若用戶(hù)和物品的數(shù)據(jù)無(wú)偏好值時(shí),可以使用GenericBooleanPrefDataModel來(lái)實(shí)現(xiàn)?;谖募臄?shù)據(jù)使用FileDataModel,從文件中讀取數(shù)據(jù),將所得的偏好數(shù)據(jù)存儲(chǔ)到內(nèi)存,即GernericDataModel中?;跀?shù)據(jù)庫(kù)的數(shù)據(jù)用JDBCDataModel實(shí)現(xiàn),若使用MySQL數(shù)據(jù)庫(kù),可以使用其子類(lèi)MySQLJDBCDataModel。
1.2 相似性度量
基于用戶(hù)的推薦程序和基于物品的推薦程序都依賴(lài)于UserSimilarity這個(gè)組件,及用戶(hù)或物品之間的相似性,缺乏對(duì)用戶(hù)或物品的相似性定義的推薦方法是毫無(wú)意義的。相似度算法包括了歐氏距離相似度(EuclideanDistanceSimilarity)、皮爾遜相關(guān)系數(shù)相似度(PearsonCorrelationSimilarity)、曼哈頓距離相似度(CityBlockSimilarity)、對(duì)數(shù)似然相似度(LogLikehoodSimilarity)、谷本系數(shù)相似度(TanimotoCoefficientSimilarity)等
1.3 用戶(hù)近鄰
近鄰算法適用于基于用戶(hù)的協(xié)同過(guò)濾算法,選出前N個(gè)最相似的用戶(hù)構(gòu)成鄰域,作為最終推薦參考的用戶(hù)。近鄰算法分為2種:基于固定大小和基于閾值的。NearestNUserNeighborhood實(shí)現(xiàn)基于固定大小的鄰域,指定N的個(gè)數(shù),如選出前10個(gè)最相似的用戶(hù);ThresholdUserNerghborhood實(shí)現(xiàn)基于閾值的鄰域,指定比例,如選擇前10%最相似的用戶(hù)。
1.4 推薦算法
Mahout的推薦算法以Recommender作為基礎(chǔ)父類(lèi),實(shí)現(xiàn)類(lèi)有基于用戶(hù)的推薦算法、基于物品的推薦算法、基于物品的KNN的推薦算法、Slope-one推薦算法、基于奇異值分解(SVD)的推薦算法、基于聚類(lèi)(TreeCluster)的推薦算法。推薦算法對(duì)比如表1所示。
2 Mahout在推薦系統(tǒng)中的應(yīng)用
上節(jié)介紹了Mahout提供的推薦算法,接下來(lái)講述如何在數(shù)據(jù)集上使用Mahout開(kāi)發(fā)推薦系統(tǒng)。首先分析樣本數(shù)據(jù),對(duì)數(shù)據(jù)做預(yù)處理,然后選取一個(gè)方法,收集數(shù)據(jù)、評(píng)估結(jié)果,多次重復(fù)這個(gè)過(guò)程,找到最優(yōu)的推薦算法創(chuàng)建一個(gè)推薦引擎。
本示例數(shù)據(jù)來(lái)自捷克的一個(gè)約會(huì)網(wǎng)站(http://libimseti.cz)。該網(wǎng)站的用戶(hù)可以對(duì)其他用戶(hù)的檔案進(jìn)行評(píng)分,分值從1到10不等,分值1代表“喜歡”,分值10代表“不喜歡”。
2.1 數(shù)據(jù)的輸入
示例數(shù)據(jù)集有17359346份評(píng)分,存儲(chǔ)為ratings.dat文件,是一個(gè)簡(jiǎn)單地以逗號(hào)分界的文件,包含用戶(hù)ID、檔案ID和評(píng)分,檔案是指其他用戶(hù)的檔案。每行代表一個(gè)用戶(hù)對(duì)另一個(gè)用戶(hù)檔案的一次評(píng)分,如:1,133,8,表示用戶(hù)ID為“1”的用戶(hù)對(duì)檔案ID為“133”的評(píng)分值為8。輸入數(shù)據(jù)的格式直接可以用于Mahout的FileDataModel。即用戶(hù)和檔案是數(shù)字,文件按字段依次以逗號(hào)分隔:用戶(hù)ID,物品ID,偏好值。
2.2 尋找一個(gè)有效的推薦程序
為了創(chuàng)建一個(gè)推薦引擎來(lái)處理示例數(shù)據(jù),需要從Mahout中挑選一個(gè)推薦程序。通過(guò)在基于用戶(hù)的推薦程序和基于物品的推薦程序下選擇幾種不同的相似性度量和鄰域定義進(jìn)行嘗試性測(cè)試,測(cè)試結(jié)果如表2、表3所示。
以上的結(jié)果較為理想。這些推薦程序估計(jì)的用戶(hù)偏好平均偏差在1.12~1.56之間,而取值范圍為1~10。最佳的方案是選擇基于歐氏距離相似性度量和2個(gè)最近鄰域的基于用戶(hù)的推薦程序,其評(píng)分估值為1.12。
從結(jié)果看出,平均誤差,即估計(jì)值和實(shí)際值的平均差值翻了大概2倍,具體值超過(guò)了2,顯然基于物品的推薦方法相較于基于用戶(hù)的推薦方法效果不佳。
Slope-one推薦程序在數(shù)據(jù)模型中的大多數(shù)物品對(duì)之間求得一個(gè)差值。示例數(shù)據(jù)集中有168791個(gè)物品(檔案),意味著潛在存儲(chǔ)了280億個(gè)差值,它太龐大因而無(wú)法存入內(nèi)存??梢钥紤]在數(shù)據(jù)庫(kù)中存儲(chǔ)這些差值,但會(huì)極大地降低性能。對(duì)于示例數(shù)據(jù)集,Slope-one推薦程序也并非最佳選擇。
讀者還可以嘗試更多的組合進(jìn)行測(cè)試,經(jīng)過(guò)目前所做的測(cè)試進(jìn)行對(duì)比分析,這里在Mahout中選擇最佳方案:基于用戶(hù)的推薦程序,采用歐氏距離測(cè)度且鄰域?yàn)?。
2.3 評(píng)估性能
使用Mahout的LoadEvaluator類(lèi)評(píng)估該數(shù)據(jù)集上使用的推薦程序,采用如下的標(biāo)識(shí)類(lèi)參數(shù):-server Cd64 CXmX2048 CXX:+UseParallelGC CXX:+UserParallelOldGC。在測(cè)試機(jī)上平均每次推薦會(huì)用218ms。這個(gè)程序在運(yùn)行時(shí)僅占用1GB左右的堆空間。這些測(cè)試結(jié)果是否可被接受,依賴(lài)于應(yīng)用的需求和可用的硬件資源。對(duì)于許多應(yīng)用而言,這些測(cè)試數(shù)據(jù)應(yīng)該還是符合要求的。
3 結(jié)束語(yǔ)
本文通過(guò)使用一個(gè)來(lái)自約會(huì)網(wǎng)站的數(shù)據(jù)作為示例,分析了數(shù)據(jù)的格式,使之成為適合Mahout應(yīng)用的數(shù)據(jù)輸入格式。通過(guò)嘗試性測(cè)試不同算法組件的組合進(jìn)行對(duì)比,找出最佳的推薦程序,并對(duì)推薦程序進(jìn)行性能評(píng)估,使讀者了解在Mahout選擇和創(chuàng)建一個(gè)推薦引擎的基本過(guò)程。本文僅討論了基于單機(jī)內(nèi)存的算法,基于Hadoop的分布式算法將是今后考慮的研究方向。
參考文獻(xiàn):
[1] 朱倩,錢(qián)立.基于Mahout的推薦系統(tǒng)的分析與設(shè)計(jì)[J].科技通報(bào),2013(6):35-36.
[2] 韓懷梅,李淑琴.基于Mahout的個(gè)性化推薦系統(tǒng)架構(gòu)[J].北京信息科技大學(xué)學(xué)報(bào):自然科學(xué)版,2014(4):51-54.
關(guān)鍵詞:移動(dòng)電子商務(wù);個(gè)性化推薦;基于位置的服務(wù)(LBS);用戶(hù)興趣模型
一、引言
2011年中國(guó)移動(dòng)電子商務(wù)進(jìn)入了快速發(fā)展的軌道,部分電商企業(yè)在移動(dòng)終端取得了非常不錯(cuò)的成績(jī),到2012年年末,中國(guó)移動(dòng)電子商務(wù)的發(fā)展進(jìn)入爆發(fā)期。相對(duì)于傳統(tǒng)電子商務(wù)而言,移動(dòng)電子商務(wù)具有移動(dòng)性、虛擬性、非結(jié)構(gòu)化數(shù)據(jù)、個(gè)性化和社會(huì)性等主要特征,其移動(dòng)性一般體現(xiàn)在用戶(hù)的可移動(dòng)特征及用戶(hù)需求對(duì)情境的依賴(lài)性。推薦系統(tǒng)便是在這種大的環(huán)境下產(chǎn)生的,主要是為用戶(hù)推薦其感興趣的對(duì)象。
二、個(gè)性化推薦系統(tǒng)簡(jiǎn)介
個(gè)性化推薦系統(tǒng)主要是為了向用戶(hù)自動(dòng)推薦,是從信息中找出符合用戶(hù)喜好或需求的資源,在此基礎(chǔ)上為用戶(hù)提供一種智能推薦系統(tǒng),解決互聯(lián)網(wǎng)信息過(guò)載的問(wèn)題。
(一)個(gè)性化推薦系統(tǒng)的構(gòu)成
個(gè)性化推薦系統(tǒng)可分三個(gè)部分:輸入模塊(Input Function)、推薦模塊(Recommendation Method)和輸出模塊(Output Function)。一個(gè)完整的個(gè)性化推薦系統(tǒng)包括三個(gè)部分:用戶(hù)信息的收集和分類(lèi)、建立用戶(hù)喜好的模型、使用算法為用戶(hù)推薦。
(二)電子商務(wù)活動(dòng)與個(gè)性化推薦系統(tǒng)的結(jié)合
客戶(hù)在選擇商品時(shí)往往會(huì)碰到在商家提供的浩大的信息面前無(wú)法快速找到所需產(chǎn)品信息的問(wèn)題,在此種情形下,商家通過(guò)個(gè)性化推薦可快速地為客戶(hù)提供服務(wù),找到其所需的商品,最終完成購(gòu)買(mǎi)活動(dòng)。
1.將電子商務(wù)網(wǎng)站的瀏覽者轉(zhuǎn)變?yōu)橘?gòu)買(mǎi)者
個(gè)性化推薦可快速的為客戶(hù)找到其所需的商品,可以將一個(gè)網(wǎng)頁(yè)的瀏覽者變成一個(gè)實(shí)實(shí)在在的購(gòu)買(mǎi)者??蓽p少商家客戶(hù)的流失率,減少客戶(hù)瀏覽網(wǎng)頁(yè)查詢(xún)商品目錄的時(shí)間。
2.提高電子商務(wù)網(wǎng)站的銷(xiāo)售能力
個(gè)性化推薦可減少客戶(hù)瀏覽網(wǎng)頁(yè)的時(shí)間,為客戶(hù)提供精準(zhǔn)的推薦,如果推薦的產(chǎn)品得到客戶(hù)的認(rèn)同,可大大地提高網(wǎng)站的銷(xiāo)售量,訂單數(shù)量也會(huì)增加。
(三)個(gè)性化推薦系統(tǒng)的分類(lèi)
從技術(shù)實(shí)現(xiàn)角度來(lái)看,個(gè)性化推薦系統(tǒng)主要?jiǎng)澐譃樗拇箢?lèi):一是規(guī)則基礎(chǔ)上的推薦;二是內(nèi)容基礎(chǔ)上的推薦;三是協(xié)同過(guò)濾基礎(chǔ)上的推薦;四是混合型推薦。
1.規(guī)則基礎(chǔ)上的推薦
規(guī)則基礎(chǔ)上的推薦主要是通過(guò)系統(tǒng)之前的規(guī)則進(jìn)行推薦。規(guī)則基礎(chǔ)上的推薦所用的語(yǔ)句為IF-Then,根據(jù)事先設(shè)定的規(guī)則,“IF”主要規(guī)定了所出現(xiàn)的各種情形,在各種情形基礎(chǔ)上,“Then”將輸出提供的各種推薦資源和服務(wù)。這種規(guī)則也是可變的,客戶(hù)也可以制定規(guī)則。規(guī)則基礎(chǔ)上的推薦相對(duì)比較簡(jiǎn)單,客戶(hù)理解起來(lái)比較容易。
2.內(nèi)容基礎(chǔ)上的推薦
內(nèi)容基礎(chǔ)上的推薦主要是基于用戶(hù)之前喜歡的產(chǎn)品,通過(guò)分析之前所喜好的產(chǎn)品特征,通過(guò)相似度計(jì)算和其他技術(shù),最終為客戶(hù)提供與其偏好相似的新產(chǎn)品系列。
3.協(xié)同過(guò)濾推薦
協(xié)同過(guò)濾推薦是一種綜合推薦,結(jié)合客戶(hù)之前的購(gòu)買(mǎi)活動(dòng)特征與新晉的目標(biāo)客戶(hù)之間的相似度進(jìn)行比較,為新客戶(hù)進(jìn)行推薦。
4.混合型推薦
和如上兩種推薦不同,混合型推薦不涉及比較用戶(hù)模型和信息的相似度,而主要是利用用戶(hù)對(duì)于各個(gè)資源的評(píng)分或評(píng)價(jià)來(lái)發(fā)掘各個(gè)用戶(hù)之前的相似點(diǎn),應(yīng)用這些相似點(diǎn)為新客戶(hù)提供更加精確的推薦?;旌闲屯扑]成立的前提是具有相似點(diǎn)的客戶(hù)對(duì)于一種資源的評(píng)價(jià)一致,那么其對(duì)另外一種資源的評(píng)價(jià)也將是一致的。這樣我們便可將不同興趣的用戶(hù)進(jìn)行劃分分類(lèi),為同一類(lèi)的客戶(hù)推薦相似的產(chǎn)品。
三、移動(dòng)客戶(hù)端與個(gè)性化的結(jié)合
使用移動(dòng)客戶(hù)端的用戶(hù),其興趣和需求并不是固定不變的,而是隨著時(shí)間和用戶(hù)所處的情景而變化。例如,用戶(hù)在旅行時(shí)往往會(huì)關(guān)注天氣、旅館和交通工具信息;在休假時(shí)一般會(huì)關(guān)注娛樂(lè)信息和促銷(xiāo)信息。這些都極大地增加了預(yù)測(cè)用戶(hù)行為和分析用戶(hù)偏好的難度。
(一)移動(dòng)電子商務(wù)環(huán)境下個(gè)性化推薦的特點(diǎn)
隨著3G技術(shù)的發(fā)展及移動(dòng)客戶(hù)端的開(kāi)發(fā)應(yīng)用,用戶(hù)可在移動(dòng)環(huán)境下進(jìn)行辦公或購(gòu)物。相比傳統(tǒng)電子商務(wù)環(huán)境下的推薦,移動(dòng)商務(wù)環(huán)境下的個(gè)性化推薦擁有新的特點(diǎn),主要表現(xiàn)在推薦范圍和推薦時(shí)間方面。從推薦范圍來(lái)看,移動(dòng)環(huán)境下的推薦并非是固定的,面對(duì)的用戶(hù)群也不是有限的;移動(dòng)推薦系統(tǒng)所面對(duì)的是“移動(dòng)”的用戶(hù),而不是傳統(tǒng)的位置相對(duì)不變的傳統(tǒng)的臺(tái)式機(jī)訪問(wèn),移動(dòng)環(huán)境下更多的要考慮用戶(hù)的空間位置變化,要隨時(shí)將用戶(hù)位置納入到推薦序列中。
(二)基于LBS的個(gè)性化推薦系統(tǒng)
1.LBS簡(jiǎn)介
LBS(Location Based system)是在互聯(lián)網(wǎng)快速發(fā)展的基礎(chǔ)上新興的位置服務(wù)。伴隨著手機(jī)終端的迅速發(fā)展,使用LBS的用戶(hù)總數(shù)也在逐年增加。LBS也被稱(chēng)為位置簽到服務(wù),其定義為采用GPS基站等相關(guān)定位技術(shù),結(jié)合GIS,以短信、彩信及客戶(hù)端軟件為用戶(hù)提供的基于地理位置的信息服務(wù)。下圖主要展示了我國(guó)提供LBS企業(yè)的市場(chǎng)情況。
特別對(duì)于旅行者而言,LBS可實(shí)時(shí)了解到旅行者的空間位置信息,針對(duì)移動(dòng)變化的位置也可以提供準(zhǔn)確的推薦。
2.LBS的特征及其對(duì)個(gè)性化推薦的要求
(1)LBS的特征
LBS的突出特征體現(xiàn)在位置敏感、突發(fā)性和即時(shí)訪問(wèn)三個(gè)方面。在LBS環(huán)境下,可以方便地跟蹤到用戶(hù)的地理位置信息,很容易地識(shí)別用戶(hù)的身份及對(duì)用戶(hù)的需求進(jìn)行處理。在移動(dòng)環(huán)境下,即使發(fā)生突發(fā)事件,也能及時(shí)滿(mǎn)足用戶(hù)的需要,這些都提高了用戶(hù)使用LBS的便利性。例如,用戶(hù)可及時(shí)了解天氣、酒店和所感興趣的其他信息,不會(huì)受到時(shí)間、地點(diǎn)的阻礙,同步性增強(qiáng)。
(2)LBS對(duì)個(gè)性化推薦系統(tǒng)的要求
LBS環(huán)境下的用戶(hù)處于不斷變化的情境之下,用戶(hù)的興趣可分為短期的和長(zhǎng)期的,因此必須區(qū)分出長(zhǎng)期興趣和短期興趣,對(duì)于用戶(hù)興趣的變化要進(jìn)行及時(shí)響應(yīng),最終才能為用戶(hù)做出精準(zhǔn)的個(gè)性化推薦。
四、個(gè)性化推薦系統(tǒng)與情境的結(jié)合
(一)傳統(tǒng)二維推薦系統(tǒng)
傳統(tǒng)的推薦系統(tǒng)將用戶(hù)作為一個(gè)推薦列表輸出,將用戶(hù)項(xiàng)目描述成一個(gè)函數(shù),主要包括:輸入數(shù)據(jù)、二維推薦函數(shù)、推薦輸出列表。
傳統(tǒng)推薦系統(tǒng)使用的數(shù)據(jù)一般以用戶(hù)、項(xiàng)目、評(píng)分的形式出現(xiàn)。首先收集數(shù)據(jù),之后構(gòu)建推薦函數(shù),在構(gòu)建函數(shù)過(guò)程中主要是使用函數(shù)處理用戶(hù)u及每個(gè)用戶(hù)對(duì)項(xiàng)目的評(píng)價(jià)或評(píng)分,在分析后根據(jù)用戶(hù)的項(xiàng)目評(píng)分排序最終生成推薦列表。
(二)基于情境的推薦系統(tǒng)
和傳統(tǒng)的推薦系統(tǒng)相比,融入了情境的推薦流程會(huì)發(fā)生變化,數(shù)據(jù)由U*I*R變?yōu)閁*I*C*R,該模型中引入的C為情境維度,也就是將情境加入到推薦模型中。隨著應(yīng)用情境信息階段的不同,有了在推薦系統(tǒng)中整合情境信息的三種不同的方式。
1.前置情境過(guò)濾
這種方式的推薦模型主要是將情境C納入到用于選擇或構(gòu)建相關(guān)數(shù)據(jù)之中,在處理數(shù)據(jù)之前便將情境融入模型中。前置情境過(guò)濾方法使用情境信息作為過(guò)濾條件來(lái)選擇最相關(guān)的用戶(hù)X項(xiàng)目數(shù)據(jù)來(lái)生成推薦。前置情境過(guò)濾相比較其他兩種的優(yōu)勢(shì)主要是其使用是為傳統(tǒng)推薦方法。
2.后置情境過(guò)濾
與前置情境過(guò)濾相比較而言,在后置情境過(guò)濾下,一開(kāi)始并沒(méi)有將情境信息融入進(jìn)來(lái),應(yīng)用傳統(tǒng)的推薦系統(tǒng)事先將各種數(shù)據(jù)進(jìn)行處理和評(píng)分,在此之后再將情境信息C引入到模型中,調(diào)整之前的推薦結(jié)果,主要是剔除與情境不符合的推薦列表,調(diào)整列表推薦的順序,找出最符合用戶(hù)特定情境的推薦列表。
啟發(fā)式和模型式是后置情境過(guò)濾的兩種方法,前一種方法主要是找到用戶(hù)所共有的特征然后使用這些屬性來(lái)調(diào)整推薦。對(duì)于后置情境過(guò)濾而言,其可以使用任何傳統(tǒng)推薦技術(shù)。
3.情境建模
情境建模方法直接應(yīng)用了情境所包含的內(nèi)容信息,這種方法使用的為多維推薦,其整合了情境信息、用戶(hù)數(shù)據(jù)、項(xiàng)目信息的預(yù)測(cè)模型或啟發(fā)式計(jì)算方法。
四、結(jié)論
移動(dòng)環(huán)境下的個(gè)性化推薦研究日益被業(yè)界重視。抓住了用戶(hù)興趣建模也是抓住了個(gè)性化推薦的核心,本文主要在傳統(tǒng)的推薦模型下將情境信息引入到用戶(hù)興趣模型,將情境融入到推薦矩陣中,將情境與用戶(hù)對(duì)項(xiàng)目的興趣度相結(jié)合,為移動(dòng)環(huán)境下的用戶(hù)模型構(gòu)建提供理論框架。
參考文獻(xiàn):
[1]吳麗花,劉魯.個(gè)性化推薦系統(tǒng)用戶(hù)建模技術(shù)綜述[J].情報(bào)學(xué)報(bào),2006(02).
[2]曾春,邢春曉,周立柱.個(gè)性化服務(wù)技術(shù)綜述[J].軟件學(xué)報(bào),2002(10).
[3]裴仰軍.個(gè)性化服務(wù)中用戶(hù)興趣模型的研究[D].重慶大學(xué),2005.
[4]費(fèi)洪曉,戴戈,穆等.個(gè)性化信息過(guò)濾系統(tǒng)中用戶(hù)興趣模型建立和更新[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2007(08).
隨著印本圖書(shū)資源的不斷豐富,如今的圖書(shū)館成為名副其實(shí)的“書(shū)?!薄](méi)有“羅盤(pán)”的用戶(hù)進(jìn)入圖書(shū)館非但不能遨游書(shū)海,反而迷失于書(shū)海,因此,用戶(hù)希望擁有能夠快速幫助自己找到目標(biāo)書(shū)籍的“羅盤(pán)”,降低尋找書(shū)籍的精力和時(shí)間成本,而圖書(shū)館工作者也希望能夠?yàn)橛脩?hù)提供一種高效的工具來(lái)滿(mǎn)足用戶(hù)需求,改善用戶(hù)體驗(yàn)。圖書(shū)館個(gè)性化推薦系統(tǒng)正是解開(kāi)這把雙向鎖的鑰匙,為解決用戶(hù)和圖書(shū)館所面臨的信息過(guò)載問(wèn)題而提出的一種智能系統(tǒng)[1,2],成為跨越用戶(hù)與館藏資源之間信息鴻溝的橋梁。
如齊普夫省力法則所述,一個(gè)系統(tǒng)即使其效用性很高,但是其易用性不好也會(huì)使用戶(hù)的使用概率大打折扣。從目前圖書(shū)館的推薦系統(tǒng)來(lái)看,大多數(shù)是從推薦的準(zhǔn)確性及推薦算法改進(jìn)方面開(kāi)展的,注重用戶(hù)模型的研究,但忽略了用戶(hù)與信息標(biāo)志物之間的距離問(wèn)題,即在信息推送的同時(shí),讀者并不在該書(shū)籍附近,如果是非必需的書(shū)籍,讀者忽略推薦的可能性就會(huì)比較大,推薦就起不到良好的效果。而基于定位的個(gè)性化推薦加入用戶(hù)此時(shí)所處位置,將位置與用戶(hù)的興趣相結(jié)合,便能很好地為用戶(hù)提供個(gè)性化服務(wù)。本文試圖參考大眾點(diǎn)評(píng)基于位置信息服務(wù)的個(gè)性化推薦方式,結(jié)合RFID無(wú)線射頻識(shí)別技術(shù),探尋一種適合于定位圖書(shū)館用戶(hù)的方法。
2 RFID技術(shù)與圖書(shū)館個(gè)性化推薦系統(tǒng)的國(guó)內(nèi)外研究現(xiàn)狀
2.1 RFID技術(shù)的國(guó)內(nèi)外研究現(xiàn)狀
RFID是一種非接觸式的自動(dòng)識(shí)別技術(shù),主要利用無(wú)線射頻信號(hào)和空間耦合的數(shù)據(jù)傳輸原理,對(duì)物體進(jìn)行自動(dòng)識(shí)別,并讀寫(xiě)相關(guān)數(shù)據(jù),而在識(shí)別系統(tǒng)和特定目標(biāo)之間無(wú)須接觸。在圖書(shū)館中,應(yīng)用RFID系統(tǒng)可以將圖書(shū)的書(shū)名、條形碼、借閱記錄以及讀者信息等匯集在一起,并能快速識(shí)別,起到優(yōu)化借還書(shū)操作程序,提高館藏圖書(shū)清點(diǎn)速度,提高圖書(shū)整價(jià)和歸位等良好效果,此外,它具有的良好穿透能力也能改進(jìn)用戶(hù)自助體驗(yàn),省時(shí)高效,提高用戶(hù)的滿(mǎn)意度。目前,RFID技術(shù)在國(guó)內(nèi)外發(fā)展都很快,應(yīng)用范圍很廣,如圖書(shū)館、門(mén)禁系統(tǒng)、高速公路自動(dòng)收費(fèi)系統(tǒng)、停車(chē)場(chǎng)管理系統(tǒng)、食品安全溯源等。
國(guó)外圖書(shū)館應(yīng)用RFID技術(shù)開(kāi)始較早,同時(shí)發(fā)展也比較迅速。目前,在英國(guó)、美國(guó)、德國(guó)、日本及新加坡等都有較成熟的RFID系統(tǒng)。Elisha OndiekiMakori[3]指出,在發(fā)展中國(guó)家,RFID技術(shù)被當(dāng)做一種現(xiàn)代信息系統(tǒng)廣泛應(yīng)用于圖書(shū)館,提高圖書(shū)館為用戶(hù)服務(wù)的效率和質(zhì)量。Yogesh K. Dwivedi[4]以問(wèn)卷調(diào)查的方法調(diào)查了經(jīng)常使用RFID技術(shù)的181名圖書(shū)館用戶(hù),調(diào)查結(jié)果表明,系統(tǒng)質(zhì)量、用途和用戶(hù)滿(mǎn)意度是影響用戶(hù)選擇RFID的主要因素。此外,國(guó)外圖書(shū)館使用RFID技術(shù)還顯現(xiàn)出很多優(yōu)勢(shì),如提高用戶(hù)滿(mǎn)意度,提高工作效率等[5]。
國(guó)內(nèi)圖書(shū)館應(yīng)用RFID技術(shù)較晚,2006年,“射頻識(shí)別(RFID)技術(shù)與應(yīng)用”等20個(gè)重大課題,同時(shí)設(shè)立了中國(guó)國(guó)家高技術(shù)研究發(fā)展技術(shù),意味著國(guó)家正以計(jì)劃和資金啟動(dòng)RFID技術(shù)的全面應(yīng)用,圖書(shū)館成為試點(diǎn)對(duì)象,逐漸開(kāi)始了RFID技術(shù)的使用,集美大學(xué)、汕頭大學(xué)、北京石油化工學(xué)院、西安理工大學(xué)、北京理工大學(xué)等圖書(shū)館隨后使用了RFID技術(shù)[6]。余昭芬提出,RFID技術(shù)可以為智能便攜式找書(shū)器的到來(lái)奠定基礎(chǔ),實(shí)現(xiàn)與圖書(shū)館固定資產(chǎn)數(shù)字化管理的無(wú)縫對(duì)接,對(duì)圖書(shū)借閱數(shù)據(jù)的統(tǒng)計(jì)與分析,使現(xiàn)代圖書(shū)館實(shí)現(xiàn)智能化書(shū)車(chē)管理,實(shí)現(xiàn)智能化移動(dòng)書(shū)亭成為可能[7]。
2.2 高校圖書(shū)館個(gè)性化推薦系統(tǒng)的國(guó)內(nèi)外研究現(xiàn)狀
高校圖書(shū)館的個(gè)性化推薦,是指圖書(shū)館根據(jù)用戶(hù)的興趣愛(ài)好、借閱記錄、個(gè)人需求等,主動(dòng)分析用戶(hù)的興趣愛(ài)好特點(diǎn),進(jìn)而智能高效地為用戶(hù)提供一一對(duì)應(yīng)式的圖書(shū)推薦。圖書(shū)館的個(gè)性化推薦方法是主動(dòng)服務(wù)用戶(hù),使用戶(hù)滿(mǎn)意推薦結(jié)果并快速、準(zhǔn)確地定位自己所需要的書(shū)籍。
國(guó)外圖書(shū)館個(gè)性化推薦的研究始于20世紀(jì)七八十年代,當(dāng)時(shí)學(xué)者們提出“采用圖書(shū)館推送的服務(wù)來(lái)滿(mǎn)足讀者的需求”,此概念可以稱(chēng)之為最初關(guān)于圖書(shū)館個(gè)性化推薦的雛形[8]。隨著信息技術(shù)的飛速發(fā)展,美國(guó)康奈爾大學(xué)研制了MyLibrary系統(tǒng),隨后,很多大學(xué)及公共圖書(shū)館以此為標(biāo)準(zhǔn),創(chuàng)建并使用了類(lèi)似MyLibrary的系統(tǒng)和服務(wù),如My Gateway(美國(guó)華盛頓大學(xué)圖書(shū)館)、BraryDog(德國(guó)梅克倫堡州公共圖書(shū)館),My Library(美國(guó)加州工藝州立大學(xué)圖書(shū)館),My Library@UT(美國(guó)西南得克薩斯醫(yī)學(xué)中心圖書(shū)館),my.library(加拿大多倫多大學(xué)圖書(shū)館),MyLibrary(新西蘭克萊斯特徹奇教育學(xué)院)以及My UCLA(美國(guó)加利福尼亞大學(xué)洛杉磯分院)[9]。
在國(guó)內(nèi)也有不少學(xué)者對(duì)圖書(shū)館的個(gè)性化推薦展開(kāi)了相關(guān)研究,孫雨生和董慧針對(duì)當(dāng)前數(shù)字圖書(shū)館個(gè)性化推薦過(guò)程中出現(xiàn)的問(wèn)題,分析了互聯(lián)網(wǎng)、語(yǔ)義網(wǎng)、網(wǎng)格技術(shù)在數(shù)字圖書(shū)館個(gè)性化推薦領(lǐng)域的應(yīng)用局限性,提出基于語(yǔ)義網(wǎng)格的數(shù)字圖書(shū)館個(gè)性化推薦體系結(jié)構(gòu)與總體框架[10]。聶飛霞對(duì)數(shù)據(jù)挖掘的關(guān)聯(lián)規(guī)則與聚類(lèi)分析技術(shù)進(jìn)行了系統(tǒng)研究,并將其應(yīng)用到高校圖書(shū)館數(shù)據(jù)挖掘工作中,對(duì)讀者的閱讀興趣以及圖書(shū)的利用率進(jìn)行分析,最終設(shè)計(jì)了一個(gè)適合西北大學(xué)圖書(shū)館的個(gè)性化推薦服務(wù)系統(tǒng)[11]。此外,還有很多學(xué)者致力于探討適合高校圖書(shū)館個(gè)性化服務(wù)的推薦算法、推薦模型和推薦系統(tǒng)。
3 利用RFID技術(shù)實(shí)現(xiàn)圖書(shū)館個(gè)性化推薦服務(wù)探討
伴隨著移動(dòng)網(wǎng)絡(luò)及智能手機(jī)的普及,信息環(huán)境發(fā)生了巨大的變化,引發(fā)了由靜態(tài)信息服務(wù)向動(dòng)態(tài)信息服務(wù)的轉(zhuǎn)變,帶來(lái)數(shù)字化信息服務(wù)的全面升級(jí)[12-14]。著眼于圖書(shū)館領(lǐng)域,移動(dòng)信息環(huán)境的變革將催生出有別于傳統(tǒng)圖書(shū)館信息服務(wù)的新方式。
3.1 普適環(huán)境給圖書(shū)館個(gè)性化推薦服務(wù)帶來(lái)的變革
在移動(dòng)終端設(shè)備、移動(dòng)通信網(wǎng)絡(luò)飛速發(fā)展及用戶(hù)信息需求個(gè)性化的影響下,普適環(huán)境悄然興起,由此所產(chǎn)生的普適服務(wù)也逐漸呈現(xiàn)在用戶(hù)面前。普適服務(wù)是基于Weiser于1991年提出的普適計(jì)算思想[15],在普適計(jì)算模式下,通過(guò)計(jì)算機(jī)、通信和數(shù)字媒體等多種技術(shù)的融合,將信息空間與人們生活的物理空間關(guān)聯(lián)成一個(gè)和諧的智能環(huán)境,從而提供無(wú)處不在的信息服務(wù),人們可以隨時(shí)隨地、無(wú)任何障礙地獲取這些服務(wù)。普適環(huán)境中用戶(hù)位置信息的變換性使得在普適服務(wù)中用戶(hù)的個(gè)性化特點(diǎn)逐漸凸顯。具體表現(xiàn)在:
(1)實(shí)時(shí)性推薦
在有線網(wǎng)絡(luò)時(shí)代,臺(tái)式機(jī)及筆記本電腦等設(shè)備限定了用戶(hù)的位置,使用戶(hù)在靜止的狀態(tài)下接受圖書(shū)館推薦服務(wù)。進(jìn)入普適服務(wù)時(shí)代,移動(dòng)設(shè)備的便捷性使得用戶(hù)在請(qǐng)求圖書(shū)館提供服務(wù)時(shí)常常是在不斷的“移動(dòng)”中,這種位置信息的不斷變換就要求系統(tǒng)有較強(qiáng)的快速反應(yīng)能力,能夠?qū)崟r(shí)反饋用戶(hù)的服務(wù)需求,如果用戶(hù)已經(jīng)從文學(xué)庫(kù)移動(dòng)到歷史書(shū)庫(kù)了,系統(tǒng)才將用戶(hù)在文學(xué)庫(kù)的服務(wù)要求結(jié)果反饋給用戶(hù),此時(shí)用戶(hù)的需求因?yàn)槲恢玫淖儞Q也已發(fā)生改變,延遲性的服務(wù)結(jié)果無(wú)法滿(mǎn)足普適服務(wù)的要求。
(2)云端化推薦
雖然目前智能手機(jī)已進(jìn)入八核時(shí)代,但和傳統(tǒng)的PC設(shè)備相比,移動(dòng)終端在硬件方面仍然具有較大差距,無(wú)線網(wǎng)絡(luò)信號(hào)的不穩(wěn)定性及延遲性,同樣使得移動(dòng)端設(shè)備只能作為接收設(shè)備,大部分的數(shù)據(jù)處理都需放在云端才能實(shí)現(xiàn)。
(3)開(kāi)放式推薦
圖書(shū)館目前所采用的信息推薦服務(wù)方式多為定制化服務(wù),其中RSS是圖書(shū)館最為常用的信息推薦服務(wù)方式,只有申請(qǐng)了相關(guān)服務(wù)并填寫(xiě)相關(guān)資料的用戶(hù)才能享受推薦服務(wù),沒(méi)有開(kāi)通的用戶(hù)則無(wú)法使用,而普適服務(wù)的開(kāi)放性使得每一個(gè)用戶(hù)在信息獲取方面都處于相同的地位,只要是該圖書(shū)館的用戶(hù),擁有相應(yīng)的移動(dòng)接收終端,進(jìn)入服務(wù)環(huán)境后就能夠享受圖書(shū)館提供的信息推薦服務(wù)。同樣,加入RFID電子標(biāo)簽的書(shū)籍也是整個(gè)開(kāi)放普適環(huán)境中的一份子,用戶(hù)或管理員能夠隨時(shí)隨地感知書(shū)籍的位置信息,提高找尋及管理效率,有效節(jié)約時(shí)間成本。
3.2 定位技術(shù)在圖書(shū)館個(gè)性化推薦服務(wù)中的作用
個(gè)性化推薦能夠促進(jìn)借閱轉(zhuǎn)化,改善借閱體驗(yàn),提高館藏利用率,還能完善用戶(hù)體驗(yàn)效果,增加用戶(hù)對(duì)圖書(shū)館的黏性。而定位技術(shù)能夠準(zhǔn)確定位用戶(hù)所在書(shū)庫(kù),給用戶(hù)提供當(dāng)前位置附近的書(shū)籍,往往更能貼近用戶(hù)此時(shí)的需求,達(dá)到令用戶(hù)滿(mǎn)意的效果。筆者總結(jié)出目前利用RFID定位技術(shù)在圖書(shū)館個(gè)性化推薦中的作用主要有以下三點(diǎn):
(1)實(shí)現(xiàn)書(shū)庫(kù)隔離
利用RFID進(jìn)行空間定位是一種全新的定位技術(shù),它可以有效定位用戶(hù)當(dāng)前所在位置,現(xiàn)有的個(gè)性化推薦是針對(duì)整個(gè)圖書(shū)館這一整體而言的,推薦的書(shū)籍也是分散在不同的書(shū)籍庫(kù)中,在個(gè)性化推薦中,加入定位技術(shù)可以為后續(xù)的計(jì)算提供強(qiáng)有力的支撐。此外,按照?qǐng)D書(shū)館所采取的分類(lèi)標(biāo)準(zhǔn),把整個(gè)圖書(shū)館分成不同的書(shū)庫(kù),以位置信息為尺度實(shí)現(xiàn)書(shū)庫(kù)之間的隔離,有助于后臺(tái)數(shù)據(jù)庫(kù)的整理,簡(jiǎn)化計(jì)算的流程,而且“位置―用戶(hù)―書(shū)籍”的立體化結(jié)構(gòu)可以更方便地分析用戶(hù)之間的關(guān)聯(lián)性,這樣就可以為推薦提供更加有針對(duì)性的參考。
(2)實(shí)現(xiàn)數(shù)據(jù)降維,減小運(yùn)算負(fù)荷
傳統(tǒng)的推薦方式往往是以整個(gè)圖書(shū)館的書(shū)籍為基礎(chǔ)進(jìn)行計(jì)算,當(dāng)有新的用戶(hù)出現(xiàn)時(shí),為了尋找相似性用戶(hù),保證推薦的準(zhǔn)確性,往往需要調(diào)用所有學(xué)生的數(shù)據(jù)記錄,因此,運(yùn)算負(fù)荷比較大。而利用RFID技術(shù)進(jìn)行個(gè)性化推薦,在個(gè)性化推薦中加入位置因素,可以通過(guò)尋找用戶(hù)所在位置,然后調(diào)用用戶(hù)當(dāng)前所在書(shū)庫(kù)中的數(shù)據(jù),而不需要調(diào)用整個(gè)圖書(shū)館的數(shù)據(jù),并且當(dāng)出現(xiàn)新的需求變更時(shí),只需在本書(shū)庫(kù)內(nèi)進(jìn)行興趣偏好的更新,就可以大大降低運(yùn)算維度,從而降低計(jì)算機(jī)的運(yùn)算負(fù)荷,提高運(yùn)算的速度。
(3)提高推薦的實(shí)時(shí)性和針對(duì)性
用戶(hù)在尋找書(shū)籍時(shí),一旦有目的地來(lái)到某個(gè)書(shū)庫(kù),就表示用戶(hù)此時(shí)的需求是該書(shū)庫(kù)中的書(shū)籍,而利用RFID技術(shù)進(jìn)行個(gè)性化推薦,在個(gè)性化推薦系統(tǒng)中加入定位技術(shù),可以快速地定位用戶(hù)當(dāng)前所在位置,根據(jù)用戶(hù)的位置,將計(jì)算得出的書(shū)籍推薦給用戶(hù),不但具有實(shí)時(shí)性,即用戶(hù)在圖書(shū)館的某一個(gè)書(shū)庫(kù)時(shí)只給用戶(hù)推薦該書(shū)庫(kù)中的書(shū)籍,不需要很長(zhǎng)的時(shí)間間隔,而且具有很好的針對(duì)性,推薦的書(shū)籍正好是用戶(hù)所在位置附近的書(shū)籍,同時(shí)提高了借閱率,促進(jìn)了圖書(shū)的流通。
關(guān)鍵詞:搜索引擎;關(guān)鍵詞推薦;個(gè)性化;專(zhuān)利分析
引言
隨著互聯(lián)網(wǎng)的普及,搜索引擎已經(jīng)成為人們獲取信息的主要手段之一。搜索引擎采用的主要交互方式為用戶(hù)自主輸入關(guān)鍵詞,檢索系統(tǒng)根據(jù)輸入的關(guān)鍵詞提供檢索結(jié)果。然而,由于用戶(hù)輸入的關(guān)鍵詞通常較短,且可能存在歧義、意圖模糊等情況,使其不能精確地表達(dá)其搜索意圖。為了幫助用戶(hù)更好地構(gòu)造關(guān)鍵詞,通常搜索引擎會(huì)使用個(gè)性化關(guān)鍵詞推薦技術(shù)。其通過(guò)分析文檔結(jié)構(gòu)、用戶(hù)瀏覽行為及用戶(hù)對(duì)文檔的評(píng)價(jià)等信息,建立用戶(hù)的興趣模型,推薦出用戶(hù)實(shí)際所需的關(guān)鍵詞,提高搜索準(zhǔn)確性,改善用戶(hù)智能、便捷的搜索體驗(yàn)。
1 個(gè)性化關(guān)鍵詞推薦技術(shù)概述
早在上世紀(jì)90年代,學(xué)者就開(kāi)展了一些關(guān)鍵詞推薦相關(guān)研究,如今已成為搜索引擎的必備技術(shù)之一。個(gè)性化關(guān)鍵詞推薦根據(jù)所依賴(lài)的數(shù)據(jù)源不同大體可分為三類(lèi):基于文檔詞典、基于搜索日志和其他相關(guān)技術(shù),如圖1所示。
(1)基于文檔詞典的關(guān)鍵詞推薦技術(shù)是以當(dāng)前關(guān)鍵詞返回的文檔內(nèi)容為對(duì)象,對(duì)文檔進(jìn)行概括來(lái)提取關(guān)鍵詞,并將關(guān)鍵詞按類(lèi)別進(jìn)行聚類(lèi),最后將關(guān)鍵詞反饋給用戶(hù)。該技術(shù)不考慮用戶(hù)的歷史記錄,根據(jù)文檔內(nèi)容之間的相似度來(lái)提取用戶(hù)興趣,并基于各種詞庫(kù)(如分類(lèi)詞庫(kù)、同義詞庫(kù)、關(guān)聯(lián)詞庫(kù)、外語(yǔ)詞庫(kù)、糾錯(cuò)詞庫(kù)和分詞詞庫(kù)等)來(lái)推薦關(guān)鍵詞。
(2)基于用戶(hù)搜索日志的關(guān)鍵詞推薦技術(shù)是從用戶(hù)角度出發(fā),以用戶(hù)搜索日志中的歷史記錄作為對(duì)象,采用聚類(lèi)技術(shù)計(jì)算關(guān)鍵詞之間的相似度,并返回相關(guān)度較高的關(guān)鍵詞。該技術(shù)通常會(huì)從搜索日志中分析用戶(hù)操作行為,提取用戶(hù)標(biāo)識(shí)和群體特征。
(3)對(duì)于個(gè)性化關(guān)鍵詞推薦中的其他相關(guān)技術(shù),其主要包含了能夠使用戶(hù)更加便捷地使用搜索引擎所采用的一些其它技術(shù)。例如,與用戶(hù)之間進(jìn)行語(yǔ)音交互、結(jié)合用戶(hù)當(dāng)前位置信息等手段來(lái)提供關(guān)鍵詞。
2 個(gè)性化關(guān)鍵詞推薦相關(guān)專(zhuān)利申請(qǐng)分析
本文在CNABS和DWPI數(shù)據(jù)庫(kù)中,通過(guò)“搜索”、“關(guān)鍵詞”、“推薦”及其中英文擴(kuò)展詞匯作為主要關(guān)鍵詞,并排除IPC分類(lèi)號(hào)為G06Q的噪聲文獻(xiàn),檢索得到的2016年5月以前公布的300余篇專(zhuān)利文獻(xiàn)作為樣本,對(duì)全球的專(zhuān)利申請(qǐng)量的趨勢(shì)、申請(qǐng)區(qū)域分布以及重要申請(qǐng)人分布進(jìn)行分析,從中得到技術(shù)發(fā)展趨勢(shì),以及各階段專(zhuān)利申請(qǐng)人所屬的國(guó)家分布和主要申請(qǐng)人分布。其中,以每個(gè)同族中最早優(yōu)先權(quán)日期視為該申請(qǐng)的申請(qǐng)日,一系列同族申請(qǐng)視為一件申請(qǐng)。
2.1 國(guó)際專(zhuān)利申請(qǐng)量趨勢(shì)分析
圖2給出了個(gè)性化關(guān)鍵詞推薦技術(shù)的全球?qū)@暾?qǐng)趨勢(shì),大致可以分為四個(gè)時(shí)期,各時(shí)期劃分以申請(qǐng)量增長(zhǎng)率的變化為標(biāo)準(zhǔn)。
2.1.1 萌芽階段(2003年之前)
搜索引擎起源于1990年,經(jīng)歷近10年的發(fā)展后,開(kāi)始向個(gè)性化趨勢(shì)邁進(jìn)。1998-2003年是個(gè)性化搜索引擎中的關(guān)鍵詞推薦技術(shù)從無(wú)到有的萌芽階段,該階段申請(qǐng)量極少。具有代表性的申請(qǐng)人是國(guó)際商業(yè)機(jī)器(IBM)公司以及皇家飛利浦(KONINK PHILIPS)電子股份有限公司。
2.1.2 平穩(wěn)增長(zhǎng)階段(2004年-2007年)
從2004年開(kāi)始,關(guān)于個(gè)性化關(guān)鍵詞推薦技術(shù)的專(zhuān)利每年的申請(qǐng)量明顯比2003年之前的申請(qǐng)量多,申請(qǐng)量和申請(qǐng)人的發(fā)展總體趨勢(shì)趨于平穩(wěn)增長(zhǎng)。在此階段,申請(qǐng)量前三位的國(guó)別分布如圖3所示。美國(guó)申請(qǐng)的專(zhuān)利量占67%,其中,前四位的申請(qǐng)人分別是微軟公司、谷歌公司、雅虎公司、IBM公司。另外,韓國(guó)和中國(guó)分別占25%和5%,這也從側(cè)面說(shuō)明這個(gè)時(shí)期內(nèi),中國(guó)和韓國(guó)在搜索引擎所涉及的IT技術(shù)領(lǐng)域發(fā)展迅猛。
2.1.3 快速增長(zhǎng)階段(2008年-2011年)
在2008年-2011年之間,除了2009年出現(xiàn)了下滑趨勢(shì)(經(jīng)濟(jì)環(huán)境背景的影響)以外,該技術(shù)的申請(qǐng)量和申請(qǐng)人數(shù)量呈現(xiàn)跨越式增長(zhǎng)。這是由于在此期間IT產(chǎn)業(yè)的迅猛發(fā)展,使得企業(yè)對(duì)于個(gè)性化關(guān)鍵詞推薦技術(shù)的關(guān)注度急劇提升,因此出現(xiàn)了申請(qǐng)量的快速增長(zhǎng)。在此階段,申請(qǐng)量占前四位的國(guó)別分布如圖4所示??梢钥闯?,中國(guó)在這一時(shí)期內(nèi)的申請(qǐng)保持著較快的發(fā)展,并且申請(qǐng)量超過(guò)起步較早的韓國(guó)和日本,這與中國(guó)在2008年之后各種IT類(lèi)型企業(yè)迅猛發(fā)展息息相關(guān)。而美國(guó)的申請(qǐng)量趨于穩(wěn)定,技術(shù)發(fā)展成熟度也較高,保持著絕對(duì)的領(lǐng)先地位。
2.1.4 成熟階段(2012年-至今)
個(gè)性化關(guān)鍵詞推薦技術(shù)的專(zhuān)利申請(qǐng)量從2012年至今呈現(xiàn)出穩(wěn)步增長(zhǎng)的趨勢(shì)。在此階段,申請(qǐng)量占前五位的國(guó)別分布如圖5所示。在這一階段,中國(guó)國(guó)內(nèi)的大型公司充分意識(shí)到了知識(shí)產(chǎn)權(quán)的重要性,申請(qǐng)量超過(guò)了美國(guó)成為第一。特別是國(guó)內(nèi)如百度、奇虎、騰訊等公司申請(qǐng)的專(zhuān)利在數(shù)量和質(zhì)量上都有明顯提升。
2.2 本領(lǐng)域重要申請(qǐng)人分析
本節(jié)對(duì)本領(lǐng)域重要申請(qǐng)人方面做進(jìn)一步分析,主要考慮申請(qǐng)人歷年的申請(qǐng)總量,按照申請(qǐng)總量進(jìn)行排名。前16名申請(qǐng)人分布如圖6所示。其中GOOG:谷歌(美國(guó));MICT:微軟(美國(guó));BAID:百度(中國(guó));YAHO:雅虎(美國(guó));IBMC:國(guó)際商業(yè)機(jī)器公司(美國(guó));QIHU:奇虎(中國(guó));ABAB:阿里巴巴(中國(guó));NHNN:NHN株式會(huì)社(韓國(guó));TNCT:騰訊(中國(guó));ETRI:韓國(guó)電子通信研究院(韓國(guó));EBAY:電子灣(美國(guó));FUIT:富士通株式會(huì)社(日本);INCR:INCRUIT公司(n國(guó));KING:金山軟件(中國(guó));NITE:日本電信電話株式會(huì)社(日本);SOGO:搜狗(中國(guó))。
從圖6可以看出,在本領(lǐng)域,諸如谷歌、微軟、雅虎、IBM等的國(guó)際化大公司一直是較為活躍的申請(qǐng)人,這些申請(qǐng)人在申請(qǐng)數(shù)量以及質(zhì)量方面都占據(jù)領(lǐng)頭羊地位;諸如百度、奇虎、阿里巴巴、騰訊等的國(guó)內(nèi)知名大公司也占據(jù)著較重要的席位。
3 個(gè)性化關(guān)鍵詞推薦相關(guān)專(zhuān)利技術(shù)發(fā)展分析
個(gè)性化關(guān)鍵詞推薦技術(shù)可分為基于文檔詞典、基于搜索日志和其他相關(guān)技術(shù)。圖7給出了從1998年到2015年,三類(lèi)技術(shù)相關(guān)的專(zhuān)利申請(qǐng)量分布。從圖7可知,基于文檔詞典和基于搜索日志的個(gè)性化關(guān)鍵詞推薦技術(shù)為主要技術(shù)。
本章將對(duì)基于文檔詞典和基于搜索日志這兩類(lèi)技術(shù)的發(fā)展路線方面進(jìn)行分析,給出了每個(gè)年度具有代表性的專(zhuān)利技術(shù)。
以申請(qǐng)時(shí)間為主線,基于文檔詞典的個(gè)性化關(guān)鍵詞推薦技術(shù)示例性專(zhuān)利如圖8所示。
以申請(qǐng)時(shí)間為主線,基于搜索日志的個(gè)性化關(guān)鍵詞推薦技術(shù)示例性專(zhuān)利如圖9所示。
4 結(jié)束語(yǔ)
本文結(jié)合國(guó)內(nèi)外專(zhuān)利申請(qǐng)的狀況,對(duì)個(gè)性化搜索引擎中關(guān)鍵詞推薦專(zhuān)利技術(shù)進(jìn)行了較為全面的分析和研究,并對(duì)其發(fā)展歷程進(jìn)行了回顧。從以上分析可知,我國(guó)關(guān)鍵詞推薦技術(shù)雖然起步較晚,但近十幾年發(fā)展很快,也涌現(xiàn)出一批具有競(jìng)爭(zhēng)力的大企業(yè)。另外,目前基于文檔詞典和搜索日志的關(guān)鍵詞推薦技術(shù)已經(jīng)發(fā)展成熟,且應(yīng)用廣泛。今后的關(guān)鍵詞推薦技術(shù)應(yīng)該會(huì)向混合推薦方向發(fā)展,充分發(fā)揮每種推薦方法的優(yōu)勢(shì),提高推薦的效率。
參考文獻(xiàn)
[1]張博,周瑞瑞,魚(yú)冰.協(xié)同過(guò)濾推薦算法專(zhuān)利綜述[J].河南科技,2015(10):3-5.
[2]王瑩,羅坤,姜磊,等.基于內(nèi)容的圖像檢索技術(shù)的專(zhuān)利技術(shù)綜述[J].電視技術(shù),2013,37(2):62-65.
[3]李亞楠,王斌,李錦濤.搜索引擎查詢(xún)推薦技術(shù)綜述[J].中文信息學(xué)報(bào),2010,24(6):75-84.
關(guān)鍵詞:個(gè)性化推薦;協(xié)同過(guò)濾;聚類(lèi);廣電運(yùn)營(yíng)
1 背景
近年來(lái),廣電運(yùn)營(yíng)在高清、互動(dòng)電視平臺(tái)的建設(shè)方面取得了長(zhǎng)足的進(jìn)步,包括點(diǎn)播、時(shí)移、回看、資訊信息在內(nèi)的大量交互業(yè)務(wù)在各地紛紛上馬,大大改善了各地電視用戶(hù)的收視體驗(yàn),同時(shí)也為運(yùn)營(yíng)商平臺(tái)化進(jìn)行了深入的探索和驗(yàn)證。個(gè)性化推薦技術(shù)是解決上述問(wèn)題的重點(diǎn)方案之一,通過(guò)主動(dòng)把熱點(diǎn)內(nèi)容、最新內(nèi)容或者用戶(hù)喜好的內(nèi)容推送給用戶(hù),用戶(hù)無(wú)需進(jìn)行繁瑣的內(nèi)容瀏覽,就能快速定位到自己感興趣的內(nèi)容,一方面提升了用戶(hù)體驗(yàn),另一方面也大大增加了運(yùn)營(yíng)商投資購(gòu)入的節(jié)目?jī)?nèi)容的長(zhǎng)尾效應(yīng)[1]。本文針對(duì)廣電家庭用戶(hù)個(gè)性化推薦技術(shù)的難點(diǎn),重點(diǎn)討論利用協(xié)同過(guò)濾推薦技術(shù)與注重速度和精度的智能聚類(lèi)算法來(lái)為用戶(hù)精準(zhǔn)推薦和推送其感興趣的節(jié)目?jī)?nèi)容。
2 協(xié)同過(guò)濾推薦技術(shù)
2.1 協(xié)同過(guò)濾算法分類(lèi)
隨著協(xié)同過(guò)濾技術(shù)在電子商務(wù)領(lǐng)域的廣泛應(yīng)用,協(xié)同過(guò)濾算法主要分為基于內(nèi)存、基于知識(shí)、基于模型和混合式推薦等,其中各種算法各有千秋,只能根據(jù)自身的實(shí)際情況選擇適合自身的算法。
2.2 聚類(lèi)技術(shù)
一種基于用戶(hù)相似度矩陣實(shí)現(xiàn)近線分析的算法簡(jiǎn)單描述為新物品上線后,通過(guò)門(mén)戶(hù)Portal、選單、榜單及非個(gè)性化推薦方式被老用戶(hù)收看后,可以基于系統(tǒng)通過(guò)用戶(hù)協(xié)同過(guò)濾算法得到的用戶(hù)相似度矩陣,將新物品推薦給與收看過(guò)該物品的用戶(hù)相似的其他用戶(hù)[3]。通過(guò)這種基于相似群體(簇)推薦的方式,可以將新物品的推薦能夠快速推薦給大量老用戶(hù)。
而聚類(lèi)技術(shù)就是將有共同特性的項(xiàng)目或事物聚集在一起,在該模型中通過(guò)將有共同興趣愛(ài)好的用戶(hù)聚集在一起,認(rèn)為該聚集簇中的目標(biāo)用戶(hù)與鄰居用戶(hù)有相同的產(chǎn)品風(fēng)格喜好,從而就可以向目標(biāo)用戶(hù)推薦鄰居用戶(hù)喜好的商品,這種模型推薦算法不僅可以推薦用戶(hù)所喜歡已知種類(lèi)的商品,還可以向用戶(hù)推薦用戶(hù)可能會(huì)喜歡的新鮮商品。
3 k-means聚類(lèi)算法
3.1 K-means聚類(lèi)算法原理
K-means的算法原理是:首先從數(shù)據(jù)集(包含N個(gè)數(shù)據(jù)樣本點(diǎn))中隨機(jī)選擇k個(gè)數(shù)據(jù)樣本點(diǎn)作為初始聚類(lèi)中心,對(duì)于剩余的(N-k)個(gè)其他數(shù)據(jù)樣本點(diǎn),分別將他們分配給距離那k個(gè)中心簇最近(相似度最大)的簇中,然后再分別重新計(jì)算他們的聚類(lèi)中心(即該簇中所有數(shù)據(jù)樣本點(diǎn)的均值),不斷重復(fù)這一過(guò)程,直到聚類(lèi)中心不再改變,標(biāo)準(zhǔn)測(cè)度函數(shù)開(kāi)始收斂為止。否則繼續(xù)迭代執(zhí)行聚類(lèi),其算法描述如下:
輸入:數(shù)據(jù)集(包含N個(gè)數(shù)據(jù)樣本點(diǎn)),初始k個(gè)數(shù)據(jù)簇中心。
輸出:滿(mǎn)足終止迭代條件的k個(gè)數(shù)據(jù)簇。
3.2 基于k-means算法的用戶(hù)聚類(lèi)
現(xiàn)實(shí)生活中,相似的用戶(hù)有共同的用戶(hù)特征、喜好特征、行為特征,而非相似用戶(hù)的用戶(hù)特征、喜好特征、行為特征等也都大相徑庭。具體來(lái)講,從用戶(hù)特征可以從這幾個(gè)大的方面來(lái)進(jìn)行區(qū)分,比如說(shuō),性別,年齡,職業(yè),學(xué)歷等多方面,一般來(lái)說(shuō),不同學(xué)歷的人,由于他們對(duì)知識(shí)基礎(chǔ)的積累層次不一,導(dǎo)致他們選擇不同的分別適合他們自己的視節(jié)目對(duì)象,相似的用戶(hù)群體他們的職業(yè)、年齡或者其他方面具有一定的相似性,導(dǎo)致他們選擇了共同的電視節(jié)目。從喜好特征來(lái)講,有相同愛(ài)好的用戶(hù),自然他們?cè)谶x擇電視節(jié)目對(duì)象時(shí),很有可能選擇同一個(gè)對(duì)象。從行為特征來(lái)講,兩個(gè)有相似行為特征的用戶(hù)很有可能選擇的電視節(jié)目對(duì)象也是同一類(lèi),所以在本文中,我們認(rèn)為相似的用戶(hù)在選擇電視節(jié)目對(duì)象時(shí)也具有一定的相似性,所以我們根據(jù)用戶(hù)訂閱過(guò)的電視節(jié)目對(duì)象便可以將相似的用戶(hù)聚類(lèi)。
4 改進(jìn)的K-means算法
4.1 改進(jìn)策略
(1)計(jì)算出數(shù)據(jù)集中N個(gè)樣本點(diǎn)兩兩之間的距離(本文衡量的是相似度)dis(),找到滿(mǎn)足的兩個(gè)樣本點(diǎn)d1和d2,并將它們?cè)O(shè)為初始兩個(gè)聚類(lèi)中心。
(2)在剩余的(N-2)個(gè)樣本點(diǎn)中,選取滿(mǎn)足
的樣本點(diǎn)d3作為第三個(gè)初始聚類(lèi)中心樣本點(diǎn),其中,di是除去數(shù)據(jù)集中樣本點(diǎn)d1、d2、d3的任意一個(gè)樣本點(diǎn)。
(3)依此類(lèi)推,直到剩余的(N-k+1)個(gè)樣本點(diǎn)中,選取滿(mǎn)足
的樣本點(diǎn)dk作為第k個(gè)初始聚類(lèi)中心樣本點(diǎn),其中,di是除去數(shù)據(jù)集中樣本點(diǎn)d1,d2,…dk的任意一個(gè)樣本點(diǎn)。
(4)對(duì)于數(shù)據(jù)集中剩余的(N-k)個(gè)樣本點(diǎn),計(jì)算每個(gè)樣本點(diǎn)與上面求得的k個(gè)聚類(lèi)中心樣本點(diǎn)之間的距離,并將這些樣本點(diǎn)歸入距離其最近的聚類(lèi)中心簇中。
(5)重新計(jì)算k個(gè)數(shù)據(jù)簇的聚類(lèi)中心值和標(biāo)準(zhǔn)測(cè)度函數(shù),中心值為該簇類(lèi)所有樣本點(diǎn)的平均值,其計(jì)算公式為,標(biāo)準(zhǔn)測(cè)度函數(shù)為,其中,nj為第j類(lèi)中的數(shù)據(jù)樣本點(diǎn)個(gè)數(shù),為聚類(lèi)子類(lèi)Dj的數(shù)據(jù)樣本點(diǎn)。;
(6)如果滿(mǎn)足(表示子類(lèi)簇中樣本點(diǎn)的誤差平方和已經(jīng)收斂)或達(dá)到了最大的迭代次數(shù),表示子類(lèi)樣本成員不再發(fā)生變化,就可以結(jié)束聚類(lèi)。否則,返回4)步驟繼續(xù)迭代,其中,是一個(gè)任意小的數(shù),E1與E2代表前后兩次迭代的測(cè)度函數(shù)值。
4.2 相似特征用戶(hù)聚類(lèi)算法流程
通過(guò)建立的矩陣模型對(duì)相似特征用戶(hù)進(jìn)行聚類(lèi),首先,根據(jù)用戶(hù)與電視節(jié)目資源對(duì)象標(biāo)簽之間的訂閱關(guān)系來(lái)建立矩陣模型,根據(jù)這個(gè)矩陣模型可以獲得所有的數(shù)據(jù)集樣本點(diǎn),矩陣的每行數(shù)據(jù)代表一個(gè)樣本點(diǎn),且每個(gè)樣本點(diǎn)都是高維的,然后就是對(duì)該海量數(shù)據(jù)集應(yīng)用k-means聚類(lèi)算法來(lái)對(duì)相似用戶(hù)(簇)聚類(lèi),然而由于K-means算法對(duì)初始聚類(lèi)中心點(diǎn)比較挑剔,為了合理高效的得到有效的聚類(lèi)中心點(diǎn),先采取簡(jiǎn)單隨機(jī)抽樣算法,在抽樣的數(shù)據(jù)樣本集中應(yīng)用改進(jìn)的最大距離法對(duì)初始聚類(lèi)中心得到優(yōu)化,同時(shí),將K-means算法中的距離量度換為本文改進(jìn)的相似度計(jì)量方式,最后根據(jù)抽樣樣本輸出的K個(gè)聚類(lèi)中心,在總數(shù)據(jù)集上應(yīng)用K-means算法,將相似特征用戶(hù)進(jìn)行聚類(lèi)。
級(jí)別:省級(jí)期刊
榮譽(yù):中國(guó)期刊全文數(shù)據(jù)庫(kù)(CJFD)
級(jí)別:省級(jí)期刊
榮譽(yù):中國(guó)優(yōu)秀期刊遴選數(shù)據(jù)庫(kù)
級(jí)別:北大期刊
榮譽(yù):中國(guó)優(yōu)秀期刊遴選數(shù)據(jù)庫(kù)
級(jí)別:部級(jí)期刊
榮譽(yù):中國(guó)優(yōu)秀期刊遴選數(shù)據(jù)庫(kù)
級(jí)別:省級(jí)期刊
榮譽(yù):Caj-cd規(guī)范獲獎(jiǎng)期刊