前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的個性化推薦主題范文,僅供參考,歡迎閱讀并收藏。
關(guān)鍵詞:個性化推薦;icon;協(xié)同過濾算法;權(quán)值;關(guān)鍵點;
中圖分類號:TP391 文獻標(biāo)識碼:A 文章編號:1009-3044(2017)03-0250-03
1 概述
隨著信息時代的不斷發(fā)展,網(wǎng)絡(luò)給人們的生活帶來了翻天覆地的變化,人們可以足不出戶就能夠在網(wǎng)絡(luò)上購買到自己想要的任何商品。網(wǎng)絡(luò)的便利,使得人們的購物方式得到了改變,同時也滋生了很多購物平臺的產(chǎn)生。無論大型還是小型的電子商務(wù)平臺,都會存在著一些弊端,信息過載問題,就是商品的種類太過于豐富多樣性,以至于用戶不能很快地查找到自己喜歡的商品。所以平臺開發(fā)商們就會想盡辦法來避免這種情況,個性化推薦應(yīng)運而生,個性化推薦就是在正確的時間把正確的商品推薦給正確的用戶,來拉攏用戶,防止用戶的流失,從而提升自己平臺的競爭力。
1.1課題背景及研究的目的
當(dāng)今時代是信息的時代,每天人們都會被不同的海量數(shù)據(jù)所圍繞,如何從這些繁雜的數(shù)據(jù)中找到自己想要的數(shù)據(jù),是我們每個人都迫切需要的。我們都希望每個平臺系統(tǒng)都能給我們展示出契合我么自己的數(shù)據(jù),這樣我們就不需要花費太多的精力在尋找數(shù)據(jù)上。
基于和老師同學(xué)們一起做的這個ICON項目(一個類似圖片交際購物系統(tǒng)),因為用戶的不斷增加,所上傳的圖片也越來越多,為了滿足用戶查找數(shù)據(jù)的方便,就打算給系統(tǒng)添加一個個性化推薦策略。由于自己對推薦這一塊比較陌生,閱讀了多篇關(guān)于推薦系統(tǒng)的論文及報告,大多都會涉及諸多復(fù)雜的算法,就想到針對我們這個系統(tǒng)來設(shè)計一個較為簡單的個性化推薦。
1.2 本文主要研究的內(nèi)容和組織架構(gòu)
1.2.1 本文主要工作
本文主要探討了一下個人設(shè)計的簡單個性化推薦策略及相關(guān)工作。介紹了該推薦策略的研究背景和目的,然后又詳細地介紹了該策略算法。最后就該研究成果在ICON項目中的應(yīng)用效果進行了展示,說明了我們算法的可行性。
1.2.2 本文的組織架構(gòu)
第一章是緒論部分,介紹了個性化推薦系統(tǒng)的背景,以及研究目的。簡單個性化推薦策略的由來。
第二章是算法簡述部分,大概地介紹了一下算法。
第三章是算法詳解部分,在本章節(jié)中詳細介紹了算法的構(gòu)成。
第四章是指標(biāo)的權(quán)重計算部分,介紹了算法中一個比較重要的權(quán)重計算方法,并計算出了算法中各個特性的權(quán)重值。
第五章是結(jié)果分析部分,對推薦前后用戶滯留系統(tǒng)的時間和點擊look的數(shù)量進行觀察比較,得出分析結(jié)果。
2 算法簡述
1) 找出平臺關(guān)鍵點;
2) 統(tǒng)計關(guān)鍵點數(shù)據(jù);
3) 畫出涉及關(guān)鍵點的表格;
4) 整理分析,推薦圖片;
5) 通過圖片推薦給用戶商品。
3 算法詳解
3.1 找出平臺關(guān)鍵點
用戶發(fā)表一個look(即圖片),都會給這個look選擇一個性別、季節(jié)、品牌、風(fēng)格等,其中風(fēng)格包含有正裝、暗黑、韓國風(fēng)、運動、嘻哈等多達20多種的不同風(fēng)格,其中肯定會有一種是你發(fā)表的look風(fēng)格。性別和風(fēng)格是主要的,從這兩個特性中我們就能看出你平時穿衣打扮,因為發(fā)表的每一張look都是對自己平時的一個真實寫照。用戶發(fā)表的每一張look都是對應(yīng)自己所購買的衣服,從而我們就可以從look中對應(yīng)到相應(yīng)的商品中。
拋開性別這個普遍的共性來分析,我們可以根據(jù)用戶平時發(fā)表的look的風(fēng)格來觀察該用戶的穿衣習(xí)慣,從而得到用戶可能喜歡的商品類型,繼而向用戶推薦他們想要看到或者想要購買的衣服。
在icon的系統(tǒng)中,用戶看見自己喜歡的look時,可以對其進行點贊或者收藏。用戶也可以關(guān)注其他的用戶,成為他的粉絲,隨時關(guān)注他(她)發(fā)表的look,你們之間也可以相互交流探討穿衣打扮的技巧。
在認真觀察項目后,可以看出用戶發(fā)表look的風(fēng)格就是所謂的關(guān)鍵點。
3.2 y計關(guān)鍵點數(shù)據(jù)
用戶發(fā)表的look,關(guān)注的look,點贊的look,以及收藏的look我們都統(tǒng)一存到了數(shù)據(jù)庫中。平臺是用mybatis連接的數(shù)據(jù)庫,所以,數(shù)據(jù)我們可以寫sql語句直接獲取到,而不用去分析歷史數(shù)據(jù)或者網(wǎng)絡(luò)爬蟲去解析用戶瀏覽行為等。
這個算法,我要求只需要能獲取到用戶偏重的前三個就行,所以常用到的mysql中的limit關(guān)鍵字,limit接受一個或兩個數(shù)字參數(shù),參數(shù)必須是一個整數(shù)常量,如果給定兩個參數(shù),第一個參數(shù)指定第一個返回記錄行的偏移量,第二個參數(shù)指定返回記錄行的最大數(shù)目。在使用limit時,要先判斷查詢到的數(shù)據(jù)集的數(shù)目有多少,防止查詢的時候出錯。
舉個例子,通過tbl_look表和tbl_user_likes表來查找id為131的用戶點贊的look風(fēng)格的前三個的mysql語句:
SELECT tul.id,tul.uid,tul.lookid,tl.style,COUNT(tl.style) AS sc FROM tbl_user_likes tul ,tbl_looks tl WHERE tul.uid=131 and tl.id=tul.lookid GROUP BY tl.style ORDER BY sc DESC LIMIT 3
3.3 畫出涉及關(guān)鍵點的表格
為了更形象的觀察用戶的自己的風(fēng)格以及自己和其他人的風(fēng)格,我們將查詢的數(shù)據(jù)用表格的形式展示出來。這樣就可以一目了然的通過觀察表格得出合理的結(jié)論。
3.4 整理分析,推薦內(nèi)容
分析表1,因為用戶發(fā)表、點贊和收藏的數(shù)量差別可能比較大,所以我們就按照表格中展示的三項以及它們的權(quán)值來計算每個用戶表側(cè)重的風(fēng)格。
每個用戶的風(fēng)格評分計算如下:
[fur=i=03wiri]
[fur]表示u用戶r風(fēng)格的評分,其中[wi]表示每個i指標(biāo)的權(quán)值,會在第四章詳細介紹權(quán)值算法;[ri]表示u用戶r風(fēng)格是否存在i指標(biāo)的參數(shù),存在為1,不存在為0。
經(jīng)過計算,我們得出甲用戶和丁用戶都比較側(cè)重ABC折三種風(fēng)格,并且甲和丁也互相關(guān)注了,那么我們完全就可以認為甲和丁用戶風(fēng)格類似,可以看成是相似用戶。按照基于用戶的協(xié)同過濾算法來考慮的話,我們可以把E風(fēng)格的服飾推薦給丁用戶,而把G風(fēng)格的服飾推薦給甲用戶。
我們還可以得出,BC風(fēng)格總是在一起,EF風(fēng)格總是在一起,我們就可以這樣認為,喜歡B風(fēng)格服飾的人通常也會喜歡C風(fēng)格的服飾,喜歡E風(fēng)格服飾的人通常也會喜歡F風(fēng)格服飾的人,反過來也一樣。按照基于內(nèi)容的系統(tǒng)過濾算法考慮的話,我們就可以把B風(fēng)格的服飾推薦給乙用戶。
3.5 通過圖片推薦給用戶商品
整個系統(tǒng)的模式是這樣的,通過用戶的各項特征找到一個關(guān)鍵點,再由該關(guān)鍵點給用戶推薦look,最后由推薦的look來決定用戶可能喜歡的商品(服裝)。如圖1所示:
4 指標(biāo)的權(quán)重計算
各項指標(biāo)的權(quán)重根據(jù)定量統(tǒng)計法算法計算得出。
定量統(tǒng)計計算權(quán)重的步驟如下:
1) 按照沒有關(guān)聯(lián)、有點關(guān)聯(lián)、關(guān)聯(lián)和非常關(guān)聯(lián)四個等級繪制出統(tǒng)計表格。
2) 以67%(2/3)位界限,若選擇“關(guān)聯(lián)”和“非常關(guān)聯(lián)”的比例合計小于67%,就刪除該指標(biāo),不予考慮。
3) 分別把沒有關(guān)聯(lián)賦值為1,有點關(guān)聯(lián)賦值為2,關(guān)聯(lián)賦值為3,非常關(guān)聯(lián)賦值為4,選擇出沒有關(guān)聯(lián)之外以上數(shù)據(jù)都進入統(tǒng)計,那么三種選項的權(quán)重分別為[w′1]=2/(2+3+4)=0.22;[w′2]=3/(2+3+4)=0.33;[w′3]=4/(2+3+4)=0.45。
4)指標(biāo)權(quán)重計算:
[wi=pii=13pi]
其中[pi]為指標(biāo)i的統(tǒng)計權(quán)值和:
[pi=j=13w′iaij]
其中,[aij]表示i指標(biāo)除沒有關(guān)聯(lián)外的其他關(guān)聯(lián)度的統(tǒng)計數(shù),[a11]就表示指標(biāo)1有點關(guān)聯(lián)的統(tǒng)計人數(shù),[a32]就表示指標(biāo)3關(guān)聯(lián)的統(tǒng)計人數(shù)。
我們對使用該系統(tǒng)的用戶進行了一次統(tǒng)計,隨機抽出統(tǒng)計過的100名用戶來計算權(quán)值。
首先畫出統(tǒng)計的表格如下:
分別代表用戶發(fā)表、點贊和收藏look的風(fēng)格權(quán)值。通過計算得到的數(shù)值可明顯看出,用戶發(fā)表和收藏的look風(fēng)格所占比重比較大,點贊風(fēng)格所占比重較小。所以,發(fā)表和收藏風(fēng)格的特性能較大反映出用戶的風(fēng)格類型,而點贊風(fēng)格的特性稍次于發(fā)表和收藏特性。
5 結(jié)果分析
項目中我們引入了cnzz流量統(tǒng)計、網(wǎng)絡(luò)分析數(shù)據(jù)專家,可以通過cnzz來獲取到用戶滯留平臺的時間和點擊各個look的數(shù)量。
為了驗證該個性化推薦策略的可行性,我們隨機抽取了四名用戶,利用cnzz獲取到在推薦系統(tǒng)應(yīng)用的前后,用戶滯留系統(tǒng)的時間(從進入系統(tǒng)到退出系統(tǒng)的滯留時間),以及用戶點擊look的數(shù)量,描繪成線形圖如下:
通^這兩個柱狀圖,可以明顯的觀察到推薦策略應(yīng)用前后的效果,證明了我們所做的工作的可行性。
參考文獻:
[1] 丁宏飛,黃戰(zhàn).個性化電子商務(wù)系統(tǒng)中用戶興趣模型的研究[D].廣州:暨南大學(xué),2008.
[2] 王國霞,劉賀平.個性化推薦系統(tǒng)綜述[J].計算機工程與應(yīng)用,2012(9).
[3] 劉瑋.電子商務(wù)系統(tǒng)中的信息推薦方法研究[J].情報科學(xué),2006(4).
[4] 米鵬,段建勇,付曉宇.面向社區(qū)用戶的推薦策略研究[D].北京:北方工業(yè)大學(xué),2016.
[5] 曾春,邢春曉,周立柱.個性化服務(wù)技術(shù)綜述[J].軟件學(xué)報,2002(5).
[6] 于波,陳庚午,王愛玲,等.一種結(jié)合項目屬性的混合推薦算法[J].計算機技術(shù)應(yīng)用,2017(5).
如何關(guān)閉微博個性化廣告推薦 2、點擊右上方的【設(shè)置圖標(biāo)】進入設(shè)置。
如何關(guān)閉微博個性化廣告推薦 3、點擊【隱私設(shè)置】選項進入。
如何關(guān)閉微博個性化廣告推薦 4、點擊底端【個性化廣告推薦】的開關(guān)按鈕。
如何關(guān)閉微博個性化廣告推薦 5、點擊關(guān)閉后,頁面顯示【設(shè)置成功】即可。
2、在“美團”窗口中,點擊下方“我的”菜單選項。
3、在彈出窗口中,點擊右上方“設(shè)置”符號選項。
4、在“設(shè)置”窗口中,找到“通用”選項并點擊它。
5、在“通用”窗口中,找到“隱私管理”選項并點擊它。
6、在“隱私管理”窗口中,找到“接收個性化推薦”選項并點擊“關(guān)閉”按鈕。
7、在彈出窗口中,點擊“確認關(guān)閉”按鈕選項。
關(guān)鍵詞:社會化標(biāo)簽;學(xué)習(xí)平臺;協(xié)同過濾
中圖分類號:TP311.56 文獻標(biāo)志碼:B 文章編號:1673-8454(2014)19-0044-04
引言
泛在學(xué)習(xí)是一種隨時隨地的、個性化的學(xué)習(xí)過程,是人們最喜歡的一種學(xué)習(xí)模式。泛在學(xué)習(xí)是現(xiàn)在信息社會最流行的一種非正式學(xué)習(xí)方式,它彌補了數(shù)字學(xué)習(xí)的不足和限制,也是構(gòu)建學(xué)習(xí)型社會的主要途徑之一。泛在學(xué)習(xí)環(huán)境中需要數(shù)量巨大的各類學(xué)習(xí)資源,但由于泛在學(xué)習(xí)的隨時隨地性與個性化等特點,學(xué)習(xí)主體對各類資源的需求層出不窮,如果能在數(shù)量巨大的各類學(xué)習(xí)資源中找到學(xué)習(xí)者需要的學(xué)習(xí)資源,屏蔽那些學(xué)習(xí)者不喜歡的學(xué)習(xí)資源,建立起這種學(xué)習(xí)者與學(xué)習(xí)資源的匹配機制,將大大提高學(xué)習(xí)者的學(xué)習(xí)效率。[1]不同的學(xué)習(xí)者興趣愛好不同,為不同的學(xué)習(xí)者提供自己喜歡的學(xué)習(xí)資源,讓學(xué)習(xí)資源來適應(yīng)學(xué)習(xí)者,這將是以后研究的熱點。
一、個性化學(xué)習(xí)的現(xiàn)狀
目前絕大多數(shù)的網(wǎng)絡(luò)學(xué)習(xí)資源平臺都可以對本平臺的資源進行管理,可以進行資源的分類瀏覽和基于關(guān)鍵知識點的資源檢索功能,當(dāng)不同的學(xué)習(xí)者訪問網(wǎng)絡(luò)學(xué)習(xí)資源平臺,平臺為所有學(xué)習(xí)者的服務(wù)是完全一樣的,未考慮每位學(xué)習(xí)者的個性化需求,不能為學(xué)習(xí)者提供他們需要的、想要的服務(wù)和需求。 “大量資源”和個性化學(xué)習(xí)網(wǎng)絡(luò)的人的需求之間的矛盾就已經(jīng)存在,這種矛盾的存在,一方面降低了資源的有效利用、造成了資源的浪費;另一方面給學(xué)習(xí)者使用資源帶來了諸多困難。[2]
個性化推薦是目前一種重要的解決“信息過載”問題和提供個性化服務(wù)的方案。個性化推薦是利用已有的Web用戶興趣愛好和行為信息,講web學(xué)習(xí)者和學(xué)習(xí)資源關(guān)聯(lián)起來,通過Web用戶與Web用戶、Web用戶與學(xué)習(xí)資源之間相似性、相關(guān)性關(guān)系挖掘和發(fā)現(xiàn)學(xué)習(xí)者潛在感興趣的學(xué)習(xí)資源,進而對Web學(xué)習(xí)者進行個性化推薦服務(wù)。本質(zhì)上是對信息進行帥選、提取,它根據(jù)Web用戶的偏好、興趣等,對其提供具有個性化特征的信息產(chǎn)品推薦。
二、推薦策略的組合使用
1.社會化標(biāo)簽的引入
社會化標(biāo)簽是近幾年新使用的一種標(biāo)注網(wǎng)絡(luò)資源的工具,其思想是根據(jù)用戶的訪問內(nèi)容來判斷用戶的行為和需求,和基于內(nèi)容的推薦很類似?;趦?nèi)容的推薦技術(shù)是以資源信息為研究對象,利用信息檢索技術(shù)來分析項目的內(nèi)容,通常應(yīng)用鄰居函數(shù)和分類技術(shù)來分析和聚類項目的文本內(nèi)容,并基于項目特征與用戶檔案產(chǎn)生推薦。[3]通過使用社會化標(biāo)簽,資源信息變得更加準(zhǔn)確和明白,進而給資源信息定義了一種新的社會屬性。
標(biāo)簽由用戶定義,反應(yīng)了用戶的興趣偏好,我們可以通過分析用戶標(biāo)簽來判斷出用戶的興趣愛好。同時,標(biāo)簽表達了與資源之間的語義關(guān)系,可以用來分析資源的潛在屬性。我們可以根據(jù)標(biāo)簽建立相似資源集,為目標(biāo)用戶找到感興趣的學(xué)習(xí)資源,同時社會化標(biāo)簽還提供了解決冷啟動問題的方法。
因為標(biāo)簽可以由用戶自己定義,會遇到同義詞標(biāo)簽的問題,解決方法為:通過窮舉的方式查詢同義詞庫,對同義詞標(biāo)簽進行歸一。
2.協(xié)同過濾算法的改進
(1)通過社會化標(biāo)簽計算資源之間的相似度
對于新增的學(xué)習(xí)者,由于學(xué)習(xí)者對資源的評分很少,不能進行很好的協(xié)同過濾的推薦,這就是冷啟動問題。這里我們根據(jù)用戶注冊時填寫的興趣標(biāo)簽,向?qū)W習(xí)者推送學(xué)習(xí)者所感興趣標(biāo)簽相似度最大的資源。
對于評分數(shù)據(jù)稀疏的問題,我們通過社會化標(biāo)簽計算資源之間的相似度,通過資源間的相似度來對評分矩陣進行進一步的填充。其流程如圖1所示。
1)計算資源之間的相似度。這里使用向量空間模型(VSM)對資源和社會化標(biāo)簽進行描述,向量空間模型就是用一組關(guān)鍵詞及其權(quán)重(形如((key1,weighty1),(key2,weight2),(key3,weighty3),(keyn,weightyn)),其中n為關(guān)鍵詞維度)。這里的關(guān)鍵詞即轉(zhuǎn)換為社會化標(biāo)簽,而權(quán)重通過TF-IDF算法計算得來(具體計算時,對于資源――標(biāo)簽,weight的計算公式為:tag在該資源中年出現(xiàn)的次數(shù)/該資源所有的標(biāo)簽數(shù) + tag標(biāo)識過的資源數(shù)量/總的資源數(shù)量),形成(tag1,weight1), (tag2,weight2), (tag3,weight3)……(tagn,weightn)再根據(jù)標(biāo)簽和資源形成資源―標(biāo)簽矩陣表。[4]
2)通過Pearson算法計算資源之間的相似度,選取相似度最大K個資源。Pearson算法:Tij表示標(biāo)簽i和標(biāo)簽j所標(biāo)注的資源的交集,j表示標(biāo)簽j所占的平均權(quán)重,i表示標(biāo)簽i所占的平均權(quán)重。
3)根據(jù)資源的相似度來填充學(xué)習(xí)者――資源評分矩陣,解決數(shù)據(jù)稀疏問題。相似資源的集合Su,Rn,表示資源n的評分,sim(u,n)表示資源u、n的相似度,u表示資源u所得到的平均評分。
(2)通過協(xié)同過濾算法得到最相似的Top-N個學(xué)習(xí)者
協(xié)同過濾算法是根據(jù)學(xué)習(xí)者和資源的評分矩陣,計算出學(xué)習(xí)者之間的相似度,來推算出那些學(xué)習(xí)者沒有進行評分的資源的評分,并且系統(tǒng)綜合學(xué)習(xí)者的興趣愛好,給學(xué)習(xí)者推送他們可能會評分高的資源[10]?;趨f(xié)同過濾的個性化推薦具體流程:
1)得到m個用戶對n個資源的評分矩陣。
2)通過Pearson算法計算用戶的相似度,選取相似度最大的前k個用戶。
Pearson算法:Iij表示用戶i評過分的項目和j評過分的項目的交集,j表示用戶j評分的平均分。
3)根據(jù)用戶的相似度得到用戶對其他的沒有評過分的項目的評分,產(chǎn)生推薦。相似用戶的集合Su,Rn,j表示用戶n對項目i的評分,sim(u,n)表示用戶u、n的相似度,u表示用戶u對項目的平均評分。
三、學(xué)習(xí)平臺的架構(gòu)
本學(xué)習(xí)平臺設(shè)計主要分為三部分:學(xué)習(xí)者管理模塊、資源管理模塊、個性化推薦模塊。其總體架構(gòu)如圖2所示。
學(xué)習(xí)資源建設(shè)主要通過兩種方式:服務(wù)器中存放的大部分的學(xué)習(xí)資源、學(xué)習(xí)者自己上傳自己感興趣的資源。學(xué)習(xí)者模塊主要是記錄學(xué)習(xí)者的學(xué)習(xí)情況,分析學(xué)習(xí)者的興趣愛好。學(xué)習(xí)者和資源之間有一個資源描述文件,該文件記錄了資源本身的內(nèi)容特征、學(xué)習(xí)者訪問的次數(shù)、訪問的時間和各種行為,形成一種學(xué)習(xí)者和資源之間的關(guān)系表。
個性化推薦模塊是平臺的主要功能模塊。該模塊中最主要的是推薦算法,推薦算法的使用直接會影響到本系統(tǒng)的準(zhǔn)確性。該平臺采組合使用了多種推薦算法,引入了社會化標(biāo)簽,并且對協(xié)同過濾算法做了一定的改進。
四、學(xué)習(xí)者模型和資源模型的具體構(gòu)建
1.學(xué)習(xí)者模型
對學(xué)習(xí)者的學(xué)習(xí)興趣抽取,并對興趣愛好進行量化,建立學(xué)習(xí)者模型,并且不斷地更新用戶的興趣變化,進一步地完善學(xué)習(xí)者模型,凸顯出以學(xué)習(xí)者為中心的學(xué)習(xí)理念[2]。其創(chuàng)建流程如圖3所示。
(1)顯性數(shù)據(jù)的獲取
顯性數(shù)據(jù)主要包括學(xué)習(xí)者注冊時填寫的學(xué)習(xí)者的基本學(xué)習(xí)情況和相關(guān)的興趣愛好以及學(xué)習(xí)者的直接評分和評價。學(xué)習(xí)者注冊信息主要有學(xué)習(xí)者的教育層次、正在學(xué)習(xí)的課程資源、使用的資源標(biāo)簽、喜歡觀看視頻還是文字等。其相關(guān)數(shù)據(jù)如表所示。
(2)隱性數(shù)據(jù)的獲取
學(xué)習(xí)者在平臺中學(xué)習(xí)時,對學(xué)習(xí)資源就會產(chǎn)生收藏、下載、瀏覽、在頁面停留的時間、瀏覽的次數(shù)和評價等學(xué)習(xí)行為,這些學(xué)習(xí)行為就表現(xiàn)出了他的學(xué)習(xí)興趣,我們將學(xué)習(xí)者的學(xué)習(xí)動作收集并記錄下來。根據(jù)學(xué)習(xí)者的行為的不同進行打分,作為學(xué)習(xí)者對資源的評分。[5]例如:瀏覽一次得2分、瀏覽并且收藏了得4.5分等。
用戶特征的提取中,不同用戶的瀏覽行為反映了不同用戶的興趣愛好,而且,用戶的興趣總會隨著時間的變化,具有一定的漂移性,動態(tài)轉(zhuǎn)移的。這樣,在用戶模型中,用戶的興趣度值也會相應(yīng)變化的;用戶對感興趣的資源也會在一段時間內(nèi)是高頻點擊瀏覽的,時間也是會越長的,那么,用戶就會對其相應(yīng)感興趣的資源的興趣度值也會提高。[6]
2.學(xué)習(xí)資源模型
學(xué)習(xí)資源是學(xué)習(xí)者學(xué)習(xí)、交流、互動的根本和媒介,建立符合學(xué)習(xí)者的學(xué)習(xí)資源模型同樣重要,目前大多數(shù)學(xué)習(xí)資源的建立都是根據(jù)學(xué)習(xí)者的學(xué)習(xí)需求建立的,但是學(xué)習(xí)資源之間的聯(lián)系很松散,學(xué)習(xí)資源都是在雜亂無序的生長,所以我們對學(xué)習(xí)資源進行統(tǒng)一的管理和歸類。[7]
學(xué)習(xí)資源分為學(xué)習(xí)主題、學(xué)習(xí)文檔、學(xué)習(xí)序列,每個資源都必須要用兩個以上的標(biāo)簽進行標(biāo)注,這樣每個學(xué)習(xí)資源都用標(biāo)簽來代替,標(biāo)簽的引入有助于對資源內(nèi)容進行分類,實現(xiàn)資源的統(tǒng)一管理和高度共享。
五、展望
1.推薦系統(tǒng)實時性的提高
推薦系統(tǒng)都需要學(xué)習(xí)者的反饋,所以會產(chǎn)生一個冷啟動的問題,一個新的資源很難很快地推薦給學(xué)習(xí)者。如果系統(tǒng)可以及時地向?qū)W習(xí)者推薦新的學(xué)習(xí)資源,推薦的質(zhì)量就要受到很大的影響,如何保證這兩個的協(xié)調(diào)需要進一步的研究。
2.深化學(xué)習(xí)資源特征的描述
可以把學(xué)習(xí)資源先根據(jù)某些標(biāo)準(zhǔn)進行分類,并且和學(xué)習(xí)者的教育級別相結(jié)合,在大的方向上向?qū)W習(xí)者推薦。隨著信息時代的發(fā)展,信息量的擴大,數(shù)據(jù)挖掘技術(shù)的發(fā)展,我們可以將協(xié)同過濾算法和數(shù)據(jù)挖掘相結(jié)合,向?qū)W習(xí)者更準(zhǔn)確地推薦學(xué)習(xí)資源。同時加大對新的資源的引入和分類,將信息更及時地推向給學(xué)習(xí)者。
參考文獻:
[1]楊麗娜,肖克曦,劉淑霞.面向泛在學(xué)習(xí)環(huán)境的個性化資源服務(wù)框架[J].中國電化教育,2012(7):84-88.
[2]楊麗娜,顏志軍,孟昭寬.基于個性化推薦思想的虛擬社區(qū)學(xué)習(xí)共同體動態(tài)構(gòu)建[J].現(xiàn)代教育技術(shù),2012(1):88-92.
[3]王永固.基于協(xié)同過濾技術(shù)的學(xué)習(xí)資源個性化推薦研究[J].遠程教育雜志,2011(3): 66-71.
[4]李高敏.基于協(xié)同過濾的教學(xué)資源個性化推薦技術(shù)的研究及應(yīng)用[D].北京交通大學(xué),2011:58.
[5]程成.基于社會化標(biāo)簽和混合模式的教學(xué)資源個性化推薦系統(tǒng)的設(shè)計[D].北京交通大學(xué),2012:66.
關(guān)鍵詞:推薦系統(tǒng);Mahout;單機內(nèi)存算法;組件
中圖分類號:TP311 文獻標(biāo)識碼:A 文章編號:1009-3044(2016)25-0171-02
隨著信息技術(shù)和互聯(lián)網(wǎng)的發(fā)展,人們逐漸從信息匱乏的時代進入了信息過載的時代。推薦系統(tǒng)的出現(xiàn)可以幫助用戶發(fā)現(xiàn)對自己有價值的信息,同時能夠讓信息展現(xiàn)在對它感興趣的用戶面前。個性化推薦系統(tǒng)依賴于用戶的行為數(shù)據(jù),目前被廣泛地應(yīng)用在包括電子商務(wù)、社交網(wǎng)絡(luò)、電影和視頻、音樂、個性化郵件和廣告、基于位置的服務(wù)、閱讀等領(lǐng)域中,從而提高相關(guān)網(wǎng)站的點擊率和轉(zhuǎn)化率。Mahout是來自Apache的、開源的機器學(xué)習(xí)軟件庫,主要提供了機器學(xué)習(xí)領(lǐng)域的推薦引擎(協(xié)同過濾)、聚類和分類算法的實現(xiàn),為推薦系統(tǒng)的應(yīng)用和研究提供了支持。
本文通過對Mahout中的推薦算法進行研究,使用一個示例對推薦算法進行評估,從而找到一個有效的推薦程序應(yīng)用到示例中,為用戶實現(xiàn)推薦。
1 Mahout的推薦算法
基于Hadoop分布式框架的機器學(xué)習(xí)算法庫Mahout封裝了多種機器學(xué)習(xí)算法的分布式實現(xiàn),由多個組件混搭而成,各個組件的組合可以定制,從而針對特定應(yīng)用提供理想的推薦。通常包括的組件如下:數(shù)據(jù)模型由DataModel實現(xiàn);用戶間的相似性度量由UserSimilarity實現(xiàn);用戶近鄰的定義由UserNeighborhood實現(xiàn);推薦引擎由一個Reommender實現(xiàn)。從數(shù)據(jù)處理能力上,Mahout推薦算法可以分為單機內(nèi)存算法和基于Hadoop的分布式算法,本文僅討論單機內(nèi)存算法。
1.1 推薦數(shù)據(jù)的表示
推薦引擎的輸入是偏好數(shù)據(jù)(preference data),通常用(用戶ID,物品ID,偏好值)的元組集合來表示。在Mahout中使用DataModel對推薦程序的輸入數(shù)據(jù)進行封裝,GernericDataModel是現(xiàn)有DataModel實現(xiàn)中最簡單的,它通過程序在內(nèi)存中構(gòu)造數(shù)據(jù)表示形式,將偏好作為輸入,將用戶ID映射到這些用戶數(shù)據(jù)所在的PreferenceArray(一個接口,表示一個偏好的聚合)上。若用戶和物品的數(shù)據(jù)無偏好值時,可以使用GenericBooleanPrefDataModel來實現(xiàn)?;谖募臄?shù)據(jù)使用FileDataModel,從文件中讀取數(shù)據(jù),將所得的偏好數(shù)據(jù)存儲到內(nèi)存,即GernericDataModel中。基于數(shù)據(jù)庫的數(shù)據(jù)用JDBCDataModel實現(xiàn),若使用MySQL數(shù)據(jù)庫,可以使用其子類MySQLJDBCDataModel。
1.2 相似性度量
基于用戶的推薦程序和基于物品的推薦程序都依賴于UserSimilarity這個組件,及用戶或物品之間的相似性,缺乏對用戶或物品的相似性定義的推薦方法是毫無意義的。相似度算法包括了歐氏距離相似度(EuclideanDistanceSimilarity)、皮爾遜相關(guān)系數(shù)相似度(PearsonCorrelationSimilarity)、曼哈頓距離相似度(CityBlockSimilarity)、對數(shù)似然相似度(LogLikehoodSimilarity)、谷本系數(shù)相似度(TanimotoCoefficientSimilarity)等
1.3 用戶近鄰
近鄰算法適用于基于用戶的協(xié)同過濾算法,選出前N個最相似的用戶構(gòu)成鄰域,作為最終推薦參考的用戶。近鄰算法分為2種:基于固定大小和基于閾值的。NearestNUserNeighborhood實現(xiàn)基于固定大小的鄰域,指定N的個數(shù),如選出前10個最相似的用戶;ThresholdUserNerghborhood實現(xiàn)基于閾值的鄰域,指定比例,如選擇前10%最相似的用戶。
1.4 推薦算法
Mahout的推薦算法以Recommender作為基礎(chǔ)父類,實現(xiàn)類有基于用戶的推薦算法、基于物品的推薦算法、基于物品的KNN的推薦算法、Slope-one推薦算法、基于奇異值分解(SVD)的推薦算法、基于聚類(TreeCluster)的推薦算法。推薦算法對比如表1所示。
2 Mahout在推薦系統(tǒng)中的應(yīng)用
上節(jié)介紹了Mahout提供的推薦算法,接下來講述如何在數(shù)據(jù)集上使用Mahout開發(fā)推薦系統(tǒng)。首先分析樣本數(shù)據(jù),對數(shù)據(jù)做預(yù)處理,然后選取一個方法,收集數(shù)據(jù)、評估結(jié)果,多次重復(fù)這個過程,找到最優(yōu)的推薦算法創(chuàng)建一個推薦引擎。
本示例數(shù)據(jù)來自捷克的一個約會網(wǎng)站(http://libimseti.cz)。該網(wǎng)站的用戶可以對其他用戶的檔案進行評分,分值從1到10不等,分值1代表“喜歡”,分值10代表“不喜歡”。
2.1 數(shù)據(jù)的輸入
示例數(shù)據(jù)集有17359346份評分,存儲為ratings.dat文件,是一個簡單地以逗號分界的文件,包含用戶ID、檔案ID和評分,檔案是指其他用戶的檔案。每行代表一個用戶對另一個用戶檔案的一次評分,如:1,133,8,表示用戶ID為“1”的用戶對檔案ID為“133”的評分值為8。輸入數(shù)據(jù)的格式直接可以用于Mahout的FileDataModel。即用戶和檔案是數(shù)字,文件按字段依次以逗號分隔:用戶ID,物品ID,偏好值。
2.2 尋找一個有效的推薦程序
為了創(chuàng)建一個推薦引擎來處理示例數(shù)據(jù),需要從Mahout中挑選一個推薦程序。通過在基于用戶的推薦程序和基于物品的推薦程序下選擇幾種不同的相似性度量和鄰域定義進行嘗試性測試,測試結(jié)果如表2、表3所示。
以上的結(jié)果較為理想。這些推薦程序估計的用戶偏好平均偏差在1.12~1.56之間,而取值范圍為1~10。最佳的方案是選擇基于歐氏距離相似性度量和2個最近鄰域的基于用戶的推薦程序,其評分估值為1.12。
從結(jié)果看出,平均誤差,即估計值和實際值的平均差值翻了大概2倍,具體值超過了2,顯然基于物品的推薦方法相較于基于用戶的推薦方法效果不佳。
Slope-one推薦程序在數(shù)據(jù)模型中的大多數(shù)物品對之間求得一個差值。示例數(shù)據(jù)集中有168791個物品(檔案),意味著潛在存儲了280億個差值,它太龐大因而無法存入內(nèi)存。可以考慮在數(shù)據(jù)庫中存儲這些差值,但會極大地降低性能。對于示例數(shù)據(jù)集,Slope-one推薦程序也并非最佳選擇。
讀者還可以嘗試更多的組合進行測試,經(jīng)過目前所做的測試進行對比分析,這里在Mahout中選擇最佳方案:基于用戶的推薦程序,采用歐氏距離測度且鄰域為2。
2.3 評估性能
使用Mahout的LoadEvaluator類評估該數(shù)據(jù)集上使用的推薦程序,采用如下的標(biāo)識類參數(shù):-server Cd64 CXmX2048 CXX:+UseParallelGC CXX:+UserParallelOldGC。在測試機上平均每次推薦會用218ms。這個程序在運行時僅占用1GB左右的堆空間。這些測試結(jié)果是否可被接受,依賴于應(yīng)用的需求和可用的硬件資源。對于許多應(yīng)用而言,這些測試數(shù)據(jù)應(yīng)該還是符合要求的。
3 結(jié)束語
本文通過使用一個來自約會網(wǎng)站的數(shù)據(jù)作為示例,分析了數(shù)據(jù)的格式,使之成為適合Mahout應(yīng)用的數(shù)據(jù)輸入格式。通過嘗試性測試不同算法組件的組合進行對比,找出最佳的推薦程序,并對推薦程序進行性能評估,使讀者了解在Mahout選擇和創(chuàng)建一個推薦引擎的基本過程。本文僅討論了基于單機內(nèi)存的算法,基于Hadoop的分布式算法將是今后考慮的研究方向。
參考文獻:
[1] 朱倩,錢立.基于Mahout的推薦系統(tǒng)的分析與設(shè)計[J].科技通報,2013(6):35-36.
[2] 韓懷梅,李淑琴.基于Mahout的個性化推薦系統(tǒng)架構(gòu)[J].北京信息科技大學(xué)學(xué)報:自然科學(xué)版,2014(4):51-54.
關(guān)鍵詞:移動電子商務(wù);個性化推薦;基于位置的服務(wù)(LBS);用戶興趣模型
一、引言
2011年中國移動電子商務(wù)進入了快速發(fā)展的軌道,部分電商企業(yè)在移動終端取得了非常不錯的成績,到2012年年末,中國移動電子商務(wù)的發(fā)展進入爆發(fā)期。相對于傳統(tǒng)電子商務(wù)而言,移動電子商務(wù)具有移動性、虛擬性、非結(jié)構(gòu)化數(shù)據(jù)、個性化和社會性等主要特征,其移動性一般體現(xiàn)在用戶的可移動特征及用戶需求對情境的依賴性。推薦系統(tǒng)便是在這種大的環(huán)境下產(chǎn)生的,主要是為用戶推薦其感興趣的對象。
二、個性化推薦系統(tǒng)簡介
個性化推薦系統(tǒng)主要是為了向用戶自動推薦,是從信息中找出符合用戶喜好或需求的資源,在此基礎(chǔ)上為用戶提供一種智能推薦系統(tǒng),解決互聯(lián)網(wǎng)信息過載的問題。
(一)個性化推薦系統(tǒng)的構(gòu)成
個性化推薦系統(tǒng)可分三個部分:輸入模塊(Input Function)、推薦模塊(Recommendation Method)和輸出模塊(Output Function)。一個完整的個性化推薦系統(tǒng)包括三個部分:用戶信息的收集和分類、建立用戶喜好的模型、使用算法為用戶推薦。
(二)電子商務(wù)活動與個性化推薦系統(tǒng)的結(jié)合
客戶在選擇商品時往往會碰到在商家提供的浩大的信息面前無法快速找到所需產(chǎn)品信息的問題,在此種情形下,商家通過個性化推薦可快速地為客戶提供服務(wù),找到其所需的商品,最終完成購買活動。
1.將電子商務(wù)網(wǎng)站的瀏覽者轉(zhuǎn)變?yōu)橘徺I者
個性化推薦可快速的為客戶找到其所需的商品,可以將一個網(wǎng)頁的瀏覽者變成一個實實在在的購買者。可減少商家客戶的流失率,減少客戶瀏覽網(wǎng)頁查詢商品目錄的時間。
2.提高電子商務(wù)網(wǎng)站的銷售能力
個性化推薦可減少客戶瀏覽網(wǎng)頁的時間,為客戶提供精準(zhǔn)的推薦,如果推薦的產(chǎn)品得到客戶的認同,可大大地提高網(wǎng)站的銷售量,訂單數(shù)量也會增加。
(三)個性化推薦系統(tǒng)的分類
從技術(shù)實現(xiàn)角度來看,個性化推薦系統(tǒng)主要劃分為四大類:一是規(guī)則基礎(chǔ)上的推薦;二是內(nèi)容基礎(chǔ)上的推薦;三是協(xié)同過濾基礎(chǔ)上的推薦;四是混合型推薦。
1.規(guī)則基礎(chǔ)上的推薦
規(guī)則基礎(chǔ)上的推薦主要是通過系統(tǒng)之前的規(guī)則進行推薦。規(guī)則基礎(chǔ)上的推薦所用的語句為IF-Then,根據(jù)事先設(shè)定的規(guī)則,“IF”主要規(guī)定了所出現(xiàn)的各種情形,在各種情形基礎(chǔ)上,“Then”將輸出提供的各種推薦資源和服務(wù)。這種規(guī)則也是可變的,客戶也可以制定規(guī)則。規(guī)則基礎(chǔ)上的推薦相對比較簡單,客戶理解起來比較容易。
2.內(nèi)容基礎(chǔ)上的推薦
內(nèi)容基礎(chǔ)上的推薦主要是基于用戶之前喜歡的產(chǎn)品,通過分析之前所喜好的產(chǎn)品特征,通過相似度計算和其他技術(shù),最終為客戶提供與其偏好相似的新產(chǎn)品系列。
3.協(xié)同過濾推薦
協(xié)同過濾推薦是一種綜合推薦,結(jié)合客戶之前的購買活動特征與新晉的目標(biāo)客戶之間的相似度進行比較,為新客戶進行推薦。
4.混合型推薦
和如上兩種推薦不同,混合型推薦不涉及比較用戶模型和信息的相似度,而主要是利用用戶對于各個資源的評分或評價來發(fā)掘各個用戶之前的相似點,應(yīng)用這些相似點為新客戶提供更加精確的推薦?;旌闲屯扑]成立的前提是具有相似點的客戶對于一種資源的評價一致,那么其對另外一種資源的評價也將是一致的。這樣我們便可將不同興趣的用戶進行劃分分類,為同一類的客戶推薦相似的產(chǎn)品。
三、移動客戶端與個性化的結(jié)合
使用移動客戶端的用戶,其興趣和需求并不是固定不變的,而是隨著時間和用戶所處的情景而變化。例如,用戶在旅行時往往會關(guān)注天氣、旅館和交通工具信息;在休假時一般會關(guān)注娛樂信息和促銷信息。這些都極大地增加了預(yù)測用戶行為和分析用戶偏好的難度。
(一)移動電子商務(wù)環(huán)境下個性化推薦的特點
隨著3G技術(shù)的發(fā)展及移動客戶端的開發(fā)應(yīng)用,用戶可在移動環(huán)境下進行辦公或購物。相比傳統(tǒng)電子商務(wù)環(huán)境下的推薦,移動商務(wù)環(huán)境下的個性化推薦擁有新的特點,主要表現(xiàn)在推薦范圍和推薦時間方面。從推薦范圍來看,移動環(huán)境下的推薦并非是固定的,面對的用戶群也不是有限的;移動推薦系統(tǒng)所面對的是“移動”的用戶,而不是傳統(tǒng)的位置相對不變的傳統(tǒng)的臺式機訪問,移動環(huán)境下更多的要考慮用戶的空間位置變化,要隨時將用戶位置納入到推薦序列中。
(二)基于LBS的個性化推薦系統(tǒng)
1.LBS簡介
LBS(Location Based system)是在互聯(lián)網(wǎng)快速發(fā)展的基礎(chǔ)上新興的位置服務(wù)。伴隨著手機終端的迅速發(fā)展,使用LBS的用戶總數(shù)也在逐年增加。LBS也被稱為位置簽到服務(wù),其定義為采用GPS基站等相關(guān)定位技術(shù),結(jié)合GIS,以短信、彩信及客戶端軟件為用戶提供的基于地理位置的信息服務(wù)。下圖主要展示了我國提供LBS企業(yè)的市場情況。
特別對于旅行者而言,LBS可實時了解到旅行者的空間位置信息,針對移動變化的位置也可以提供準(zhǔn)確的推薦。
2.LBS的特征及其對個性化推薦的要求
(1)LBS的特征
LBS的突出特征體現(xiàn)在位置敏感、突發(fā)性和即時訪問三個方面。在LBS環(huán)境下,可以方便地跟蹤到用戶的地理位置信息,很容易地識別用戶的身份及對用戶的需求進行處理。在移動環(huán)境下,即使發(fā)生突發(fā)事件,也能及時滿足用戶的需要,這些都提高了用戶使用LBS的便利性。例如,用戶可及時了解天氣、酒店和所感興趣的其他信息,不會受到時間、地點的阻礙,同步性增強。
(2)LBS對個性化推薦系統(tǒng)的要求
LBS環(huán)境下的用戶處于不斷變化的情境之下,用戶的興趣可分為短期的和長期的,因此必須區(qū)分出長期興趣和短期興趣,對于用戶興趣的變化要進行及時響應(yīng),最終才能為用戶做出精準(zhǔn)的個性化推薦。
四、個性化推薦系統(tǒng)與情境的結(jié)合
(一)傳統(tǒng)二維推薦系統(tǒng)
傳統(tǒng)的推薦系統(tǒng)將用戶作為一個推薦列表輸出,將用戶項目描述成一個函數(shù),主要包括:輸入數(shù)據(jù)、二維推薦函數(shù)、推薦輸出列表。
傳統(tǒng)推薦系統(tǒng)使用的數(shù)據(jù)一般以用戶、項目、評分的形式出現(xiàn)。首先收集數(shù)據(jù),之后構(gòu)建推薦函數(shù),在構(gòu)建函數(shù)過程中主要是使用函數(shù)處理用戶u及每個用戶對項目的評價或評分,在分析后根據(jù)用戶的項目評分排序最終生成推薦列表。
(二)基于情境的推薦系統(tǒng)
和傳統(tǒng)的推薦系統(tǒng)相比,融入了情境的推薦流程會發(fā)生變化,數(shù)據(jù)由U*I*R變?yōu)閁*I*C*R,該模型中引入的C為情境維度,也就是將情境加入到推薦模型中。隨著應(yīng)用情境信息階段的不同,有了在推薦系統(tǒng)中整合情境信息的三種不同的方式。
1.前置情境過濾
這種方式的推薦模型主要是將情境C納入到用于選擇或構(gòu)建相關(guān)數(shù)據(jù)之中,在處理數(shù)據(jù)之前便將情境融入模型中。前置情境過濾方法使用情境信息作為過濾條件來選擇最相關(guān)的用戶X項目數(shù)據(jù)來生成推薦。前置情境過濾相比較其他兩種的優(yōu)勢主要是其使用是為傳統(tǒng)推薦方法。
2.后置情境過濾
與前置情境過濾相比較而言,在后置情境過濾下,一開始并沒有將情境信息融入進來,應(yīng)用傳統(tǒng)的推薦系統(tǒng)事先將各種數(shù)據(jù)進行處理和評分,在此之后再將情境信息C引入到模型中,調(diào)整之前的推薦結(jié)果,主要是剔除與情境不符合的推薦列表,調(diào)整列表推薦的順序,找出最符合用戶特定情境的推薦列表。
啟發(fā)式和模型式是后置情境過濾的兩種方法,前一種方法主要是找到用戶所共有的特征然后使用這些屬性來調(diào)整推薦。對于后置情境過濾而言,其可以使用任何傳統(tǒng)推薦技術(shù)。
3.情境建模
情境建模方法直接應(yīng)用了情境所包含的內(nèi)容信息,這種方法使用的為多維推薦,其整合了情境信息、用戶數(shù)據(jù)、項目信息的預(yù)測模型或啟發(fā)式計算方法。
四、結(jié)論
移動環(huán)境下的個性化推薦研究日益被業(yè)界重視。抓住了用戶興趣建模也是抓住了個性化推薦的核心,本文主要在傳統(tǒng)的推薦模型下將情境信息引入到用戶興趣模型,將情境融入到推薦矩陣中,將情境與用戶對項目的興趣度相結(jié)合,為移動環(huán)境下的用戶模型構(gòu)建提供理論框架。
參考文獻:
[1]吳麗花,劉魯.個性化推薦系統(tǒng)用戶建模技術(shù)綜述[J].情報學(xué)報,2006(02).
[2]曾春,邢春曉,周立柱.個性化服務(wù)技術(shù)綜述[J].軟件學(xué)報,2002(10).
[3]裴仰軍.個性化服務(wù)中用戶興趣模型的研究[D].重慶大學(xué),2005.
[4]費洪曉,戴戈,穆等.個性化信息過濾系統(tǒng)中用戶興趣模型建立和更新[J].計算機系統(tǒng)應(yīng)用,2007(08).
隨著印本圖書資源的不斷豐富,如今的圖書館成為名副其實的“書?!?。沒有“羅盤”的用戶進入圖書館非但不能遨游書海,反而迷失于書海,因此,用戶希望擁有能夠快速幫助自己找到目標(biāo)書籍的“羅盤”,降低尋找書籍的精力和時間成本,而圖書館工作者也希望能夠為用戶提供一種高效的工具來滿足用戶需求,改善用戶體驗。圖書館個性化推薦系統(tǒng)正是解開這把雙向鎖的鑰匙,為解決用戶和圖書館所面臨的信息過載問題而提出的一種智能系統(tǒng)[1,2],成為跨越用戶與館藏資源之間信息鴻溝的橋梁。
如齊普夫省力法則所述,一個系統(tǒng)即使其效用性很高,但是其易用性不好也會使用戶的使用概率大打折扣。從目前圖書館的推薦系統(tǒng)來看,大多數(shù)是從推薦的準(zhǔn)確性及推薦算法改進方面開展的,注重用戶模型的研究,但忽略了用戶與信息標(biāo)志物之間的距離問題,即在信息推送的同時,讀者并不在該書籍附近,如果是非必需的書籍,讀者忽略推薦的可能性就會比較大,推薦就起不到良好的效果。而基于定位的個性化推薦加入用戶此時所處位置,將位置與用戶的興趣相結(jié)合,便能很好地為用戶提供個性化服務(wù)。本文試圖參考大眾點評基于位置信息服務(wù)的個性化推薦方式,結(jié)合RFID無線射頻識別技術(shù),探尋一種適合于定位圖書館用戶的方法。
2 RFID技術(shù)與圖書館個性化推薦系統(tǒng)的國內(nèi)外研究現(xiàn)狀
2.1 RFID技術(shù)的國內(nèi)外研究現(xiàn)狀
RFID是一種非接觸式的自動識別技術(shù),主要利用無線射頻信號和空間耦合的數(shù)據(jù)傳輸原理,對物體進行自動識別,并讀寫相關(guān)數(shù)據(jù),而在識別系統(tǒng)和特定目標(biāo)之間無須接觸。在圖書館中,應(yīng)用RFID系統(tǒng)可以將圖書的書名、條形碼、借閱記錄以及讀者信息等匯集在一起,并能快速識別,起到優(yōu)化借還書操作程序,提高館藏圖書清點速度,提高圖書整價和歸位等良好效果,此外,它具有的良好穿透能力也能改進用戶自助體驗,省時高效,提高用戶的滿意度。目前,RFID技術(shù)在國內(nèi)外發(fā)展都很快,應(yīng)用范圍很廣,如圖書館、門禁系統(tǒng)、高速公路自動收費系統(tǒng)、停車場管理系統(tǒng)、食品安全溯源等。
國外圖書館應(yīng)用RFID技術(shù)開始較早,同時發(fā)展也比較迅速。目前,在英國、美國、德國、日本及新加坡等都有較成熟的RFID系統(tǒng)。Elisha OndiekiMakori[3]指出,在發(fā)展中國家,RFID技術(shù)被當(dāng)做一種現(xiàn)代信息系統(tǒng)廣泛應(yīng)用于圖書館,提高圖書館為用戶服務(wù)的效率和質(zhì)量。Yogesh K. Dwivedi[4]以問卷調(diào)查的方法調(diào)查了經(jīng)常使用RFID技術(shù)的181名圖書館用戶,調(diào)查結(jié)果表明,系統(tǒng)質(zhì)量、用途和用戶滿意度是影響用戶選擇RFID的主要因素。此外,國外圖書館使用RFID技術(shù)還顯現(xiàn)出很多優(yōu)勢,如提高用戶滿意度,提高工作效率等[5]。
國內(nèi)圖書館應(yīng)用RFID技術(shù)較晚,2006年,“射頻識別(RFID)技術(shù)與應(yīng)用”等20個重大課題,同時設(shè)立了中國國家高技術(shù)研究發(fā)展技術(shù),意味著國家正以計劃和資金啟動RFID技術(shù)的全面應(yīng)用,圖書館成為試點對象,逐漸開始了RFID技術(shù)的使用,集美大學(xué)、汕頭大學(xué)、北京石油化工學(xué)院、西安理工大學(xué)、北京理工大學(xué)等圖書館隨后使用了RFID技術(shù)[6]。余昭芬提出,RFID技術(shù)可以為智能便攜式找書器的到來奠定基礎(chǔ),實現(xiàn)與圖書館固定資產(chǎn)數(shù)字化管理的無縫對接,對圖書借閱數(shù)據(jù)的統(tǒng)計與分析,使現(xiàn)代圖書館實現(xiàn)智能化書車管理,實現(xiàn)智能化移動書亭成為可能[7]。
2.2 高校圖書館個性化推薦系統(tǒng)的國內(nèi)外研究現(xiàn)狀
高校圖書館的個性化推薦,是指圖書館根據(jù)用戶的興趣愛好、借閱記錄、個人需求等,主動分析用戶的興趣愛好特點,進而智能高效地為用戶提供一一對應(yīng)式的圖書推薦。圖書館的個性化推薦方法是主動服務(wù)用戶,使用戶滿意推薦結(jié)果并快速、準(zhǔn)確地定位自己所需要的書籍。
國外圖書館個性化推薦的研究始于20世紀(jì)七八十年代,當(dāng)時學(xué)者們提出“采用圖書館推送的服務(wù)來滿足讀者的需求”,此概念可以稱之為最初關(guān)于圖書館個性化推薦的雛形[8]。隨著信息技術(shù)的飛速發(fā)展,美國康奈爾大學(xué)研制了MyLibrary系統(tǒng),隨后,很多大學(xué)及公共圖書館以此為標(biāo)準(zhǔn),創(chuàng)建并使用了類似MyLibrary的系統(tǒng)和服務(wù),如My Gateway(美國華盛頓大學(xué)圖書館)、BraryDog(德國梅克倫堡州公共圖書館),My Library(美國加州工藝州立大學(xué)圖書館),My Library@UT(美國西南得克薩斯醫(yī)學(xué)中心圖書館),my.library(加拿大多倫多大學(xué)圖書館),MyLibrary(新西蘭克萊斯特徹奇教育學(xué)院)以及My UCLA(美國加利福尼亞大學(xué)洛杉磯分院)[9]。
在國內(nèi)也有不少學(xué)者對圖書館的個性化推薦展開了相關(guān)研究,孫雨生和董慧針對當(dāng)前數(shù)字圖書館個性化推薦過程中出現(xiàn)的問題,分析了互聯(lián)網(wǎng)、語義網(wǎng)、網(wǎng)格技術(shù)在數(shù)字圖書館個性化推薦領(lǐng)域的應(yīng)用局限性,提出基于語義網(wǎng)格的數(shù)字圖書館個性化推薦體系結(jié)構(gòu)與總體框架[10]。聶飛霞對數(shù)據(jù)挖掘的關(guān)聯(lián)規(guī)則與聚類分析技術(shù)進行了系統(tǒng)研究,并將其應(yīng)用到高校圖書館數(shù)據(jù)挖掘工作中,對讀者的閱讀興趣以及圖書的利用率進行分析,最終設(shè)計了一個適合西北大學(xué)圖書館的個性化推薦服務(wù)系統(tǒng)[11]。此外,還有很多學(xué)者致力于探討適合高校圖書館個性化服務(wù)的推薦算法、推薦模型和推薦系統(tǒng)。
3 利用RFID技術(shù)實現(xiàn)圖書館個性化推薦服務(wù)探討
伴隨著移動網(wǎng)絡(luò)及智能手機的普及,信息環(huán)境發(fā)生了巨大的變化,引發(fā)了由靜態(tài)信息服務(wù)向動態(tài)信息服務(wù)的轉(zhuǎn)變,帶來數(shù)字化信息服務(wù)的全面升級[12-14]。著眼于圖書館領(lǐng)域,移動信息環(huán)境的變革將催生出有別于傳統(tǒng)圖書館信息服務(wù)的新方式。
3.1 普適環(huán)境給圖書館個性化推薦服務(wù)帶來的變革
在移動終端設(shè)備、移動通信網(wǎng)絡(luò)飛速發(fā)展及用戶信息需求個性化的影響下,普適環(huán)境悄然興起,由此所產(chǎn)生的普適服務(wù)也逐漸呈現(xiàn)在用戶面前。普適服務(wù)是基于Weiser于1991年提出的普適計算思想[15],在普適計算模式下,通過計算機、通信和數(shù)字媒體等多種技術(shù)的融合,將信息空間與人們生活的物理空間關(guān)聯(lián)成一個和諧的智能環(huán)境,從而提供無處不在的信息服務(wù),人們可以隨時隨地、無任何障礙地獲取這些服務(wù)。普適環(huán)境中用戶位置信息的變換性使得在普適服務(wù)中用戶的個性化特點逐漸凸顯。具體表現(xiàn)在:
(1)實時性推薦
在有線網(wǎng)絡(luò)時代,臺式機及筆記本電腦等設(shè)備限定了用戶的位置,使用戶在靜止的狀態(tài)下接受圖書館推薦服務(wù)。進入普適服務(wù)時代,移動設(shè)備的便捷性使得用戶在請求圖書館提供服務(wù)時常常是在不斷的“移動”中,這種位置信息的不斷變換就要求系統(tǒng)有較強的快速反應(yīng)能力,能夠?qū)崟r反饋用戶的服務(wù)需求,如果用戶已經(jīng)從文學(xué)庫移動到歷史書庫了,系統(tǒng)才將用戶在文學(xué)庫的服務(wù)要求結(jié)果反饋給用戶,此時用戶的需求因為位置的變換也已發(fā)生改變,延遲性的服務(wù)結(jié)果無法滿足普適服務(wù)的要求。
(2)云端化推薦
雖然目前智能手機已進入八核時代,但和傳統(tǒng)的PC設(shè)備相比,移動終端在硬件方面仍然具有較大差距,無線網(wǎng)絡(luò)信號的不穩(wěn)定性及延遲性,同樣使得移動端設(shè)備只能作為接收設(shè)備,大部分的數(shù)據(jù)處理都需放在云端才能實現(xiàn)。
(3)開放式推薦
圖書館目前所采用的信息推薦服務(wù)方式多為定制化服務(wù),其中RSS是圖書館最為常用的信息推薦服務(wù)方式,只有申請了相關(guān)服務(wù)并填寫相關(guān)資料的用戶才能享受推薦服務(wù),沒有開通的用戶則無法使用,而普適服務(wù)的開放性使得每一個用戶在信息獲取方面都處于相同的地位,只要是該圖書館的用戶,擁有相應(yīng)的移動接收終端,進入服務(wù)環(huán)境后就能夠享受圖書館提供的信息推薦服務(wù)。同樣,加入RFID電子標(biāo)簽的書籍也是整個開放普適環(huán)境中的一份子,用戶或管理員能夠隨時隨地感知書籍的位置信息,提高找尋及管理效率,有效節(jié)約時間成本。
3.2 定位技術(shù)在圖書館個性化推薦服務(wù)中的作用
個性化推薦能夠促進借閱轉(zhuǎn)化,改善借閱體驗,提高館藏利用率,還能完善用戶體驗效果,增加用戶對圖書館的黏性。而定位技術(shù)能夠準(zhǔn)確定位用戶所在書庫,給用戶提供當(dāng)前位置附近的書籍,往往更能貼近用戶此時的需求,達到令用戶滿意的效果。筆者總結(jié)出目前利用RFID定位技術(shù)在圖書館個性化推薦中的作用主要有以下三點:
(1)實現(xiàn)書庫隔離
利用RFID進行空間定位是一種全新的定位技術(shù),它可以有效定位用戶當(dāng)前所在位置,現(xiàn)有的個性化推薦是針對整個圖書館這一整體而言的,推薦的書籍也是分散在不同的書籍庫中,在個性化推薦中,加入定位技術(shù)可以為后續(xù)的計算提供強有力的支撐。此外,按照圖書館所采取的分類標(biāo)準(zhǔn),把整個圖書館分成不同的書庫,以位置信息為尺度實現(xiàn)書庫之間的隔離,有助于后臺數(shù)據(jù)庫的整理,簡化計算的流程,而且“位置―用戶―書籍”的立體化結(jié)構(gòu)可以更方便地分析用戶之間的關(guān)聯(lián)性,這樣就可以為推薦提供更加有針對性的參考。
(2)實現(xiàn)數(shù)據(jù)降維,減小運算負荷
傳統(tǒng)的推薦方式往往是以整個圖書館的書籍為基礎(chǔ)進行計算,當(dāng)有新的用戶出現(xiàn)時,為了尋找相似性用戶,保證推薦的準(zhǔn)確性,往往需要調(diào)用所有學(xué)生的數(shù)據(jù)記錄,因此,運算負荷比較大。而利用RFID技術(shù)進行個性化推薦,在個性化推薦中加入位置因素,可以通過尋找用戶所在位置,然后調(diào)用用戶當(dāng)前所在書庫中的數(shù)據(jù),而不需要調(diào)用整個圖書館的數(shù)據(jù),并且當(dāng)出現(xiàn)新的需求變更時,只需在本書庫內(nèi)進行興趣偏好的更新,就可以大大降低運算維度,從而降低計算機的運算負荷,提高運算的速度。
(3)提高推薦的實時性和針對性
用戶在尋找書籍時,一旦有目的地來到某個書庫,就表示用戶此時的需求是該書庫中的書籍,而利用RFID技術(shù)進行個性化推薦,在個性化推薦系統(tǒng)中加入定位技術(shù),可以快速地定位用戶當(dāng)前所在位置,根據(jù)用戶的位置,將計算得出的書籍推薦給用戶,不但具有實時性,即用戶在圖書館的某一個書庫時只給用戶推薦該書庫中的書籍,不需要很長的時間間隔,而且具有很好的針對性,推薦的書籍正好是用戶所在位置附近的書籍,同時提高了借閱率,促進了圖書的流通。
關(guān)鍵詞:搜索引擎;關(guān)鍵詞推薦;個性化;專利分析
引言
隨著互聯(lián)網(wǎng)的普及,搜索引擎已經(jīng)成為人們獲取信息的主要手段之一。搜索引擎采用的主要交互方式為用戶自主輸入關(guān)鍵詞,檢索系統(tǒng)根據(jù)輸入的關(guān)鍵詞提供檢索結(jié)果。然而,由于用戶輸入的關(guān)鍵詞通常較短,且可能存在歧義、意圖模糊等情況,使其不能精確地表達其搜索意圖。為了幫助用戶更好地構(gòu)造關(guān)鍵詞,通常搜索引擎會使用個性化關(guān)鍵詞推薦技術(shù)。其通過分析文檔結(jié)構(gòu)、用戶瀏覽行為及用戶對文檔的評價等信息,建立用戶的興趣模型,推薦出用戶實際所需的關(guān)鍵詞,提高搜索準(zhǔn)確性,改善用戶智能、便捷的搜索體驗。
1 個性化關(guān)鍵詞推薦技術(shù)概述
早在上世紀(jì)90年代,學(xué)者就開展了一些關(guān)鍵詞推薦相關(guān)研究,如今已成為搜索引擎的必備技術(shù)之一。個性化關(guān)鍵詞推薦根據(jù)所依賴的數(shù)據(jù)源不同大體可分為三類:基于文檔詞典、基于搜索日志和其他相關(guān)技術(shù),如圖1所示。
(1)基于文檔詞典的關(guān)鍵詞推薦技術(shù)是以當(dāng)前關(guān)鍵詞返回的文檔內(nèi)容為對象,對文檔進行概括來提取關(guān)鍵詞,并將關(guān)鍵詞按類別進行聚類,最后將關(guān)鍵詞反饋給用戶。該技術(shù)不考慮用戶的歷史記錄,根據(jù)文檔內(nèi)容之間的相似度來提取用戶興趣,并基于各種詞庫(如分類詞庫、同義詞庫、關(guān)聯(lián)詞庫、外語詞庫、糾錯詞庫和分詞詞庫等)來推薦關(guān)鍵詞。
(2)基于用戶搜索日志的關(guān)鍵詞推薦技術(shù)是從用戶角度出發(fā),以用戶搜索日志中的歷史記錄作為對象,采用聚類技術(shù)計算關(guān)鍵詞之間的相似度,并返回相關(guān)度較高的關(guān)鍵詞。該技術(shù)通常會從搜索日志中分析用戶操作行為,提取用戶標(biāo)識和群體特征。
(3)對于個性化關(guān)鍵詞推薦中的其他相關(guān)技術(shù),其主要包含了能夠使用戶更加便捷地使用搜索引擎所采用的一些其它技術(shù)。例如,與用戶之間進行語音交互、結(jié)合用戶當(dāng)前位置信息等手段來提供關(guān)鍵詞。
2 個性化關(guān)鍵詞推薦相關(guān)專利申請分析
本文在CNABS和DWPI數(shù)據(jù)庫中,通過“搜索”、“關(guān)鍵詞”、“推薦”及其中英文擴展詞匯作為主要關(guān)鍵詞,并排除IPC分類號為G06Q的噪聲文獻,檢索得到的2016年5月以前公布的300余篇專利文獻作為樣本,對全球的專利申請量的趨勢、申請區(qū)域分布以及重要申請人分布進行分析,從中得到技術(shù)發(fā)展趨勢,以及各階段專利申請人所屬的國家分布和主要申請人分布。其中,以每個同族中最早優(yōu)先權(quán)日期視為該申請的申請日,一系列同族申請視為一件申請。
2.1 國際專利申請量趨勢分析
圖2給出了個性化關(guān)鍵詞推薦技術(shù)的全球?qū)@暾堏厔?,大致可以分為四個時期,各時期劃分以申請量增長率的變化為標(biāo)準(zhǔn)。
2.1.1 萌芽階段(2003年之前)
搜索引擎起源于1990年,經(jīng)歷近10年的發(fā)展后,開始向個性化趨勢邁進。1998-2003年是個性化搜索引擎中的關(guān)鍵詞推薦技術(shù)從無到有的萌芽階段,該階段申請量極少。具有代表性的申請人是國際商業(yè)機器(IBM)公司以及皇家飛利浦(KONINK PHILIPS)電子股份有限公司。
2.1.2 平穩(wěn)增長階段(2004年-2007年)
從2004年開始,關(guān)于個性化關(guān)鍵詞推薦技術(shù)的專利每年的申請量明顯比2003年之前的申請量多,申請量和申請人的發(fā)展總體趨勢趨于平穩(wěn)增長。在此階段,申請量前三位的國別分布如圖3所示。美國申請的專利量占67%,其中,前四位的申請人分別是微軟公司、谷歌公司、雅虎公司、IBM公司。另外,韓國和中國分別占25%和5%,這也從側(cè)面說明這個時期內(nèi),中國和韓國在搜索引擎所涉及的IT技術(shù)領(lǐng)域發(fā)展迅猛。
2.1.3 快速增長階段(2008年-2011年)
在2008年-2011年之間,除了2009年出現(xiàn)了下滑趨勢(經(jīng)濟環(huán)境背景的影響)以外,該技術(shù)的申請量和申請人數(shù)量呈現(xiàn)跨越式增長。這是由于在此期間IT產(chǎn)業(yè)的迅猛發(fā)展,使得企業(yè)對于個性化關(guān)鍵詞推薦技術(shù)的關(guān)注度急劇提升,因此出現(xiàn)了申請量的快速增長。在此階段,申請量占前四位的國別分布如圖4所示??梢钥闯觯袊谶@一時期內(nèi)的申請保持著較快的發(fā)展,并且申請量超過起步較早的韓國和日本,這與中國在2008年之后各種IT類型企業(yè)迅猛發(fā)展息息相關(guān)。而美國的申請量趨于穩(wěn)定,技術(shù)發(fā)展成熟度也較高,保持著絕對的領(lǐng)先地位。
2.1.4 成熟階段(2012年-至今)
個性化關(guān)鍵詞推薦技術(shù)的專利申請量從2012年至今呈現(xiàn)出穩(wěn)步增長的趨勢。在此階段,申請量占前五位的國別分布如圖5所示。在這一階段,中國國內(nèi)的大型公司充分意識到了知識產(chǎn)權(quán)的重要性,申請量超過了美國成為第一。特別是國內(nèi)如百度、奇虎、騰訊等公司申請的專利在數(shù)量和質(zhì)量上都有明顯提升。
2.2 本領(lǐng)域重要申請人分析
本節(jié)對本領(lǐng)域重要申請人方面做進一步分析,主要考慮申請人歷年的申請總量,按照申請總量進行排名。前16名申請人分布如圖6所示。其中GOOG:谷歌(美國);MICT:微軟(美國);BAID:百度(中國);YAHO:雅虎(美國);IBMC:國際商業(yè)機器公司(美國);QIHU:奇虎(中國);ABAB:阿里巴巴(中國);NHNN:NHN株式會社(韓國);TNCT:騰訊(中國);ETRI:韓國電子通信研究院(韓國);EBAY:電子灣(美國);FUIT:富士通株式會社(日本);INCR:INCRUIT公司(n國);KING:金山軟件(中國);NITE:日本電信電話株式會社(日本);SOGO:搜狗(中國)。
從圖6可以看出,在本領(lǐng)域,諸如谷歌、微軟、雅虎、IBM等的國際化大公司一直是較為活躍的申請人,這些申請人在申請數(shù)量以及質(zhì)量方面都占據(jù)領(lǐng)頭羊地位;諸如百度、奇虎、阿里巴巴、騰訊等的國內(nèi)知名大公司也占據(jù)著較重要的席位。
3 個性化關(guān)鍵詞推薦相關(guān)專利技術(shù)發(fā)展分析
個性化關(guān)鍵詞推薦技術(shù)可分為基于文檔詞典、基于搜索日志和其他相關(guān)技術(shù)。圖7給出了從1998年到2015年,三類技術(shù)相關(guān)的專利申請量分布。從圖7可知,基于文檔詞典和基于搜索日志的個性化關(guān)鍵詞推薦技術(shù)為主要技術(shù)。
本章將對基于文檔詞典和基于搜索日志這兩類技術(shù)的發(fā)展路線方面進行分析,給出了每個年度具有代表性的專利技術(shù)。
以申請時間為主線,基于文檔詞典的個性化關(guān)鍵詞推薦技術(shù)示例性專利如圖8所示。
以申請時間為主線,基于搜索日志的個性化關(guān)鍵詞推薦技術(shù)示例性專利如圖9所示。
4 結(jié)束語
本文結(jié)合國內(nèi)外專利申請的狀況,對個性化搜索引擎中關(guān)鍵詞推薦專利技術(shù)進行了較為全面的分析和研究,并對其發(fā)展歷程進行了回顧。從以上分析可知,我國關(guān)鍵詞推薦技術(shù)雖然起步較晚,但近十幾年發(fā)展很快,也涌現(xiàn)出一批具有競爭力的大企業(yè)。另外,目前基于文檔詞典和搜索日志的關(guān)鍵詞推薦技術(shù)已經(jīng)發(fā)展成熟,且應(yīng)用廣泛。今后的關(guān)鍵詞推薦技術(shù)應(yīng)該會向混合推薦方向發(fā)展,充分發(fā)揮每種推薦方法的優(yōu)勢,提高推薦的效率。
參考文獻
[1]張博,周瑞瑞,魚冰.協(xié)同過濾推薦算法專利綜述[J].河南科技,2015(10):3-5.
[2]王瑩,羅坤,姜磊,等.基于內(nèi)容的圖像檢索技術(shù)的專利技術(shù)綜述[J].電視技術(shù),2013,37(2):62-65.
[3]李亞楠,王斌,李錦濤.搜索引擎查詢推薦技術(shù)綜述[J].中文信息學(xué)報,2010,24(6):75-84.
關(guān)鍵詞:個性化推薦;協(xié)同過濾;聚類;廣電運營
1 背景
近年來,廣電運營在高清、互動電視平臺的建設(shè)方面取得了長足的進步,包括點播、時移、回看、資訊信息在內(nèi)的大量交互業(yè)務(wù)在各地紛紛上馬,大大改善了各地電視用戶的收視體驗,同時也為運營商平臺化進行了深入的探索和驗證。個性化推薦技術(shù)是解決上述問題的重點方案之一,通過主動把熱點內(nèi)容、最新內(nèi)容或者用戶喜好的內(nèi)容推送給用戶,用戶無需進行繁瑣的內(nèi)容瀏覽,就能快速定位到自己感興趣的內(nèi)容,一方面提升了用戶體驗,另一方面也大大增加了運營商投資購入的節(jié)目內(nèi)容的長尾效應(yīng)[1]。本文針對廣電家庭用戶個性化推薦技術(shù)的難點,重點討論利用協(xié)同過濾推薦技術(shù)與注重速度和精度的智能聚類算法來為用戶精準(zhǔn)推薦和推送其感興趣的節(jié)目內(nèi)容。
2 協(xié)同過濾推薦技術(shù)
2.1 協(xié)同過濾算法分類
隨著協(xié)同過濾技術(shù)在電子商務(wù)領(lǐng)域的廣泛應(yīng)用,協(xié)同過濾算法主要分為基于內(nèi)存、基于知識、基于模型和混合式推薦等,其中各種算法各有千秋,只能根據(jù)自身的實際情況選擇適合自身的算法。
2.2 聚類技術(shù)
一種基于用戶相似度矩陣實現(xiàn)近線分析的算法簡單描述為新物品上線后,通過門戶Portal、選單、榜單及非個性化推薦方式被老用戶收看后,可以基于系統(tǒng)通過用戶協(xié)同過濾算法得到的用戶相似度矩陣,將新物品推薦給與收看過該物品的用戶相似的其他用戶[3]。通過這種基于相似群體(簇)推薦的方式,可以將新物品的推薦能夠快速推薦給大量老用戶。
而聚類技術(shù)就是將有共同特性的項目或事物聚集在一起,在該模型中通過將有共同興趣愛好的用戶聚集在一起,認為該聚集簇中的目標(biāo)用戶與鄰居用戶有相同的產(chǎn)品風(fēng)格喜好,從而就可以向目標(biāo)用戶推薦鄰居用戶喜好的商品,這種模型推薦算法不僅可以推薦用戶所喜歡已知種類的商品,還可以向用戶推薦用戶可能會喜歡的新鮮商品。
3 k-means聚類算法
3.1 K-means聚類算法原理
K-means的算法原理是:首先從數(shù)據(jù)集(包含N個數(shù)據(jù)樣本點)中隨機選擇k個數(shù)據(jù)樣本點作為初始聚類中心,對于剩余的(N-k)個其他數(shù)據(jù)樣本點,分別將他們分配給距離那k個中心簇最近(相似度最大)的簇中,然后再分別重新計算他們的聚類中心(即該簇中所有數(shù)據(jù)樣本點的均值),不斷重復(fù)這一過程,直到聚類中心不再改變,標(biāo)準(zhǔn)測度函數(shù)開始收斂為止。否則繼續(xù)迭代執(zhí)行聚類,其算法描述如下:
輸入:數(shù)據(jù)集(包含N個數(shù)據(jù)樣本點),初始k個數(shù)據(jù)簇中心。
輸出:滿足終止迭代條件的k個數(shù)據(jù)簇。
3.2 基于k-means算法的用戶聚類
現(xiàn)實生活中,相似的用戶有共同的用戶特征、喜好特征、行為特征,而非相似用戶的用戶特征、喜好特征、行為特征等也都大相徑庭。具體來講,從用戶特征可以從這幾個大的方面來進行區(qū)分,比如說,性別,年齡,職業(yè),學(xué)歷等多方面,一般來說,不同學(xué)歷的人,由于他們對知識基礎(chǔ)的積累層次不一,導(dǎo)致他們選擇不同的分別適合他們自己的視節(jié)目對象,相似的用戶群體他們的職業(yè)、年齡或者其他方面具有一定的相似性,導(dǎo)致他們選擇了共同的電視節(jié)目。從喜好特征來講,有相同愛好的用戶,自然他們在選擇電視節(jié)目對象時,很有可能選擇同一個對象。從行為特征來講,兩個有相似行為特征的用戶很有可能選擇的電視節(jié)目對象也是同一類,所以在本文中,我們認為相似的用戶在選擇電視節(jié)目對象時也具有一定的相似性,所以我們根據(jù)用戶訂閱過的電視節(jié)目對象便可以將相似的用戶聚類。
4 改進的K-means算法
4.1 改進策略
(1)計算出數(shù)據(jù)集中N個樣本點兩兩之間的距離(本文衡量的是相似度)dis(),找到滿足的兩個樣本點d1和d2,并將它們設(shè)為初始兩個聚類中心。
(2)在剩余的(N-2)個樣本點中,選取滿足
的樣本點d3作為第三個初始聚類中心樣本點,其中,di是除去數(shù)據(jù)集中樣本點d1、d2、d3的任意一個樣本點。
(3)依此類推,直到剩余的(N-k+1)個樣本點中,選取滿足
的樣本點dk作為第k個初始聚類中心樣本點,其中,di是除去數(shù)據(jù)集中樣本點d1,d2,…dk的任意一個樣本點。
(4)對于數(shù)據(jù)集中剩余的(N-k)個樣本點,計算每個樣本點與上面求得的k個聚類中心樣本點之間的距離,并將這些樣本點歸入距離其最近的聚類中心簇中。
(5)重新計算k個數(shù)據(jù)簇的聚類中心值和標(biāo)準(zhǔn)測度函數(shù),中心值為該簇類所有樣本點的平均值,其計算公式為,標(biāo)準(zhǔn)測度函數(shù)為,其中,nj為第j類中的數(shù)據(jù)樣本點個數(shù),為聚類子類Dj的數(shù)據(jù)樣本點。;
(6)如果滿足(表示子類簇中樣本點的誤差平方和已經(jīng)收斂)或達到了最大的迭代次數(shù),表示子類樣本成員不再發(fā)生變化,就可以結(jié)束聚類。否則,返回4)步驟繼續(xù)迭代,其中,是一個任意小的數(shù),E1與E2代表前后兩次迭代的測度函數(shù)值。
4.2 相似特征用戶聚類算法流程
通過建立的矩陣模型對相似特征用戶進行聚類,首先,根據(jù)用戶與電視節(jié)目資源對象標(biāo)簽之間的訂閱關(guān)系來建立矩陣模型,根據(jù)這個矩陣模型可以獲得所有的數(shù)據(jù)集樣本點,矩陣的每行數(shù)據(jù)代表一個樣本點,且每個樣本點都是高維的,然后就是對該海量數(shù)據(jù)集應(yīng)用k-means聚類算法來對相似用戶(簇)聚類,然而由于K-means算法對初始聚類中心點比較挑剔,為了合理高效的得到有效的聚類中心點,先采取簡單隨機抽樣算法,在抽樣的數(shù)據(jù)樣本集中應(yīng)用改進的最大距離法對初始聚類中心得到優(yōu)化,同時,將K-means算法中的距離量度換為本文改進的相似度計量方式,最后根據(jù)抽樣樣本輸出的K個聚類中心,在總數(shù)據(jù)集上應(yīng)用K-means算法,將相似特征用戶進行聚類。