公務(wù)員期刊網(wǎng) 論文中心 正文

數(shù)據(jù)挖掘的電影票房分析

前言:想要寫出一篇引人入勝的文章?我們特意為您整理了數(shù)據(jù)挖掘的電影票房分析范文,希望能給你帶來靈感和參考,敬請閱讀。

數(shù)據(jù)挖掘的電影票房分析

【摘要】在電影產(chǎn)業(yè)迅猛發(fā)展的今天,票房直接反映了一部電影所帶來的經(jīng)濟(jì)效益,也是衡量一部電影成功與否的重要指標(biāo),因而對電影票房進(jìn)行分析和預(yù)測來輔助電影投資和排片十分必要。本文選取了2015~2017年三年的電影數(shù)據(jù),通過建立C5.0決策樹模型,分析了類型、檔期、發(fā)行公司、國家地區(qū)等八個(gè)重要因素對電影票房高低的影響,構(gòu)建了電影票房預(yù)測模型。在此基礎(chǔ)上,本文也對這些影響因素進(jìn)行了關(guān)聯(lián)規(guī)則分析。通過實(shí)驗(yàn)分析,得出了諸多有意義的結(jié)論,如制式是影響票房的關(guān)鍵因素。此外,結(jié)果表明,本文構(gòu)建的預(yù)測模型效果良好,可將其用于電影票房預(yù)測。

【關(guān)鍵詞】電影票房;數(shù)據(jù)挖掘;分類預(yù)測;決策樹;關(guān)聯(lián)分析

1引言

隨著人們生活水平不斷提高,我國影視行業(yè)發(fā)展迅速,成為全球第二大電影市場,同時(shí)也是增長最快的市場之一。據(jù)中國新聞出版廣電總局調(diào)查顯示,2017年全國電影總票房已經(jīng)超過550億[1],這說明中國電影產(chǎn)業(yè)有著良好的發(fā)展前景。然而,電影行業(yè)本身的高風(fēng)險(xiǎn)性和社會環(huán)境的多樣性也為電影票房帶來許多不確定因素,高投入低票房低收益的電影案例也屢見不鮮,如2016年上映的《封神傳奇》斥資5億,卻只收獲2.84億的票房。因而,研究電影票房的預(yù)測模型和相關(guān)影響因素對電影投資和排片的決策有著至關(guān)重要的指導(dǎo)性作用。電影作為一種特殊的生存期短的商品,對其票房的預(yù)測難度非常大。然而,電影在制作和宣傳過程中的高成本、高風(fēng)險(xiǎn)使得對電影票房的預(yù)測至關(guān)重要。吳發(fā)翔等[2]選取了2015年上映的200部國產(chǎn)電影作為實(shí)驗(yàn)數(shù)據(jù),通過觀眾期待度、電影自身影響度、同期競爭力等作為預(yù)測因變量,提出了基于決策樹C5.0的票房預(yù)測模型。鄭堅(jiān)等[3]選取2008~2010年之間192部國產(chǎn)電影作為數(shù)據(jù)集,提出了一種基于多層反饋神經(jīng)網(wǎng)絡(luò)的票房預(yù)測模型。王煉等[4]選取了2011年上映的211部電影進(jìn)行分析,提出了基于網(wǎng)絡(luò)搜索的票房預(yù)測模型。對比這些現(xiàn)有的票房預(yù)測研究[5],他們選取的數(shù)據(jù)集多為2016年之前,缺乏時(shí)效性。此外,他們并未將電影制式作為影響票房的因變量因素進(jìn)行分析?;诖耍疚膶?015~2017三年間在中國內(nèi)地上映的所有電影票房數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù),選取了類型、檔期、發(fā)行公司、國家地區(qū)、制式、導(dǎo)演影響力、主演影響力、同期競爭力八個(gè)影響因素,對電影票房進(jìn)行了分類分析和關(guān)聯(lián)規(guī)則分析,建立了電影票房預(yù)測模型。本文選取的實(shí)驗(yàn)數(shù)據(jù)具備很強(qiáng)的時(shí)效性,覆蓋度廣,同時(shí)創(chuàng)新性地選取了電影制式作為因變量影響因素,對電影票房預(yù)測模型的研究具有非常重要的意義。

2數(shù)據(jù)選擇和處理

數(shù)據(jù)的選擇和處理作為數(shù)據(jù)分析的重要組成步驟,會直接影響到數(shù)據(jù)分析的結(jié)果。

2.1數(shù)據(jù)選擇

本文選取了2015~2017三年的電影票房數(shù)據(jù),與其他已有的電影票房預(yù)測模型相比,具備很強(qiáng)的時(shí)效性和適用性。本文抓取的電影數(shù)據(jù)來源于中國票房網(wǎng),中國票房網(wǎng)是電影票房統(tǒng)計(jì)官方網(wǎng)站,提供詳細(xì)的電影相關(guān)信息,保證了數(shù)據(jù)的權(quán)威性、準(zhǔn)確性和完整性。本文預(yù)測的目標(biāo)變量為電影票房,預(yù)測的因變量為電影票房的八個(gè)影響因素(詳見第3章)。

2.2數(shù)據(jù)處理

本文的數(shù)據(jù)預(yù)處理分三個(gè)部分:異常處理,如,對空數(shù)據(jù)通過其他途徑得到并進(jìn)行填充或者直接剔除;數(shù)據(jù)去重,對重復(fù)數(shù)據(jù)進(jìn)行刪除;字段處理,統(tǒng)一每個(gè)字段的格式和類型,僅保留有效字段。

3電影票房的重要影響因素

電影票房預(yù)測對于降低電影的投資風(fēng)險(xiǎn)至關(guān)重要。電影票房預(yù)測模型的好壞很大程度上取決于電影票房影響因素的選擇。電影自身的影響力決定了這部電影的質(zhì)量和口碑,而質(zhì)量和口碑影響著電影的后期票房。主創(chuàng)團(tuán)隊(duì)影響力影響的則是觀眾對電影的期待度,這會影響電影的前期票房?;诖?,本文主要從電影自身影響力和主創(chuàng)團(tuán)隊(duì)影響力這兩方面出發(fā),研究了類型、檔期、發(fā)行公司、國家地區(qū)、制式、導(dǎo)演影響力、主演影響力和同期競爭力對電影票房的影響。

3.1類型

不同類型的電影有不同的受眾群體,不同的群體又具有不同的消費(fèi)水平。例如動畫類電影,觀影人群大多為兒童,相對其他群體來說人數(shù)較少,且消費(fèi)水平較低,因此會對票房產(chǎn)生一定影響。本文將電影的類型通過離散化分為12類,分別為愛情、災(zāi)難、藝術(shù)、恐怖、戰(zhàn)爭、記錄、動畫、喜劇、科幻、奇幻、動作、劇情,分析了類型對票房的影響。

3.2檔期

從某種程度上來說,檔期是電影的縱向市場。一年中的不同時(shí)段,人們的觀影需求和消費(fèi)能力有明顯差異,比如節(jié)假日通常會比非節(jié)假日的觀影需求要大得多,進(jìn)而影響票房。本文將數(shù)據(jù)進(jìn)行了離散化處理,將檔期分為5類,分別為五一檔(4.27-5.10)、暑期檔(7.1-9.1)、國慶檔(9.27-10.10)、賀歲檔(12.26-次年2.1)和其他。

3.3發(fā)行公司

好的電影發(fā)行公司一般具有專業(yè)的制作團(tuán)隊(duì),先進(jìn)的技術(shù)條件和雄厚的資本積累,是電影票房的潛在保障。本文對數(shù)據(jù)進(jìn)行了離散化,通過調(diào)研和總結(jié),將制片公司分為3類:好萊塢八大電影公司、中國十大電影公司和其他。其中,好萊塢八大電影發(fā)行公司包括:華納兄弟公司、米高梅電影公司、派拉蒙影業(yè)公司、哥倫比亞影業(yè)公司、環(huán)球影片公司、聯(lián)美電影公司、20世紀(jì)??怂闺娪肮?、迪士尼電影公司,而中國八大電影發(fā)行公司包括:中影CFGC(中國電影集團(tuán)公司)、光線傳媒(北京光線傳媒股份有限公司)、華誼兄弟(華誼兄弟傳媒股份有限公司)、博納影業(yè)BONA(博納影業(yè)集團(tuán)股份有限公司)、上影(上海電影(集團(tuán))有限公司)、萬達(dá)影業(yè)(大連萬達(dá)集團(tuán)股份有限公司)、樂視影業(yè)(樂視網(wǎng)信息技術(shù)(北京)股份有限公司)、寰亞(香港寰亞綜藝集團(tuán)有限公司)、安樂EDKO(安樂影片有限公司)、嘉映影業(yè)(北京嘉映文化傳媒有限公司)。

3.4國家地區(qū)

各個(gè)國家和地區(qū)的電影風(fēng)格各具特色,因此也會受到人們不同程度的喜愛,所以國家地區(qū)也是要考慮的因素之一。本文通過對數(shù)據(jù)進(jìn)行離散化,結(jié)合不同國家和區(qū)域的電影出品特點(diǎn),將國家地區(qū)分為5類:中國大陸(中國)、港臺(香港、臺灣)、歐美(美國、英國、法國、意大利)、日韓(日本、韓國)和其他。3.5制式近年引入的電影制式,如3D、IMAX等,其具備的立體動畫和巨型屏幕會比2D電影的代入感更強(qiáng),會帶給觀眾更好的觀影體驗(yàn),所以被不少觀眾青睞。通過分析抓取到的電影詳情數(shù)據(jù),發(fā)現(xiàn)很多電影有多種制式,如2D和3D并存。本文選取一部電影最先進(jìn)的制式(IMAX制式>3D制式>2D制式)作為離散化標(biāo)準(zhǔn),將電影制式離散化為四類:2D、3D、IMAX和其他。

3.6導(dǎo)演影響力

如果一名導(dǎo)演自身有很高的知名度,則通常他導(dǎo)演的電影也將被大眾所期待,對電影票房起著積極作用。本文將導(dǎo)演影響力作為影響電影票房的因素之一。具體地,某部電影的導(dǎo)演影響力可通過計(jì)算該電影的導(dǎo)演在此之前導(dǎo)過的兩部電影票房總和得到。通過分析2015~2017年三年來每部電影的導(dǎo)演影響力,本文將導(dǎo)演影響力離散化為5類:很低(<100)、較低(100-1000)、一般(1000-5000)、較高(5000-10000)和很高(>10000)。

3.7主演影響力

主演是電影的主角,是電影表現(xiàn)力和票房號召力不可或缺的一部分。如果參演人員本身具有表演實(shí)力和一定知名度且受人們喜愛,則電影的受期待程度通常較高,對電影票房有著積極影響。本文將主演影響力作為影響電影票房的因素之一。具體地,某部電影的主演影響力可選取該電影排名前三的主演進(jìn)行分析,即分別計(jì)算每位主演在此之前作為排名前三的主演參與演出的前三部電影票房總和,最后將其求和作為該電影的主演影響力。通過分析計(jì)算出的結(jié)果,本文將主演影響力離散化為4類:很低(<1000)、較低(1000-80000)、較高(80000-300000)和很高(>300000)。

3.8同期競爭力

因?yàn)橛^眾通常會選擇質(zhì)量好、話題度高且性價(jià)比高的電影,因此同期其他電影的上映情況會間接對該電影票房產(chǎn)生影響。本文將同期競爭力作為影響電影票房的重要因素之一。本文通過計(jì)算某部電影上映前后一周(共兩周)的電影票房總和得到同期競爭力,對其離散化后分為4類:很低(<50000)、較低(50000-120000)、較高(120000-200000)、很高(>200000)。

4實(shí)驗(yàn)與分析

本文采用IBMSPSSModeler對2015~2017三年的電影票房進(jìn)行分析:用C5.0決策樹[2,5,6]分析影響電影票房的因素,用Apriori算法[5,6]分析各影響因素之間存在的關(guān)聯(lián)規(guī)則。

4.1分類分析

為了降低電影投資的風(fēng)險(xiǎn),幫助投資者做出相關(guān)決策,本文對電影票房進(jìn)行了預(yù)測與分析。

4.1.1決策樹的構(gòu)建

本文采用C5.0決策樹對票房預(yù)測模型進(jìn)行構(gòu)建。C5.0決策樹是基于C4.5開發(fā)的分類算法。由于國家地區(qū)和發(fā)行公司間存在關(guān)聯(lián)性,而貝葉斯分類算法需要各因素間相互獨(dú)立,因此并不適用于電影票房預(yù)測模型。此外,線性回歸和神經(jīng)網(wǎng)絡(luò)預(yù)測模型適用于連續(xù)的因變量預(yù)測,且不易理解和部署,因此C5.0決策樹算法更為適合電影票房的預(yù)測分析。決策樹是一種樹形的數(shù)據(jù)結(jié)構(gòu),其中每個(gè)非葉子節(jié)點(diǎn)表示一個(gè)屬性,每個(gè)葉子節(jié)點(diǎn)代表一種分類結(jié)果。C5.0決策樹算法[6]是目前最經(jīng)典的決策樹算法之一,根據(jù)能帶來最大信息增益的特征屬性來拆分樣本,經(jīng)過數(shù)次迭代,可生成決策樹或規(guī)則集以完成分類和預(yù)測。本文采用IBMSPSSModeler數(shù)據(jù)分析軟件,首先將類型、檔期、發(fā)行公司等八個(gè)電影票房的重要影響因素(詳見本文第3章)進(jìn)行離散化,作為決策樹的輸入變量,同時(shí)將票房通過離散化分為5類:非常低(<1000=、較低(1000-5000)、一般(5000-10000)、較高(10000-50000)和非常高(>50000)作為決策樹的目標(biāo)變量,采用C5.0算法建立了決策樹模型。

4.1.2實(shí)驗(yàn)結(jié)果與分析

該模型的準(zhǔn)確率為76.06%,通過分析實(shí)驗(yàn)結(jié)果可知,電影制式對票房的影響最大,預(yù)測變量重要性高達(dá)0.39。其次是主演影響力和國家地區(qū)。而同期競爭力、發(fā)行公司是重要性最低的兩個(gè)因素。在此基礎(chǔ)上,本文將實(shí)驗(yàn)結(jié)果分析如下:(1)由于3D、IMAX等技術(shù)相對先進(jìn),制作成本高,因此票價(jià)比一般2D電影貴,導(dǎo)致票房普遍較高,這可能是制式影響票房的主要原因。其次,觀眾對3D、IMAX電影更有新鮮感,同時(shí)這些電影也會給觀眾帶來好的觀影體驗(yàn),觀影人數(shù)較多,所以票房較高。(2)除制式外,國家地區(qū)也是影響票房的關(guān)鍵因素之一,原因可能是大多在中國內(nèi)地能夠上映的國外電影,都已經(jīng)在該地區(qū)內(nèi)上映,并且取得了良好成績,電影質(zhì)量、口碑也相對較好。因此,國外電影在中國內(nèi)地上映后能取得高票房也在情理之中。(3)發(fā)行公司是影響票房的因素中重要性最低的,這可能是因?yàn)槟壳皣鴥?nèi)制片公司仍然沒有形成“幾支獨(dú)秀”的局面,即國內(nèi)還沒有形成像美國好萊塢一樣占有絕對領(lǐng)先地位的制片公司或集團(tuán),因此發(fā)行公司對電影票房的影響相對較低。

4.2關(guān)聯(lián)分析

為進(jìn)一步梳理影響票房的重要因素之間的相關(guān)性,本文對類型、檔期、發(fā)行公司等八個(gè)影響因素進(jìn)行了關(guān)聯(lián)規(guī)則分析。

4.2.1關(guān)聯(lián)規(guī)則構(gòu)建

關(guān)聯(lián)規(guī)則[6]是形如的蘊(yùn)含式,其中X是關(guān)聯(lián)規(guī)則的條件,Y是關(guān)聯(lián)規(guī)則的結(jié)果。支持度和置信度是衡量關(guān)聯(lián)規(guī)則質(zhì)量的重要指標(biāo)。其中,支持度指的是X和Y同時(shí)出現(xiàn)的概率,置信度指的是X出現(xiàn)時(shí),Y出現(xiàn)的概率。通過設(shè)定最小支持度和最小置信度,可將高于這兩個(gè)閾值的關(guān)聯(lián)規(guī)則作為強(qiáng)關(guān)聯(lián)規(guī)則,進(jìn)而指導(dǎo)決策結(jié)果。在電影票房的分析中,很多因素之間具有很強(qiáng)的關(guān)聯(lián)性,研究其中的關(guān)聯(lián)規(guī)則對電影產(chǎn)業(yè)的發(fā)展能夠提供一定的幫助。本文采用IBMSPSSModeler數(shù)據(jù)分析軟件,通過Apriori算法[6]研究了類型、制式、國家地區(qū)、檔期、發(fā)行公司、同期競爭力、主演影響力、導(dǎo)演影響力之間的關(guān)聯(lián)規(guī)則,設(shè)置最小條件支持度為20%,最小規(guī)則置信度為95%。

4.2.2實(shí)驗(yàn)結(jié)果與分析

通過關(guān)聯(lián)規(guī)則實(shí)驗(yàn),本文選擇了兩條最有意義的關(guān)聯(lián)規(guī)則如下:(1)當(dāng)某部電影的主演影響力低,在其他檔期上映,國家地區(qū)為中國大陸,并由其他發(fā)行公司發(fā)行時(shí),該電影的制式很大可能為2D(置信度98%,支持度21%)。原因可能是此類電影影響力和制作資本均不夠,沒有制作成更高級制式的條件。(2)當(dāng)電影類型為愛情時(shí),電影制式通常為2D(置信度97%,支持度20%)。原因可能是愛情片通??縿∏槲^眾,通過考量各種綜合因素,將愛情片制作成2D性價(jià)比更高。

5討論

本文提出的C5.0決策樹模型的準(zhǔn)確率為76.06%,限制其正確率的原因有兩點(diǎn):本次采用的電影票房數(shù)據(jù)時(shí)間跨度較大,在不同時(shí)期下,人們的消費(fèi)水平不同,因此票房會產(chǎn)生普遍的差異,對分析得到的模型準(zhǔn)確度可能也會有較大影響。此外,對連續(xù)的數(shù)據(jù)的離散化可能也會影響實(shí)驗(yàn)結(jié)果。

6總結(jié)與展望

本文采用C5.0決策樹算法,基于中國票房網(wǎng)上的數(shù)據(jù),對2015~2017三年間的電影票房進(jìn)行了分類分析,選取了類型、檔期、發(fā)行公司、國家地區(qū)、制式、導(dǎo)演影響力、主演影響力、同期競爭力八個(gè)因素,構(gòu)建了電影票房預(yù)測模型,得到76.06%的準(zhǔn)確率,效果良好。通過對各因素之間的關(guān)聯(lián)性進(jìn)行分析,本文還得到了一些關(guān)聯(lián)規(guī)則,如當(dāng)電影類型是愛情時(shí),制式通常為2D。然而,本文的票房預(yù)測模型的準(zhǔn)確率由于數(shù)據(jù)和離散化的限制仍有待提升,筆者將會把下一步的工作更多地聚焦于提高模型準(zhǔn)確率方面。一方面,筆者將研究離散化過程,同時(shí)增加票房影響因素,如網(wǎng)絡(luò)輿情數(shù)據(jù)等。同時(shí),筆者將探索其他預(yù)測模型,如線性回歸、神經(jīng)網(wǎng)絡(luò)等,研究更適合電影票房預(yù)測的模型。

參考文獻(xiàn)

[1]2017年中國電影票房559億元[EB/OL].2018.

[2]吳發(fā)翔,錢佳威,劉江帆.一種基于C5.0決策樹算法的票房預(yù)測研究[J].科技廣場,2016(4):186~192.

[3]鄭堅(jiān),周尚波.基于神經(jīng)網(wǎng)絡(luò)的電影票房預(yù)測建模[J].計(jì)算機(jī)應(yīng)用,2014,34(3):742~748.

作者:席稼瑋 單位:陜西省西安市高新唐南中學(xué)