前言:想要寫(xiě)出一篇引人入勝的文章?我們特意為您整理了農(nóng)產(chǎn)品市場(chǎng)價(jià)格數(shù)據(jù)挖掘預(yù)測(cè)分析范文,希望能給你帶來(lái)靈感和參考,敬請(qǐng)閱讀。
摘要:本文運(yùn)用大數(shù)據(jù)采集、清洗、存儲(chǔ)、挖掘等技術(shù)實(shí)現(xiàn)農(nóng)產(chǎn)品市場(chǎng)價(jià)格的挖掘預(yù)測(cè)。通過(guò)建立ARIMA模型以玉米銷(xiāo)售價(jià)格的時(shí)間序列走勢(shì),完成對(duì)玉米未來(lái)銷(xiāo)售價(jià)格的短期預(yù)測(cè),并通過(guò)數(shù)據(jù)可視化的圖表形式呈現(xiàn)。
關(guān)鍵詞:Python技術(shù);網(wǎng)絡(luò)爬蟲(chóng);數(shù)據(jù)挖掘預(yù)測(cè);ARIMA
引言
隨著大數(shù)據(jù)時(shí)代的到來(lái),人們對(duì)數(shù)據(jù)的獲取、統(tǒng)計(jì)的需求日益增大。爬蟲(chóng)技術(shù)的不斷成熟為人們獲取互聯(lián)網(wǎng)數(shù)據(jù)提供了極大的便利。在農(nóng)業(yè)領(lǐng)域,人們開(kāi)始將農(nóng)業(yè)數(shù)據(jù)與大數(shù)據(jù)技術(shù)相結(jié)合,運(yùn)用大數(shù)據(jù)的采集、存儲(chǔ)、分析以及可視化等技術(shù),幫助人們快速挖掘、分析出數(shù)據(jù)背后有價(jià)值的信息,降低農(nóng)產(chǎn)品生產(chǎn)、銷(xiāo)售過(guò)程中不必要的風(fēng)險(xiǎn)。本文以中國(guó)飼料行業(yè)信息網(wǎng)中玉米的銷(xiāo)售價(jià)格為數(shù)據(jù)源,采用網(wǎng)絡(luò)爬蟲(chóng)軟件GeeSooker進(jìn)行數(shù)據(jù)采集和存儲(chǔ),以玉米市場(chǎng)價(jià)格的歷史時(shí)間序列建立價(jià)格預(yù)測(cè)的ARI-MA模型[1],進(jìn)一步分析玉米市場(chǎng)價(jià)格的波動(dòng)狀況和變化趨勢(shì)。
1預(yù)測(cè)技術(shù)的概述
1.1網(wǎng)絡(luò)爬蟲(chóng)技術(shù)
農(nóng)產(chǎn)品市場(chǎng)價(jià)格挖掘預(yù)測(cè)是基于互聯(lián)網(wǎng)農(nóng)業(yè)數(shù)據(jù),為了滿足農(nóng)產(chǎn)品市場(chǎng)價(jià)格數(shù)據(jù)挖掘預(yù)測(cè)的需求,本文采用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)獲取互聯(lián)網(wǎng)數(shù)據(jù),數(shù)據(jù)獲取過(guò)程如圖1所示。其中,爬蟲(chóng)引擎[2]用于處理爬蟲(chóng)系統(tǒng)的數(shù)據(jù)流處理并觸發(fā)事務(wù);調(diào)度器用于接受引擎發(fā)送的請(qǐng)求,將其放入處理隊(duì)列,并在引擎再次請(qǐng)求時(shí)返回;數(shù)據(jù)清洗模塊是將下載下來(lái)的信息進(jìn)行處理,剔除無(wú)效信息和冗余信息;下載器用于下載網(wǎng)站頁(yè)面內(nèi)容,并將其傳遞給下一個(gè)處理業(yè)務(wù);爬蟲(chóng)規(guī)則用來(lái)指定下載網(wǎng)頁(yè),編寫(xiě)用于分析網(wǎng)站源碼并聽(tīng)取信息。
1.2數(shù)據(jù)的采集過(guò)程
本文采用GeeSooker爬蟲(chóng)瀏覽器對(duì)中國(guó)飼料信息網(wǎng)的2018年1月到2019年2月玉米銷(xiāo)售價(jià)格進(jìn)行采集,采集過(guò)程[3]如下:1)加載網(wǎng)頁(yè),定義加載規(guī)則、主題;2)點(diǎn)選待采信息生成標(biāo)簽,抓取內(nèi)容并提交;3)測(cè)試,保存規(guī)則,開(kāi)始爬取數(shù)據(jù);4)DataScraperworks文件夾中查看數(shù)據(jù)。
1.3數(shù)據(jù)清洗
數(shù)據(jù)清洗是整個(gè)數(shù)據(jù)分析過(guò)程中不可或缺的一部分,結(jié)果的質(zhì)量與模型的效果和最終結(jié)論直接相關(guān)。本文重點(diǎn)對(duì)采集數(shù)據(jù)進(jìn)行缺失值清洗、邏輯錯(cuò)誤清洗和關(guān)聯(lián)性驗(yàn)證,最終得到表1中2018/1/2~2019/2/28玉米的銷(xiāo)售價(jià)格數(shù)據(jù)。
2模型建立的分析
2.1ARIMA模型
ARIMA模型是差分整合移動(dòng)平均自回歸模型,它是時(shí)間序列預(yù)測(cè)分析方法之一。該模型可以通過(guò)時(shí)間序列數(shù)據(jù)了解數(shù)據(jù)或預(yù)測(cè)系列中的未來(lái)預(yù)測(cè)點(diǎn)。在數(shù)據(jù)顯示非平穩(wěn)性證據(jù)的一些情況下,可以應(yīng)用初始差異步驟一次或多次消除非平穩(wěn)性。
2.2ARIMA模型運(yùn)用流程
首先獲得時(shí)間序列數(shù)據(jù);觀察模型可視化得到的原始時(shí)間序列圖是否平穩(wěn),如果不平穩(wěn),可通過(guò)差分運(yùn)算平穩(wěn)化;通過(guò)差分運(yùn)算后得到新的自相關(guān)圖和偏自相關(guān)圖來(lái)驗(yàn)證模型的穩(wěn)定性;對(duì)模型進(jìn)行參數(shù)檢驗(yàn),使結(jié)果更具合理性;利用已通過(guò)檢驗(yàn)的模型進(jìn)行預(yù)測(cè)。差分平穩(wěn)時(shí)間序列建模步驟如圖2所示。
3模型的實(shí)現(xiàn)
3.1建立模型
首先,利用Python語(yǔ)言將抓取數(shù)據(jù)對(duì)接[4],為后文模型的建立做鋪墊,具體代碼如下所示。從圖3原始序列的時(shí)序圖可以看出2018年1月~2019年2月玉米的歷史銷(xiāo)售價(jià)格波動(dòng)情況呈現(xiàn)上升趨勢(shì),說(shuō)明模型沒(méi)有達(dá)到平穩(wěn)化要求,需要進(jìn)行處理。進(jìn)一步利用Python語(yǔ)言建立原始序列的自相關(guān)圖。圖4原始序列的自相關(guān)圖顯示玉米銷(xiāo)售價(jià)格波動(dòng)具有很強(qiáng)的非平穩(wěn)性。通過(guò)一階差分運(yùn)算對(duì)原始數(shù)據(jù)序列進(jìn)行平穩(wěn)化處理,使玉米銷(xiāo)售價(jià)格波動(dòng)趨向平穩(wěn),如圖5所示。利用差分運(yùn)算轉(zhuǎn)化得到新的自相關(guān)圖和偏自相關(guān)圖,如圖6和圖7。結(jié)果顯示玉米銷(xiāo)售價(jià)格波動(dòng)趨向穩(wěn)定。
3.2模型檢驗(yàn)
利用表2原始序列的單位根檢驗(yàn)所示,進(jìn)一步證明數(shù)據(jù)趨向穩(wěn)定性得到可靠的模型來(lái)提前預(yù)測(cè)短期玉米銷(xiāo)售價(jià)格的實(shí)際情況,為農(nóng)業(yè)預(yù)測(cè)合理數(shù)據(jù),避免供大于求或供不應(yīng)求的現(xiàn)象。差分序列的單位根檢驗(yàn)如表3所示。表2和表3數(shù)據(jù)顯示,原始序列的單位根檢驗(yàn)沒(méi)有使模型平穩(wěn)化。然后通過(guò)差分序列之后得到的單位根檢驗(yàn)數(shù)據(jù)逐漸趨向平穩(wěn),通過(guò)P值可以看到其結(jié)果小于0.05,證明新的序列已達(dá)到平穩(wěn)。
3.3模型預(yù)測(cè)
建立的ARIMA模型進(jìn)行短期預(yù)測(cè),為了得到可靠合理的數(shù)據(jù),使誤差降到最小,我們只能做未來(lái)1個(gè)月的預(yù)測(cè)[5,6]。所以應(yīng)用ARIMA模型對(duì)2019/3/1~2019/3/31玉米的銷(xiāo)售價(jià)格數(shù)據(jù)做為期31天的預(yù)測(cè),結(jié)果如表2所示。
4結(jié)語(yǔ)
本文利用Python語(yǔ)言進(jìn)行程序?qū)崿F(xiàn)ARIMA模型,實(shí)現(xiàn)了玉米銷(xiāo)售價(jià)格的預(yù)測(cè)。通過(guò)建立模型得到可視化預(yù)測(cè)圖表以驗(yàn)證模型的可靠性,并形象直觀表達(dá)價(jià)格波動(dòng)情況,得到為期1個(gè)月的短期預(yù)測(cè)數(shù)據(jù)。該模型的優(yōu)點(diǎn)是,在短期預(yù)測(cè)中誤差較小、數(shù)據(jù)變化較穩(wěn)定。但在長(zhǎng)期預(yù)測(cè)中,由于時(shí)間延遲,數(shù)據(jù)波動(dòng)較大,預(yù)測(cè)結(jié)果尚不穩(wěn)定。
參考文獻(xiàn)
[1]徐克.基于價(jià)格分解的鮮活農(nóng)產(chǎn)品短期價(jià)格預(yù)測(cè)模型[D].北京:中國(guó)農(nóng)業(yè)科學(xué)院,2016.
[2]楊國(guó)志,江業(yè)峰.基于Python的聚焦網(wǎng)絡(luò)爬蟲(chóng)數(shù)據(jù)采集系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].科學(xué)技術(shù)創(chuàng)新,2018(27):73-74.
[3]陳維潔.大蒜價(jià)格預(yù)測(cè)及大數(shù)據(jù)服務(wù)系統(tǒng)研發(fā)[D].泰安:山東農(nóng)業(yè)大學(xué),2019.
[4]張良均,王路,譚立云,等.Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)[M].北京:機(jī)械工業(yè)出版社,2017.
[5]吳玉霞,溫欣.基于ARIMA模型的短期股票價(jià)格預(yù)測(cè)[J].統(tǒng)計(jì)與決策,2016(23):83-86.
[6]徐雅卿,魏軼華,李旭剛.農(nóng)產(chǎn)品價(jià)格預(yù)測(cè)模型的構(gòu)建[J].統(tǒng)計(jì)與決策,2017(12):75-77.
作者:趙宇蘭 單位:山西大學(xué)商務(wù)學(xué)院信息學(xué)院
級(jí)別:部級(jí)期刊
榮譽(yù):--
級(jí)別:省級(jí)期刊
榮譽(yù):中國(guó)優(yōu)秀期刊遴選數(shù)據(jù)庫(kù)
級(jí)別:省級(jí)期刊
榮譽(yù):中國(guó)期刊全文數(shù)據(jù)庫(kù)(CJFD)
級(jí)別:統(tǒng)計(jì)源期刊
榮譽(yù):中國(guó)優(yōu)秀期刊遴選數(shù)據(jù)庫(kù)
級(jí)別:省級(jí)期刊
榮譽(yù):中國(guó)期刊全文數(shù)據(jù)庫(kù)(CJFD)