前言:想要寫出一篇引人入勝的文章?我們特意為您整理了農(nóng)產(chǎn)品市場價格數(shù)據(jù)挖掘預測分析范文,希望能給你帶來靈感和參考,敬請閱讀。
摘要:本文運用大數(shù)據(jù)采集、清洗、存儲、挖掘等技術(shù)實現(xiàn)農(nóng)產(chǎn)品市場價格的挖掘預測。通過建立ARIMA模型以玉米銷售價格的時間序列走勢,完成對玉米未來銷售價格的短期預測,并通過數(shù)據(jù)可視化的圖表形式呈現(xiàn)。
關鍵詞:Python技術(shù);網(wǎng)絡爬蟲;數(shù)據(jù)挖掘預測;ARIMA
引言
隨著大數(shù)據(jù)時代的到來,人們對數(shù)據(jù)的獲取、統(tǒng)計的需求日益增大。爬蟲技術(shù)的不斷成熟為人們獲取互聯(lián)網(wǎng)數(shù)據(jù)提供了極大的便利。在農(nóng)業(yè)領域,人們開始將農(nóng)業(yè)數(shù)據(jù)與大數(shù)據(jù)技術(shù)相結(jié)合,運用大數(shù)據(jù)的采集、存儲、分析以及可視化等技術(shù),幫助人們快速挖掘、分析出數(shù)據(jù)背后有價值的信息,降低農(nóng)產(chǎn)品生產(chǎn)、銷售過程中不必要的風險。本文以中國飼料行業(yè)信息網(wǎng)中玉米的銷售價格為數(shù)據(jù)源,采用網(wǎng)絡爬蟲軟件GeeSooker進行數(shù)據(jù)采集和存儲,以玉米市場價格的歷史時間序列建立價格預測的ARI-MA模型[1],進一步分析玉米市場價格的波動狀況和變化趨勢。
1預測技術(shù)的概述
1.1網(wǎng)絡爬蟲技術(shù)
農(nóng)產(chǎn)品市場價格挖掘預測是基于互聯(lián)網(wǎng)農(nóng)業(yè)數(shù)據(jù),為了滿足農(nóng)產(chǎn)品市場價格數(shù)據(jù)挖掘預測的需求,本文采用網(wǎng)絡爬蟲技術(shù)獲取互聯(lián)網(wǎng)數(shù)據(jù),數(shù)據(jù)獲取過程如圖1所示。其中,爬蟲引擎[2]用于處理爬蟲系統(tǒng)的數(shù)據(jù)流處理并觸發(fā)事務;調(diào)度器用于接受引擎發(fā)送的請求,將其放入處理隊列,并在引擎再次請求時返回;數(shù)據(jù)清洗模塊是將下載下來的信息進行處理,剔除無效信息和冗余信息;下載器用于下載網(wǎng)站頁面內(nèi)容,并將其傳遞給下一個處理業(yè)務;爬蟲規(guī)則用來指定下載網(wǎng)頁,編寫用于分析網(wǎng)站源碼并聽取信息。
1.2數(shù)據(jù)的采集過程
本文采用GeeSooker爬蟲瀏覽器對中國飼料信息網(wǎng)的2018年1月到2019年2月玉米銷售價格進行采集,采集過程[3]如下:1)加載網(wǎng)頁,定義加載規(guī)則、主題;2)點選待采信息生成標簽,抓取內(nèi)容并提交;3)測試,保存規(guī)則,開始爬取數(shù)據(jù);4)DataScraperworks文件夾中查看數(shù)據(jù)。
1.3數(shù)據(jù)清洗
數(shù)據(jù)清洗是整個數(shù)據(jù)分析過程中不可或缺的一部分,結(jié)果的質(zhì)量與模型的效果和最終結(jié)論直接相關。本文重點對采集數(shù)據(jù)進行缺失值清洗、邏輯錯誤清洗和關聯(lián)性驗證,最終得到表1中2018/1/2~2019/2/28玉米的銷售價格數(shù)據(jù)。
2模型建立的分析
2.1ARIMA模型
ARIMA模型是差分整合移動平均自回歸模型,它是時間序列預測分析方法之一。該模型可以通過時間序列數(shù)據(jù)了解數(shù)據(jù)或預測系列中的未來預測點。在數(shù)據(jù)顯示非平穩(wěn)性證據(jù)的一些情況下,可以應用初始差異步驟一次或多次消除非平穩(wěn)性。
2.2ARIMA模型運用流程
首先獲得時間序列數(shù)據(jù);觀察模型可視化得到的原始時間序列圖是否平穩(wěn),如果不平穩(wěn),可通過差分運算平穩(wěn)化;通過差分運算后得到新的自相關圖和偏自相關圖來驗證模型的穩(wěn)定性;對模型進行參數(shù)檢驗,使結(jié)果更具合理性;利用已通過檢驗的模型進行預測。差分平穩(wěn)時間序列建模步驟如圖2所示。
3模型的實現(xiàn)
3.1建立模型
首先,利用Python語言將抓取數(shù)據(jù)對接[4],為后文模型的建立做鋪墊,具體代碼如下所示。從圖3原始序列的時序圖可以看出2018年1月~2019年2月玉米的歷史銷售價格波動情況呈現(xiàn)上升趨勢,說明模型沒有達到平穩(wěn)化要求,需要進行處理。進一步利用Python語言建立原始序列的自相關圖。圖4原始序列的自相關圖顯示玉米銷售價格波動具有很強的非平穩(wěn)性。通過一階差分運算對原始數(shù)據(jù)序列進行平穩(wěn)化處理,使玉米銷售價格波動趨向平穩(wěn),如圖5所示。利用差分運算轉(zhuǎn)化得到新的自相關圖和偏自相關圖,如圖6和圖7。結(jié)果顯示玉米銷售價格波動趨向穩(wěn)定。
3.2模型檢驗
利用表2原始序列的單位根檢驗所示,進一步證明數(shù)據(jù)趨向穩(wěn)定性得到可靠的模型來提前預測短期玉米銷售價格的實際情況,為農(nóng)業(yè)預測合理數(shù)據(jù),避免供大于求或供不應求的現(xiàn)象。差分序列的單位根檢驗如表3所示。表2和表3數(shù)據(jù)顯示,原始序列的單位根檢驗沒有使模型平穩(wěn)化。然后通過差分序列之后得到的單位根檢驗數(shù)據(jù)逐漸趨向平穩(wěn),通過P值可以看到其結(jié)果小于0.05,證明新的序列已達到平穩(wěn)。
3.3模型預測
建立的ARIMA模型進行短期預測,為了得到可靠合理的數(shù)據(jù),使誤差降到最小,我們只能做未來1個月的預測[5,6]。所以應用ARIMA模型對2019/3/1~2019/3/31玉米的銷售價格數(shù)據(jù)做為期31天的預測,結(jié)果如表2所示。
4結(jié)語
本文利用Python語言進行程序?qū)崿F(xiàn)ARIMA模型,實現(xiàn)了玉米銷售價格的預測。通過建立模型得到可視化預測圖表以驗證模型的可靠性,并形象直觀表達價格波動情況,得到為期1個月的短期預測數(shù)據(jù)。該模型的優(yōu)點是,在短期預測中誤差較小、數(shù)據(jù)變化較穩(wěn)定。但在長期預測中,由于時間延遲,數(shù)據(jù)波動較大,預測結(jié)果尚不穩(wěn)定。
參考文獻
[1]徐克.基于價格分解的鮮活農(nóng)產(chǎn)品短期價格預測模型[D].北京:中國農(nóng)業(yè)科學院,2016.
[2]楊國志,江業(yè)峰.基于Python的聚焦網(wǎng)絡爬蟲數(shù)據(jù)采集系統(tǒng)設計與實現(xiàn)[J].科學技術(shù)創(chuàng)新,2018(27):73-74.
[3]陳維潔.大蒜價格預測及大數(shù)據(jù)服務系統(tǒng)研發(fā)[D].泰安:山東農(nóng)業(yè)大學,2019.
[4]張良均,王路,譚立云,等.Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)[M].北京:機械工業(yè)出版社,2017.
[5]吳玉霞,溫欣.基于ARIMA模型的短期股票價格預測[J].統(tǒng)計與決策,2016(23):83-86.
[6]徐雅卿,魏軼華,李旭剛.農(nóng)產(chǎn)品價格預測模型的構(gòu)建[J].統(tǒng)計與決策,2017(12):75-77.
作者:趙宇蘭 單位:山西大學商務學院信息學院
本站为第三方开放式学习交流平台,所有内容均为用户上传,仅供参考,不代表本站立场。若内容不实请联系在线客服删除,服务时间:8:00~21:00。