网站首页
教育杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
医学杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
经济杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
金融杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
管理杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
科技杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
工业杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
SCI杂志
中科院1区 中科院2区 中科院3区 中科院4区
全部期刊
公務(wù)員期刊網(wǎng) 論文中心 正文

畜產(chǎn)品下的大數(shù)據(jù)分析系統(tǒng)設(shè)計(jì)

前言:想要寫出一篇引人入勝的文章?我們特意為您整理了畜產(chǎn)品下的大數(shù)據(jù)分析系統(tǒng)設(shè)計(jì)范文,希望能給你帶來(lái)靈感和參考,敬請(qǐng)閱讀。

畜產(chǎn)品下的大數(shù)據(jù)分析系統(tǒng)設(shè)計(jì)

摘要:畜產(chǎn)品安全與人們的生命安全和身體健康息息相關(guān),近年來(lái),畜牧業(yè)作為農(nóng)業(yè)產(chǎn)業(yè)調(diào)結(jié)構(gòu)、轉(zhuǎn)方式、提質(zhì)量、增效益的主導(dǎo)產(chǎn)業(yè)和重要方向,基礎(chǔ)條件和發(fā)展模式發(fā)生深刻變化,進(jìn)入產(chǎn)業(yè)化、規(guī)?;?、集約化的高速增長(zhǎng)新階段。在新的要求下,保證產(chǎn)品質(zhì)量成為畜產(chǎn)品發(fā)展的首要要求,也是保障民生的重要內(nèi)容,提高產(chǎn)品質(zhì)量就要從提升畜產(chǎn)品檢驗(yàn)檢測(cè)的工作質(zhì)量上入手。文章對(duì)畜產(chǎn)品大數(shù)據(jù)分析系統(tǒng)的構(gòu)建進(jìn)行了全面的分析,為系統(tǒng)的開發(fā)提供理論的依據(jù)。

關(guān)鍵詞:畜產(chǎn)品;大數(shù)據(jù);數(shù)據(jù)倉(cāng)庫(kù);監(jiān)測(cè)分析

1畜產(chǎn)品大數(shù)據(jù)的現(xiàn)狀

在大數(shù)據(jù)時(shí)代下,人工智能、云平臺(tái)和高性能計(jì)算等技術(shù)的高速發(fā)展為畜產(chǎn)品智能檢測(cè)分析系統(tǒng)提供了重要的支撐。智能檢測(cè)分析系統(tǒng)的建構(gòu),有利于提升畜產(chǎn)品檢測(cè)的智能化,完善畜產(chǎn)品質(zhì)量安全體系,推進(jìn)農(nóng)業(yè)信息化建設(shè)[1]。將畜產(chǎn)品檢測(cè)與大數(shù)據(jù)技術(shù)相結(jié)合,利用現(xiàn)代信息技術(shù),通過(guò)采集海量碎片化的信息數(shù)據(jù),準(zhǔn)確的進(jìn)行篩選、分析,并最終歸納、整理出政府和相關(guān)機(jī)構(gòu)需要的資訊,構(gòu)建一套畜產(chǎn)品檢測(cè)智能分析系統(tǒng),實(shí)行及時(shí)有力的深度分析,整體提升畜產(chǎn)品檢測(cè)監(jiān)管能力和水平,促進(jìn)畜牧業(yè)產(chǎn)業(yè)健康、可持續(xù)發(fā)展。針對(duì)目前畜產(chǎn)品的檢測(cè),其數(shù)據(jù)處理主要存在3個(gè)問(wèn)題:(1)畜產(chǎn)品檢測(cè)注重檢測(cè)方法的使用和創(chuàng)新,檢測(cè)設(shè)備的培訓(xùn)和升級(jí),檢測(cè)人員的指導(dǎo)和培訓(xùn),而對(duì)檢測(cè)數(shù)據(jù)分析不夠重視,沒(méi)有深度發(fā)掘測(cè)試數(shù)據(jù)的潛在價(jià)值。(2)各類檢測(cè)機(jī)構(gòu)眾多且互不統(tǒng)屬,有傳統(tǒng)的人工統(tǒng)計(jì)模式,還有利用軟件進(jìn)行簡(jiǎn)單分析的模式。此外實(shí)驗(yàn)室所用大型儀器,廠家不同,操作軟件也不同,數(shù)據(jù)存儲(chǔ)和處理也不同,測(cè)試數(shù)據(jù)分散,導(dǎo)致數(shù)據(jù)收集困難。(3)畜產(chǎn)品數(shù)據(jù)的數(shù)據(jù)統(tǒng)計(jì)、分析與挖掘還比較滯后,需要向系統(tǒng)化、集成化、智能化的方向發(fā)展,缺乏相對(duì)應(yīng)的畜產(chǎn)品檢測(cè)數(shù)據(jù)分析系統(tǒng)。

2大數(shù)據(jù)平臺(tái)的數(shù)據(jù)處理

2.1數(shù)據(jù)獲取

數(shù)據(jù)獲取是從數(shù)據(jù)源收集數(shù)據(jù),數(shù)據(jù)源分為閉源數(shù)據(jù)和開源數(shù)據(jù)。閉源數(shù)據(jù)指的是和相關(guān)檢測(cè)機(jī)構(gòu)合作獲取的內(nèi)部數(shù)據(jù),這部分?jǐn)?shù)據(jù)可靠性比較高且不向外部公開,僅僅只作為分析統(tǒng)計(jì)使用,不能進(jìn)行商業(yè)的應(yīng)用。開源數(shù)據(jù)是指各檢測(cè)機(jī)構(gòu)通過(guò)網(wǎng)絡(luò)的公開檢測(cè)數(shù)據(jù),比較分散,可以利用爬蟲軟件進(jìn)行抓取[2]。對(duì)開源數(shù)據(jù)進(jìn)行收集時(shí),首先是定時(shí),每段時(shí)間對(duì)相關(guān)網(wǎng)站進(jìn)行分析,觀察所檢測(cè)數(shù)據(jù)的更新情況。其次定量,要準(zhǔn)確地識(shí)別出哪些是最新的、哪些是相關(guān)的內(nèi)容。數(shù)據(jù)主要來(lái)源于國(guó)家、省、市、縣和具有檢測(cè)資質(zhì)的企業(yè)等相關(guān)網(wǎng)站,這些數(shù)據(jù)都比較分散,需要進(jìn)一步進(jìn)行有意義信息的提取,比如:過(guò)濾冗余信息,集成互補(bǔ)性信息。這其中還存在很多問(wèn)題,如信息的質(zhì)量問(wèn)題,哪些信息是有價(jià)值的、可信賴的。可以從可信溯源(信息的不同來(lái)源進(jìn)行分析,省市級(jí)的信息比較重要和真實(shí))、動(dòng)態(tài)輪詢(根據(jù)后期分析和預(yù)測(cè)結(jié)果對(duì)數(shù)據(jù)源之前的重要性權(quán)重進(jìn)行動(dòng)態(tài)更新)做出判斷。采集數(shù)據(jù)分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),要區(qū)別對(duì)待。

2.2資源聚合

考慮到不同數(shù)據(jù)來(lái)源中數(shù)據(jù)特性的不同,對(duì)于結(jié)構(gòu)化相對(duì)較好、關(guān)聯(lián)相對(duì)簡(jiǎn)單的檢測(cè)機(jī)構(gòu)知識(shí)庫(kù)數(shù)據(jù),重點(diǎn)關(guān)注檢測(cè)指標(biāo)實(shí)體(如樣品編號(hào)、測(cè)量對(duì)象、濃度等)的識(shí)別與消歧;對(duì)于采集的非結(jié)構(gòu)化數(shù)據(jù),重點(diǎn)關(guān)注基于所識(shí)別的測(cè)試指標(biāo)實(shí)體,抽取數(shù)據(jù)中的命名實(shí)體及其實(shí)體之間的關(guān)聯(lián)。最后,研究知識(shí)融合方法消除知識(shí)元素間的知識(shí)冗余、知識(shí)沖突,以保證知識(shí)的精準(zhǔn)性與可行度,構(gòu)建可靠的畜產(chǎn)品檢測(cè)知識(shí)圖譜。針對(duì)復(fù)雜、迭代式的信息抽取與知識(shí)融合,使用具有高可擴(kuò)展性、可容錯(cuò)性的MapReduce架構(gòu)(開源Spark系統(tǒng)),實(shí)現(xiàn)并發(fā)處理與調(diào)度。以研究人員為中心,針對(duì)數(shù)據(jù)的局部性,設(shè)計(jì)合理劃分策略,將大的數(shù)據(jù)集分為若干個(gè)容易處理的子數(shù)據(jù)集。根據(jù)劃分的策略,針對(duì)不同子數(shù)據(jù)集的特點(diǎn),設(shè)計(jì)特有的清洗方法,提升局部數(shù)據(jù)質(zhì)量。設(shè)計(jì)整體清洗策略,清洗多個(gè)子數(shù)據(jù)之間存在的錯(cuò)誤、不一致等問(wèn)題,提升整體數(shù)據(jù)質(zhì)量。由于分區(qū)的清洗策略充分的考慮了數(shù)據(jù)的局部特征與整體特征,將顯著提高清洗效率和效果[3]。

2.3對(duì)多源異構(gòu)數(shù)據(jù)的融合分析

畜產(chǎn)品檢測(cè)數(shù)據(jù)之間存在潛在的信息互補(bǔ)和信息冗余,對(duì)這些大規(guī)模數(shù)據(jù)進(jìn)行融合分析和產(chǎn)品動(dòng)態(tài)畫像的構(gòu)建,能更加全面、有效地分析出畜產(chǎn)品質(zhì)量異常發(fā)生的季節(jié)、地點(diǎn)、產(chǎn)生的原因等。針對(duì)數(shù)據(jù)的融合分析,本課題從兩個(gè)方面進(jìn)行處理:(1)為了過(guò)濾掉畜產(chǎn)品數(shù)據(jù)之間的冗余信息,并且對(duì)有意義、高質(zhì)量的互補(bǔ)信息進(jìn)行提取,采用主成分分析(PCA)和知識(shí)圖譜的嵌入向量融合的方法,最終得到更加全面、準(zhǔn)確的畜產(chǎn)品特征表示。(2)為了提高在下游任務(wù)中的性能,采用集成學(xué)習(xí)的思想對(duì)不同弱分類(或預(yù)測(cè))器進(jìn)行決策層的融合,比如在Flume的基礎(chǔ)上結(jié)合Spark實(shí)現(xiàn)梯度提升決策樹(GBDT)以及隨機(jī)森林(RF)算法的快速分布式融合。

3數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)設(shè)計(jì)

數(shù)據(jù)倉(cāng)庫(kù)能夠以不同的維度(如區(qū)域,時(shí)間等)、不同的粒度級(jí)別存儲(chǔ)數(shù)據(jù),同時(shí)具有方便的擴(kuò)展性,因此課題擬使用基于Hive的MapReduce+Spark雙計(jì)算引擎混合架構(gòu)進(jìn)行數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)設(shè)計(jì),通過(guò)和機(jī)器學(xué)習(xí)技術(shù)結(jié)合,無(wú)須人工干預(yù)和停機(jī)就能自動(dòng)調(diào)優(yōu)、修補(bǔ)、升級(jí)、監(jiān)視和保護(hù)數(shù)據(jù)庫(kù),以幫助疫病預(yù)測(cè)和制定戰(zhàn)略決策[4-5],系統(tǒng)設(shè)計(jì)如圖1所示。數(shù)據(jù)倉(cāng)庫(kù)的主模塊包含HDFS、YARN、MapReduc、Spark和Hive。首先系統(tǒng)將多源異構(gòu)數(shù)據(jù)匯聚到HDFS分布式文件系統(tǒng),通過(guò)YARN對(duì)Hadoop集群和Spark集群的資源進(jìn)行分配和管理,然后再利用Hive工具進(jìn)行數(shù)據(jù)的管理和索引,再通過(guò)上層MapReduce和Spark計(jì)算引擎對(duì)數(shù)據(jù)進(jìn)行查詢分析和計(jì)算。雙引擎的好處在于,可以依據(jù)業(yè)務(wù)計(jì)算需求的不同,通過(guò)配置或簡(jiǎn)單命令隨時(shí)切換Hive計(jì)算引擎。MapReduce采用了多進(jìn)程模型,便于細(xì)粒度控制每個(gè)任務(wù)占用的資源,但會(huì)消耗較多的啟動(dòng)時(shí)間,對(duì)實(shí)時(shí)性要求不高或?qū)Ψ€(wěn)定性要求較高的場(chǎng)景下使用MapReduce計(jì)算引擎;而Spark采用了多線程模型,雖然會(huì)出現(xiàn)嚴(yán)重的資源爭(zhēng)用,但有效地減少了中間數(shù)據(jù)傳輸數(shù)量與同步次數(shù),對(duì)實(shí)時(shí)性有一定要求時(shí)使用Spark計(jì)算引擎。此外,根據(jù)項(xiàng)目的實(shí)際需要,添加以下模塊:(1)考慮到業(yè)務(wù)的擴(kuò)展性,添加組件ZooKeeper,按需對(duì)集群節(jié)點(diǎn)進(jìn)行擴(kuò)容。(2)考慮到病情預(yù)警所需要的實(shí)時(shí)性,添加組件SparkStreaming對(duì)數(shù)據(jù)進(jìn)行流處理,為實(shí)時(shí)流處理提供平臺(tái)。(3)考慮到數(shù)據(jù)源多樣性,添加組件Graphx對(duì)圖片類型數(shù)據(jù)進(jìn)行處理。(4)考慮到和機(jī)器學(xué)習(xí)技術(shù)結(jié)合,添加機(jī)器學(xué)習(xí)庫(kù)SparkMlib。

4結(jié)語(yǔ)

傳統(tǒng)產(chǎn)業(yè)與現(xiàn)代信息技術(shù)結(jié)合,已經(jīng)成為畜牧業(yè)創(chuàng)新發(fā)展的制高點(diǎn)。大數(shù)據(jù)時(shí)代,畜牧業(yè)在產(chǎn)前、產(chǎn)中、產(chǎn)后各鏈條、各環(huán)節(jié)產(chǎn)生大量的數(shù)據(jù),如何分析、挖掘、開發(fā)和利用大數(shù)據(jù)技術(shù)對(duì)海量數(shù)據(jù)進(jìn)行相關(guān)分析,對(duì)畜牧業(yè)發(fā)展做出準(zhǔn)確預(yù)測(cè),對(duì)畜牧業(yè)生產(chǎn)經(jīng)營(yíng)管理者進(jìn)行正確指導(dǎo)和選擇合適的技術(shù)行為,是畜牧大數(shù)據(jù)開發(fā)的關(guān)鍵,畜產(chǎn)品檢測(cè)作為畜牧業(yè)安全保障的關(guān)鍵一環(huán),需要加快信息資源整合,讓數(shù)據(jù)轉(zhuǎn)起來(lái)、用起來(lái),讓決策有依據(jù),大數(shù)據(jù)分析必不可少。

[參考文獻(xiàn)]

[1]邵航,宋英華,李墨瀟,等.我國(guó)食品安全與數(shù)據(jù)科學(xué)交叉研究的科學(xué)計(jì)量學(xué)分析[J].食品科學(xué),2019(10):1-18.

[2]許世衛(wèi).畜牧業(yè)信息監(jiān)測(cè)與大數(shù)據(jù)分析技術(shù)及展望[J].獸醫(yī)導(dǎo)刊,2019(15):6-7.

[3]趙志.教育大數(shù)據(jù)統(tǒng)計(jì)分析平臺(tái)設(shè)計(jì)與研究[D].西安:西安理工大學(xué),2019.

[4]韓太武.第八師動(dòng)物衛(wèi)生監(jiān)督互聯(lián)網(wǎng)+大數(shù)據(jù)智能監(jiān)管平臺(tái)設(shè)計(jì)[D].石河子:石河子大學(xué),2016.

[5]金磐石,朱志,沈麗忠.融合大數(shù)據(jù)技術(shù)架構(gòu)在大型商業(yè)銀行海量數(shù)據(jù)分析的應(yīng)用[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2018(10):46-53.

作者:楊毅 單位:河南牧業(yè)經(jīng)濟(jì)學(xué)院

免责声明

本站为第三方开放式学习交流平台,所有内容均为用户上传,仅供参考,不代表本站立场。若内容不实请联系在线客服删除,服务时间:8:00~21:00。

AI写作,高效原创

在线指导,快速准确,满意为止

立即体验
文秘服务 AI帮写作 润色服务 论文发表