前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的化學數(shù)據(jù)分析方法主題范文,僅供參考,歡迎閱讀并收藏。
關鍵詞:高職教育;個性化學習;數(shù)據(jù)挖掘;商業(yè)智能
中圖分類號:TP311.13
作為我國高等教育一支重要生力軍――高等職業(yè)教育近幾年來的發(fā)展可謂迅猛,無論是學校數(shù)還是學生人數(shù),高職??频囊?guī)模已是我國高等教育的半壁江山。高職教育對人才的培養(yǎng)目標是為國家和地方經(jīng)濟的發(fā)展輸送適應生產(chǎn)、建設服務等一線急需的應用型高素質(zhì)人才,《國務院關于大力發(fā)展職業(yè)教育的決定》中就提出了“堅持以就業(yè)為導向,深化職業(yè)教育教學改革”,要求加強職業(yè)院校對學生實踐能力和職業(yè)技能的培養(yǎng)。
1 現(xiàn)狀
目前,高職學生在學校完成系統(tǒng)的課程學習依然是高職教育教學的主要方式,在此過程中,由于學生個體特性、就業(yè)意向、專業(yè)方向等各種因素的影響,獲取的知識無論從方式方法、內(nèi)容結構,還是真正掌握的程度來說都因人而異,而這其中有相當大的部分是學生主動性選擇的結果;此外,在高職教育教學改革的嘗試中,大類招生、拓展專業(yè)等多項措施在很多職業(yè)院校中已然試行,這就給予學生更多的自和選擇的機會。
然而,在自主選擇的過程中,由于沒有一個可參照的、適合自己的挑選標準,高職學生進行各項選擇時在很大程度上有著“扎堆隨大流”、“哪個課能混好過”的心理,這就導致主動選擇的課程,其學習過程并不順暢、學習效果也不理想,沒有提升自身知識結構的質(zhì)量。這種高職教育中教與學環(huán)節(jié)的脫節(jié)會對高職學生的能力培養(yǎng)產(chǎn)生有著不可忽視的影響。
2 研究思路
隨著教育信息化的深入發(fā)展,先進的信息技術手段在教育教學的方方面面都得以有效利用,這也為學生綜合能力培養(yǎng)的探索與嘗試提供了新的途徑,數(shù)據(jù)挖掘技術就是其中很重要的一種。數(shù)據(jù)挖掘指的是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。在此過程中,數(shù)據(jù)源必須是真實的、大量的、含噪聲的,而從中發(fā)現(xiàn)的是用戶所感興趣的知識內(nèi)容,這些知識應該是可以接受和理解、并且能加以進一步運用的。
數(shù)據(jù)挖掘技術之所以在教育行業(yè)有更為廣泛、實際的應用,這是由于各個學校都會有自己的一整套數(shù)據(jù)庫系統(tǒng),用于記錄學生的學籍信息、課程教學過程等歷史數(shù)據(jù),這樣,就可以嘗試運用先進的數(shù)據(jù)挖掘技術和智能分析工具,通過對高職教育研究和教學過程中積累的海量數(shù)據(jù)進行采集分類、挖掘和分析,從多角度、多層次出發(fā),構建識別個體特點、知識構成和獲取方式等要素之間關聯(lián)模式的數(shù)據(jù)模型。數(shù)據(jù)挖掘是一門交叉學科,其理論和方法有很多,包括K-最近鄰分類器、判別分析、人工神經(jīng)網(wǎng)絡和分類樹等,它把人們對數(shù)據(jù)的應用從低層次的簡單查詢,提升到從數(shù)據(jù)中挖掘知識,提供決策支持。在這里就是要將數(shù)據(jù)挖掘方法與高職教育教學研究相結合,設計實際的分析應用系統(tǒng),具體來說:
(1)數(shù)據(jù)挖掘技術面向高職教育這一特定領域中的主體――高職學生,針對專門的指標,包括個體特性、專業(yè)要求、就業(yè)意向等,著眼于課程這個知識載體,對它們之間的關系進行深層次、智能化的挖掘、分析;
(2)數(shù)據(jù)挖掘的應用會具體到建模、變量篩選和導入等方面,而不只是一些抽象的挖掘算法的研究;
(3)數(shù)據(jù)分析采用先進的商業(yè)智能工具,同樣,數(shù)據(jù)的展現(xiàn)手段基于平臺,具有開放化、模塊化、網(wǎng)絡化特點。
3 系統(tǒng)框架
系統(tǒng)定位于個性化學習分析,其框架結構參見圖1,主要由數(shù)據(jù)集成、數(shù)據(jù)建模、數(shù)據(jù)分析及展現(xiàn)等部分構成。具體來說,數(shù)據(jù)集成模塊完成定義數(shù)據(jù)結構、裝載、清洗、合并數(shù)據(jù)的功能;數(shù)據(jù)建模是指建立數(shù)據(jù)分析OLAP及數(shù)據(jù)挖掘模型;數(shù)據(jù)分析旨在分析和比較各種不同算法得出的結果,尋找最為匹配的算法,而數(shù)據(jù)展現(xiàn)的作用是根據(jù)分析結構靈活創(chuàng)建數(shù)據(jù)報告。
圖1 系統(tǒng)框架結構
在此架構下,各個子系統(tǒng)的功能如下所述:
(1)數(shù)據(jù)集成。分析和歸納課程教學過程中產(chǎn)生的系列數(shù)據(jù),根據(jù)其特征和行為設計及定義便于分析和挖掘的數(shù)據(jù)結構,然后并進行數(shù)據(jù)集成。數(shù)據(jù)集成的工作包括從異構數(shù)據(jù)源獲取數(shù)據(jù),將其進行清洗、轉(zhuǎn)換、合并,然后加載到數(shù)據(jù)倉儲中。數(shù)據(jù)集成執(zhí)行的時間、相互的順序、成敗對將來的分析結果的有效性則至關重要。
(2)數(shù)據(jù)建模。典型的數(shù)據(jù)挖掘工具將在構建了數(shù)據(jù)倉庫后進行分析并生成結果,一些工具也可以使用關系型數(shù)據(jù)進行分析,數(shù)據(jù)分析的結果獨立于數(shù)據(jù)倉庫中使用的數(shù)據(jù)。數(shù)據(jù)挖掘核心的部分就是選擇挖掘算法并建立數(shù)據(jù)模型,這樣就可以根據(jù)學生個體信息、學生成績等數(shù)據(jù)之間的關系將這些學生劃分成分析有意義的組群并預測他們的行為;當把這些組發(fā)送回分析過程時,數(shù)據(jù)挖掘引擎允許分析人員和用戶根據(jù)這些簇進行劃分和細化。
(3)數(shù)據(jù)分析與展示。以學生個體信息和課程數(shù)據(jù)為輸入,利用所篩選出的最佳建模方法,逐步提出一個可實現(xiàn)個性化學習分析的數(shù)據(jù)模型,以衡量及提高模型預測的準確度。將分析結果以特定的客戶端或Web方式進行展現(xiàn),以建立的分析結果展示平臺,具有高度的開放性、通用性和可擴展性。通過建模創(chuàng)建了正確的模型,數(shù)據(jù)挖掘的重點就從分析轉(zhuǎn)到結果上,數(shù)據(jù)報告的展現(xiàn)方式有多種,可通過專業(yè)的報告工具,也可自行編寫Web網(wǎng)站進行。
4 結束語
在高職教育教學研究中運用先進的數(shù)據(jù)挖掘技術手段,針對各項課程教學、學生管理數(shù)據(jù)進行深度挖掘、分析,研究個性化學習模式,為學生的自我學習規(guī)劃提供具體化、智能化分析結果以供參照,在此情況下,先進技術手段的支持,對教與學都有著不可忽視的影響。同時,也為人才培養(yǎng)的探索與嘗試提供新途徑。
參考文獻:
[1]趙云鵬,石麗,劉瑩.基于數(shù)據(jù)挖掘的高校規(guī)模分析及應用研究.第九屆全國信息獲取與處理學術會議論文集[C].2011.
[2].數(shù)據(jù)挖掘在高職院校教學管理中的應用[J].清遠職業(yè)技術學院學報,2010(12).
[3]干娟.基于決策樹算法的學生綜合測評系統(tǒng)的設計[J].安徽電子信息職業(yè)技術學院學報,2011(04).
關鍵詞:統(tǒng)計測度;統(tǒng)計學;大數(shù)據(jù);數(shù)據(jù)科學;
作者簡介:李金昌,男,50歲,浙江義烏人。浙江財經(jīng)大學校長,統(tǒng)計學教授,博士生導師。研究方向為經(jīng)濟統(tǒng)計學,統(tǒng)計理論與方法,抽樣技術,政府統(tǒng)計等。
最近兩年,統(tǒng)計學界對大數(shù)據(jù)問題所進行的理論探討逐漸增多,視角也各有千秋,引起了一些共鳴。圍繞大數(shù)據(jù)問題,由統(tǒng)計學、計算機科學、人工智能、數(shù)學等學科共同支撐的數(shù)據(jù)科學開始形成。但大數(shù)據(jù)畢竟是一個新課題,因此遠未達到對其有一個系統(tǒng)完整的認識,仍然需要從不同的方面加以研究,其中有一個重要但又容易被忽視的問題,即統(tǒng)計測度問題,值得去探討。
一、什么是統(tǒng)計測度
漢語上,測度是指猜測、揣度、估計。數(shù)學上,測度是一個函數(shù),它對一個給定集合的某些子集指定一個數(shù),這個數(shù)可以比作大小、體積、概率等等。通俗地說,測度把每個集合映射到非負實數(shù)來規(guī)定這個集合的大?。嚎占臏y度是0;集合變大時測度至少不會減小(因為要加上變大的部分的測度,而它是非負的)。
除了數(shù)學角度的測度論,查閱國內(nèi)文獻資料,帶有測度這個詞匯的文獻不少,但專門針對統(tǒng)計測度(或測度)內(nèi)涵的討論幾乎沒有。一些對社會經(jīng)濟現(xiàn)象進行分析測度的文獻,例如新型工業(yè)化進程測度、貨幣流動性測度、全面小康社會發(fā)展進程測度、收入分配公平性測度、技術效率測度、人力資本測度、金融風險測度、產(chǎn)業(yè)關聯(lián)測度等等,所做的測度都是再測度,均不對測度本身進行討論。查閱國外文獻資料(關鍵詞:measurement),也同樣存在這樣的問題,只能收集到一些比較零散的表述。LudwikFinkelstein(1975)[1]認為,在我們對事物或現(xiàn)象進行描述時,測度可以被定義為對現(xiàn)實世界中某一現(xiàn)象的個體屬性或特征進行量化的過程。JamesT.Townsend和F.GregoryAshby(1984)[2]認為,如果按照極端的觀點,那么統(tǒng)計分析中的基本測度理論的含義仍然是存在爭議的。LudwikFinkelstein(2003)[3]指出,測度在那些原來尚未得到卓有成效或廣泛應用的領域,也已取得了明顯的進步,社會、政治、經(jīng)濟和行為科學正在更大程度地利用定量技術;測度是現(xiàn)代思維的一種實際有效的工具,是我們借以描述世界的一種方法。GiovanniBattistaRossi(2007)[4]認為,用以表示測度結果的,是數(shù)字或者數(shù)字符號。LucaMari(2013)[5]認為,測度的基礎特征是被公認為世界上獲取并正式表達信息的基本方法,這讓它成為一種跨學科的工具。LudwikFinkelstein(2014)[6]指出,在自然科學技術中,測度的重要性不可否認,它是科學調(diào)查和發(fā)現(xiàn)必不可少的工具,它可將宇宙中的復雜現(xiàn)象用精確、簡潔和普遍的數(shù)學語言來描述。
那么,到底什么是統(tǒng)計測度呢?目前沒有一個統(tǒng)一的定義。本文認為,統(tǒng)計測度具有不同于測度的意義,并且大大超越數(shù)學上的界定,即它具有數(shù)學定義的一般屬性,但又不受制于函數(shù)表現(xiàn)形式,因為統(tǒng)計測度所要面對的是現(xiàn)實世界,實際問題要比理論上可以定義的問題復雜得多。按照我們的理解,統(tǒng)計測度就是用一定的符號和數(shù)字,用一定的形式和載體,對所研究的現(xiàn)象或事物的特征進行量化反映,表現(xiàn)為可用于統(tǒng)計分析的數(shù)據(jù)的過程。它應該具有這樣一些屬性:以實際現(xiàn)象為測度對象,測度結果具有實際意義;以量化為目的,把信息轉(zhuǎn)化為數(shù)量,提供人們?nèi)菀桌斫獾亩拷Y論;個體特征的測度符合形成總體定量結論的要求,同時能夠體現(xiàn)個體差異??梢园l(fā)現(xiàn),統(tǒng)計測度需要借用數(shù)學工具,但更重要的是對具體測度現(xiàn)象本質(zhì)特征的認識和掌握。
統(tǒng)計測度可以從若干不同角度進行分類。邱東教授(2012)[7]曾在“宏觀測度的邊界悖律及其意義”一文中,從邊界的角度對宏觀測度進行了分類:一是因事物本身可測度性而形成的邊界,即本體論意義上的測度邊界;再一是由人的認知能力而形成的邊界,即認識論意義上的測度邊界;第三則是由統(tǒng)計相關性偏好和投入約束而形成的邊界,即操作意義上的測度邊界。這三條測度邊界,應該以本體論意義的測度邊界最大,認識論意義的測度邊界次之,而操作意義的測度邊界最小。這樣的分類,對于我們正確理解統(tǒng)計測度的內(nèi)涵很有幫助。受此啟發(fā),筆者認為統(tǒng)計測度還可以有如下分類:
1.從測度的實現(xiàn)形式看,可以分為原始測度和再測度。原始測度也可以稱為直接測度,它通過對測度對象進行直接測度來獲取數(shù)據(jù),例如清點庫存物品數(shù)量、丈量作物播種面積、觀察培育細菌數(shù)目、檢測藥物成分等獲得的數(shù)據(jù),以及各種登記、記錄的原始數(shù)據(jù)等等。再測度也稱為間接測度,它以其他已知的測度數(shù)據(jù)為基礎去計算、推算或預測所需的未知數(shù)據(jù),例如根據(jù)GDP和人口數(shù)測度人均GDP、根據(jù)人口普查分年齡人口數(shù)據(jù)測度老齡化系數(shù)和社會負擔系數(shù)、根據(jù)相關指標數(shù)據(jù)測度CPI的變化等等。復雜的再測度則需要借助相應的統(tǒng)計模型作為工具,因為它實際上是對相關變量之間的關系進行定量反映。從兩者關系上看,原始測度是基礎,是根本,沒有科學的原始測度就不會有可靠的再測度;再測度則是測度功能提升的必然要求,以解決原始測度不能解決的問題。
2.從測度的計量方式看,可以分為自然測度、物理測度、化學測度、時間測度和價值測度。自然測度是利用現(xiàn)象的自然屬性所進行的一種統(tǒng)計測度,例如人口規(guī)模、企業(yè)數(shù)量等的測度,采用自然計量單位;物理測度是利用現(xiàn)象的物理屬性所進行的一種統(tǒng)計測度,例如公路長度、作物播種面積、天然氣產(chǎn)量等的測度,采用物理計量單位;化學測度是利用現(xiàn)象的化學屬性所進行的一種統(tǒng)計測度,例如醫(yī)學、生物學中化學合成物的成分結構測度,采用百分數(shù)、千分數(shù)或特定標識為計量單位;時間測度是利用現(xiàn)象的時間屬性所進行的一種統(tǒng)計測度,例如勞動用工、閑暇時間等測度,采用時間計量單位;價值測度是利用現(xiàn)象的價值屬性所進行的一種統(tǒng)計測度,例如勞動報酬、經(jīng)濟活動成果等測度,采用貨幣計量單位。在這些測度計量方式中,價值測度因最具有綜合功能而應用最為廣泛。
3.從測度的方法看,可以分為計數(shù)測度、測量測度、實驗測度、定義測度和模型測度。計數(shù)測度是一種通過觀測計數(shù)來獲得數(shù)據(jù)的方法,最為簡單,一般用于自然測度或時間測度;測量測度是一種根據(jù)物理或化學規(guī)制對現(xiàn)象進行測量、測算來獲得數(shù)據(jù)的方法,一般用于物理測度或化學測度;實驗測度是一種按照科學實驗原理、通過觀察實驗對象在既定條件下的反應來獲得數(shù)據(jù)的方法,一般與測量測度相結合,用于獲取科學研究數(shù)據(jù);定義測度也可以稱之為指標測度,是一種通過探究現(xiàn)象的本質(zhì)特征和活動規(guī)律、歸納出表現(xiàn)其數(shù)量特征的范疇、給出統(tǒng)計指標定義(包括內(nèi)容、口徑、計算方法和表現(xiàn)形式等)來獲取數(shù)據(jù)的方法,最常用于價值測度,也用于其他形式的測度??梢哉f,定義測度方法應用最為廣泛,但也最為困難。模型測度是一種根據(jù)現(xiàn)象與現(xiàn)象之間的內(nèi)在聯(lián)系關系、或者現(xiàn)象自身的發(fā)展變化規(guī)律,通過建立一定的方程模型來獲取數(shù)據(jù)的方法。前面三種統(tǒng)計測度方法基本上都屬于直接測度,定義測度既可能是直接測度、也可能是間接測度,而模型測度都屬于間接測度方法。
4.從測度的維度看,可以分為單一測度與多維測度。單一測度是指采用單一的方式方法對所研究現(xiàn)象或事物進行單一角度的測度,獲得單一的數(shù)據(jù)。多維測度是指對所研究現(xiàn)象或事物進行多角度的測度,測度過程中可能需要采用多種測度方法和計量方式,例如多指標綜合評價就需要借助統(tǒng)計指標體系對評價對象進行多角度的測度。顯然,單一測度是多維測度的基礎。
二、統(tǒng)計測度是統(tǒng)計學的立足之本
首先,從統(tǒng)計學的發(fā)展歷史看,是統(tǒng)計測度使統(tǒng)計學破繭而出。為什么主流觀點認為政治算術是統(tǒng)計學的起源而不是國勢學?正是因為威廉·配第首次采用統(tǒng)計測度的方式進行了國家實力的統(tǒng)計分析和有關推算,得出了令人信服的結論。威廉·配第在1693年出版的《政治算術》[8]中寫道“因為和只使用比較級或最高級的詞匯以及單純作思維的論證相反,我卻采用了這樣的方法(作為我很久以來就想建立的政治算術的一個范例),即用數(shù)字、重量和尺度的詞匯來表達我自己想說的問題,只進行能訴諸人們的感官的論證和考察在性質(zhì)上有可見的根據(jù)的原因”,這一觀點在統(tǒng)計學的發(fā)展過程中產(chǎn)生了非常重要的影響。他的這段話雖然沒有出現(xiàn)測度一詞,但卻道出了測度的本質(zhì),即讓事物變得明白、變得有根據(jù),因為“數(shù)字、重量和尺度”就是測度、就是根據(jù),用“數(shù)字、重量和尺度的詞匯來表達想說的問題”就是一種測度的思想,盡管測度的方式方法還很簡單。相反,國勢學雖然提出了歸納法這一統(tǒng)計學的基本方法并首創(chuàng)了統(tǒng)計學一詞,但由于沒有采用統(tǒng)計測度的方式進行國勢問題的研究而難以修成正果。正如邱東教授[7]所說:“在配第之前,統(tǒng)計學的研究對象雖然是國家的態(tài)勢,但它在方法論上只是定性言說。一個國家的財富總量在本體論意義上是可以測度的。然而只是到了配第時期,人類才想到了要測度它,并發(fā)明了如何測度的基本方法。政治算術,即開創(chuàng)期的經(jīng)濟統(tǒng)計學,實現(xiàn)了從無到有的轉(zhuǎn)變,大大擴展了宏觀測度的認識論邊界,因而才具有了統(tǒng)計學范式創(chuàng)新的革命性意義。”同樣,格朗特的《關于死亡表的自然觀察和政治觀察》也是人口統(tǒng)計測度方面的經(jīng)典之作,無論是原始測度還是再測度,都給后人留下了寶貴的財富。之后,統(tǒng)計學就是沿著如何更加科學、準確測度世界這一主線而發(fā)展的。筆者曾在“從政治算術到大數(shù)據(jù)分析”一文[9],對數(shù)據(jù)的變化與統(tǒng)計分析方法的發(fā)展進行了粗淺的歸納,其主題實際上就是統(tǒng)計測度問題。
其次,從統(tǒng)計學的研究對象上看,統(tǒng)計測度是體現(xiàn)統(tǒng)計學數(shù)量性特征的前提條件。統(tǒng)計學的研究對象是現(xiàn)象的數(shù)量方面,或者說統(tǒng)計學是關于如何收集和分析數(shù)據(jù)的科學。統(tǒng)計數(shù)據(jù)從何而來?從統(tǒng)計測度中來。數(shù)據(jù)不同于數(shù)字,數(shù)字是統(tǒng)計測度的符號,數(shù)據(jù)是統(tǒng)計測度的結果,這也正是統(tǒng)計學區(qū)別于數(shù)學之處。所以說,數(shù)據(jù)的本質(zhì)問題就是統(tǒng)計測度問題,故此統(tǒng)計測度是統(tǒng)計學的基本問題。這里重點討論兩個問題:一是統(tǒng)計測度與統(tǒng)計指標的關系,二是統(tǒng)計測度面臨的新問題。關于第一個問題,本文認為統(tǒng)計測度與統(tǒng)計指標是一個事物的兩個方面,這個事物就是數(shù)據(jù)。統(tǒng)計指標法是統(tǒng)計學的基本方法之一,盡管前面對統(tǒng)計測度從方式方法上進行了分類,但從廣義上說所有統(tǒng)計測度都是定義測度,都表現(xiàn)為指標。也就是說,任何統(tǒng)計測度———不論是直接測度還是間接測度,最終目的是獲得能夠讓人明白的數(shù)據(jù),而表現(xiàn)數(shù)據(jù)的最主要形式就是統(tǒng)計指標,其他表現(xiàn)數(shù)據(jù)的形式都是派生出來的。所以,統(tǒng)計測度就是根據(jù)所設定的統(tǒng)計指標去獲得所需的數(shù)據(jù)。關于第二個問題,與后文所要論及的大數(shù)據(jù)有關,就是定性測度問題。在統(tǒng)計學中,數(shù)據(jù)可以分為兩類———定性數(shù)據(jù)與定量數(shù)據(jù),其中定性數(shù)據(jù)又包括定類數(shù)據(jù)與定序數(shù)據(jù)兩種,它們屬于非結構化或半結構化數(shù)據(jù)。相應地,統(tǒng)計測度也可分為定性測度與定量測度。很顯然,只有定性測度與定量測度方法得到同步發(fā)展,統(tǒng)計學才能更加完善??傮w上看,定量數(shù)據(jù)的統(tǒng)計測度已經(jīng)比較完善,但定性數(shù)據(jù)的統(tǒng)計測度還有很多問題尚待解決,難點就在于測度的切入點———如何提取有效的信息、如何最終轉(zhuǎn)化為統(tǒng)計指標。盡管關于定性數(shù)據(jù)分析的論著已經(jīng)不少,但還沒有從理論方法上建立起定性數(shù)據(jù)統(tǒng)計測度的體系,因此統(tǒng)計學在這方面的任務依然很重。
第三,從統(tǒng)計學的永恒主題看,通過科學的數(shù)據(jù)分析、得出有效的結論是其不變的追求,而數(shù)據(jù)分析過程就是綜合的統(tǒng)計測度過程。獲得數(shù)據(jù)的目的是為了發(fā)現(xiàn)隱含其中的有價值的信息,即發(fā)現(xiàn)數(shù)據(jù)背后的數(shù)據(jù),讓數(shù)據(jù)再生數(shù)據(jù),從而滿足人們認識事物、掌握規(guī)律、科學決策的需要。除了總量、結構等基本信息外,更重要的是通過數(shù)據(jù)分析來呈現(xiàn)現(xiàn)象的變化規(guī)律與相互關系。不難發(fā)現(xiàn),這種數(shù)據(jù)分析的過程,就是不斷進行各種統(tǒng)計測度的過程,所以最終的統(tǒng)計分析結果實際上就是各環(huán)節(jié)、各方面的各種類型的統(tǒng)計測度的疊加結果,或者說是統(tǒng)計測度不斷放大的過程。大量針對社會經(jīng)濟現(xiàn)象進行分析研究的文獻(不論是否冠以“測度”兩字),只要有數(shù)據(jù)分析,都是如此??梢哉f,統(tǒng)計測度貫穿于統(tǒng)計數(shù)據(jù)分析的全過程。但是,為什么很多統(tǒng)計數(shù)據(jù)分析并沒有得出有效的結論呢?本文認為原因就出在統(tǒng)計測度上,尤其是沒有首先解決好原始統(tǒng)計測度問題。應該說,圍繞數(shù)據(jù)分析已經(jīng)建立起一整套比較完整的統(tǒng)計方法體系,很多方法也都身經(jīng)百戰(zhàn)、行之有效,但一旦原始統(tǒng)計測度有問題、數(shù)據(jù)不準確或不真實,那么任何方法都只是擺設。仔細研讀很多所謂的實證分析文獻,其重點均在于構建什么樣的模型或運用什么樣的方法,雖然有的文獻也必須要討論選擇什么樣的變量(指標)這個問題,但并不是系統(tǒng)地從測度的角度進行闡述,因此所用的模型越來越復雜,但所得的結論卻離實際情況越來越遠。學界總是有這樣一種觀念:變量越多、符號越新奇、模型越復雜的文章才越有水平,似乎這樣分析所得的結論才越可靠。殊不知,不以科學可靠的原始統(tǒng)計測度為基礎,任何數(shù)據(jù)分析都會成為無源之水、無本之木,所得的結論也只是更精確的錯誤而已。本文認為,任何脫離科學統(tǒng)計測度的統(tǒng)計分析都是毫無意義的,充其量是一種數(shù)字游戲而已。應該樹立這樣一種觀念:科學的統(tǒng)計數(shù)據(jù)分析首先取決于科學的統(tǒng)計測度,而不是首先取決于什么樣的分析模型,雖然模型也很重要。這也再一次證明,統(tǒng)計測度問題是統(tǒng)計學的根本問題。其實,歸根結底看,在統(tǒng)計數(shù)據(jù)分析過程中,每一步分析都以前一步的測度為原始測度,每一步所用的方法都是統(tǒng)計測度方法,因此所有的統(tǒng)計分析方法都是統(tǒng)計測度方法。甚至可以說,統(tǒng)計學方法體系就是統(tǒng)計測度方法體系。
當然,在實際的統(tǒng)計分析中,統(tǒng)計測度往往遇到一些困難,即有些指標數(shù)據(jù)由于各種原因無法獲得,這就不得不采用替代這種途徑。例如,綠色GDP核算的概念已經(jīng)提出很多年,但為什么還沒有哪個國家真正公布綠色GDP數(shù)據(jù),原因就是自然資源價值、生態(tài)環(huán)境價值等的統(tǒng)計測度目前還面臨著很大的困難,其背后存在著一系列有待進一步研究和解決的理論與實踐問題,因此不少學者進行了替代測度的探討。這一方面說明統(tǒng)計測度的重要性,另一方面說明統(tǒng)計測度替代的無奈性。但是,替代測度必須遵守相應的規(guī)則與邏輯,要經(jīng)得起推敲。有的文獻明明知道有關變量無法測度、有關數(shù)據(jù)無法獲得,卻隨意地、不符合邏輯地進行所謂的替代,結果是最后的結論不知替代成什么樣了,很難理解它的意義。關于替代測度的有效性問題,邱東教授[7]已有精辟的論述,在此不再展開討論。
三、統(tǒng)計測度是數(shù)據(jù)科學的基礎
籠統(tǒng)地講,數(shù)據(jù)科學就是以大數(shù)據(jù)為研究對象的科學,需要多學科交叉融合、共同支撐。由于大數(shù)據(jù)是快速增長的復雜數(shù)據(jù),因此大數(shù)據(jù)分析僅有統(tǒng)計思維與統(tǒng)計分析方法是不夠的,還需要強大的數(shù)據(jù)處理能力與計算能力。只有把統(tǒng)計思維、統(tǒng)計方法與計算技術結合起來,才有可能真正挖掘出大數(shù)據(jù)中的有價值信息。本文認為統(tǒng)計思維、統(tǒng)計方法與計算技術相結合的基礎就是科學的統(tǒng)計測度。
首先,大數(shù)據(jù)技術不能自行解決其計算和分析應從何處著手的問題?,F(xiàn)代信息技術與互聯(lián)網(wǎng)、物聯(lián)網(wǎng)技術的快速發(fā)展,使人類進入大數(shù)據(jù)時代,也有人說進入到數(shù)聯(lián)網(wǎng)時代,這意味著我們一方面被各種越來越多、越來越復雜的數(shù)據(jù)所包圍,另一方面又被數(shù)據(jù)中巨大的信息價值所吸引,想從中挖掘出可供決策之用的信息。如何挖掘大數(shù)據(jù)?人們已經(jīng)進行了艱苦的探索,發(fā)展了很多專門的方法技術,并已嘗到了不少甜頭,但遠未達到充分利用大數(shù)據(jù)中有效信息的目的,因為已有的大數(shù)據(jù)分析研究主要集中于計算機科學與技術、軟件工程、計算數(shù)學等領域,重點是計算能力與算法研究,而很少從統(tǒng)計學的角度進行有針對的探討,還沒有真正進入數(shù)據(jù)分析的深層。這里面實際上忽略了最基礎的統(tǒng)計測度問題。如果說,計算技術的發(fā)展能夠解決數(shù)據(jù)儲存與計算的能力問題,算法模型的改進能夠解決大數(shù)據(jù)分析的綜合能力問題,那么它們?nèi)匀徊荒芙鉀Q對誰進行計算與分析的問題,也即從何處著手的問題。無論是傳統(tǒng)的結構型數(shù)據(jù),還是現(xiàn)在的包含大量非結構型數(shù)據(jù)的大數(shù)據(jù),要對它們進行分析都必須找到正確的切入口,即分析的基本元素是什么,或者說需要測度什么。當然,還有如何測度的問題。然后,才能進行分組、綜合和構建模型,否則大數(shù)據(jù)分析不會達到人們的預期。
其次,大數(shù)據(jù)之所以催生數(shù)據(jù)科學,就是為了通過多學科交叉融合來共同解決大數(shù)據(jù)分析中存在的問題,其中包括統(tǒng)計測度問題,這一點對于非結構化數(shù)據(jù)尤為突出。實際上,大數(shù)據(jù)的本質(zhì)就是非結構化數(shù)據(jù),一是體量大、比重高(超過95%),二是變化快、形式多,三是內(nèi)容雜、不確定。通過各種社交網(wǎng)絡、自媒體、富媒體,以及人機對話和機器感應記錄等產(chǎn)生的各種非結構化數(shù)據(jù),例如各種文字、各種表情符號、各種聲音、各種圖像,到底表示什么?綜合在一起能體現(xiàn)什么規(guī)律?如何綜合各種信息?存在著大量有待研究的問題。其實,文字的長短、用詞、表達形式(敘述式、議論式、散文式、詩歌式,等)甚至字體大小與顏色,表情類型與偏好,聲音高低、頻率與情緒,圖像顏色等等,都是有特定意義的,即在特定環(huán)境條件下的反應。所以,一句話或一段聲音的意義并非文字本身的意思,一個表情符號的意義并非符號表征的意思,一個圖像的意義并非圖像內(nèi)容與色彩本身的意思,因為背后有太多的未知。人們?yōu)g覽檢索各種信息的習慣、收看與回復郵件等信息的習慣、參與信息網(wǎng)絡的習慣、購物習慣與支付習慣等等,也是如此。更何況,同樣的網(wǎng)絡詞匯在不同的時間代表著不同的語義。這背后隱藏著的是人們的行為與社會關系,既具有個性又具有共性,極其復雜。所以對這樣的數(shù)據(jù)進行分析,首先絕非是計算問題,也不是用什么模型問題,而首先是從何處著手、如何選取關鍵詞、如何選定關聯(lián)詞、可以用什么樣的指標來綜合、可以用什么樣的表式來表現(xiàn)等問題,一句話就是統(tǒng)計測度問題。非結構化數(shù)據(jù)的統(tǒng)計測度將主要是定義測度,這些問題不解決,分析模型也是難以構建的,或者難以得出令人信服的結論。
例如,關于《紅樓夢》前80回與后40回是否同一作者的爭論,韋博成[10]進行了綜合性的比較研究并提出了自己的觀點,他指出已有美國威斯康辛大學華裔學者陳炳藻教授(1980)[11]、我國華東師范大學陳大康教授(1987年)[12]和復旦大學李賢平教授(1987年)[13]等學者從統(tǒng)計學的角度進行過專門的研究,但卻得出了不同的結論:陳炳藻教授認為前80回與后40回均是曹雪芹所著;陳大康教授認為前80回與后40回為不同人所著;李賢平教授認為前80回是曹雪芹根據(jù)《石頭記》增刪而成,后40回是曹雪芹親友搜集整理原稿加工補寫而成。此外,還有其他一些學者進行過類似的研究,也有一些不同的結論。為什么都通過提取關聯(lián)詞和統(tǒng)計的方法卻得出不同的結論?原因就在于用以分析的關聯(lián)詞不同,即統(tǒng)計測度的切入點不同,當然也有統(tǒng)計方法上的差異,但前者是根本。至少存在幾個統(tǒng)計測度上的問題:提取單一維度的關聯(lián)詞還是多維度的關聯(lián)詞?提取什么類型的關聯(lián)詞(例如:關聯(lián)詞是名詞、形容詞還是動詞;是花卉、樹木、飲食、醫(yī)藥還是詩詞)?這些關聯(lián)詞可以綜合為什么樣的指標?等等。由此可見,原始統(tǒng)計測度代表著數(shù)據(jù)分析的方向。
相比《紅樓夢》,大數(shù)據(jù)分析要復雜得多、困難得多。所以,數(shù)據(jù)科學除了需要數(shù)學、統(tǒng)計學、計算機科學與技術、人工智能等學科的交叉融合外,還需要與行為科學、語言學、社會學、經(jīng)濟學等學科相結合,以便能很好地解決作為數(shù)據(jù)分析之前提的統(tǒng)計測度問題。
第三,數(shù)據(jù)科學將進一步拓展統(tǒng)計測度的邊界,并提出更高的要求。伴隨著人類認識世界的范圍的不斷拓展,統(tǒng)計測度的范圍也不斷擴大,從自然現(xiàn)象統(tǒng)計測度到人口現(xiàn)象、經(jīng)濟現(xiàn)象統(tǒng)計測度,再到社會現(xiàn)象、環(huán)境現(xiàn)象、政治現(xiàn)象等統(tǒng)計測度,幾乎已經(jīng)滲透到了所有可以想象到的領域。相應地,統(tǒng)計數(shù)據(jù)分析也從少量數(shù)據(jù)的分析進入到了大數(shù)據(jù)分析。大數(shù)據(jù)的復雜性、不確定性和涌現(xiàn)性(王元卓等,2013)[14],意味著統(tǒng)計測度的內(nèi)容大大增加,原來一些不能測度的數(shù)據(jù)被納入到了統(tǒng)計測度的范圍,按照邱東教授的說法就是統(tǒng)計測度的邊界大大擴展了。統(tǒng)計測度邊界的擴大,必須以統(tǒng)計測度能力的提升為前提,即要求統(tǒng)計學借助現(xiàn)代信息技術進一步提升處理和分析數(shù)據(jù)的能力———對大數(shù)據(jù)“化繁為簡”、“變厚為薄”的能力,這就必須以科學準確的大數(shù)據(jù)統(tǒng)計測度為前提,既改變統(tǒng)計思維,又創(chuàng)新統(tǒng)計分析方法,其中就包括統(tǒng)計測度思維、統(tǒng)計測度方法與統(tǒng)計測度標準。面對大量繁雜的數(shù)據(jù),如果沒有更好的統(tǒng)計測度思路與方法,包括個體標志定義方法、最小數(shù)據(jù)細胞分組與聚類方法、關聯(lián)詞含義的時間影響計量方法、定性測度指標篩選方法、再測度路徑與方法、大數(shù)據(jù)統(tǒng)計測度評價標準等,那么統(tǒng)計學在數(shù)據(jù)科學發(fā)展過程中就難以發(fā)揮應有的作用,數(shù)據(jù)科學也將裹足不前。這就是統(tǒng)計學邁向數(shù)據(jù)科學的重要挑戰(zhàn)之一。
綜上所述,統(tǒng)計測度的基礎性問題從統(tǒng)計學延伸到了數(shù)據(jù)科學,是兩者的共同基礎,并且對于數(shù)據(jù)科學而言顯得更為重要。大數(shù)據(jù)的復雜性、不確定性和涌現(xiàn)性導致了統(tǒng)計測度的難度猛增,亟需建立面向大數(shù)據(jù)分析的統(tǒng)計測度理論與方法。要通過研究大數(shù)據(jù)的復雜性、不確定性和涌現(xiàn)性特征的基本因素,以及這些因素之間的內(nèi)在聯(lián)系、外在指標和測度方法,進而研究基于先進計算技術的大數(shù)據(jù)度量模型,構建尋找面向計算的數(shù)據(jù)內(nèi)核或者數(shù)據(jù)邊界的基本方法??傊?,建立有效易行的數(shù)據(jù)表示方法,即科學的統(tǒng)計測度方法,是數(shù)據(jù)科學必須解決的基礎問題之一。
四、創(chuàng)新與完善大數(shù)據(jù)統(tǒng)計測度方法
如前所述,統(tǒng)計學研究對象已經(jīng)從結構化數(shù)據(jù)延伸到了包括非結構化數(shù)據(jù)在內(nèi)的一切數(shù)據(jù),統(tǒng)計測度邊界得到了大大的擴展。按照邱東教授[7]曾經(jīng)引用過的海德格爾的話:“界限并不表示某一事物的發(fā)展到此為止,而是像希臘人所認知的那樣,界限是某種事物開始展現(xiàn)的地方”,預示著統(tǒng)計學在數(shù)據(jù)科學發(fā)展階段的新起點已經(jīng)展現(xiàn)在我們面前。新的統(tǒng)計測度邊界催生統(tǒng)計測度方法的創(chuàng)新,統(tǒng)計測度方法的創(chuàng)新促進統(tǒng)計測度邊界的拓展,兩者相輔相成,共同推動統(tǒng)計學與數(shù)據(jù)科學的發(fā)展。為此,我們要系統(tǒng)梳理統(tǒng)計測度方法的發(fā)展歷程,面對大數(shù)據(jù)提出的新挑戰(zhàn),大膽探索統(tǒng)計測度的新思路、新理論和新方法,為數(shù)據(jù)科學奠定堅實的統(tǒng)計學基礎。為此提出如下幾點建議:
首先,要緊密結合現(xiàn)象的本質(zhì)去探求更科學的統(tǒng)計測度方法。本質(zhì)決定一切,既然統(tǒng)計測度的目的是獲得客觀反映現(xiàn)象本質(zhì)的數(shù)據(jù),那么深入到現(xiàn)象本質(zhì)、認識和掌握現(xiàn)象的本質(zhì),是科學統(tǒng)計測度的關鍵,也是探求新的統(tǒng)計方法的出發(fā)點。換句話說,科學的統(tǒng)計測度方法能夠體現(xiàn)出數(shù)據(jù)的真正意義。例如,要探求社交網(wǎng)絡數(shù)據(jù)的統(tǒng)計分析和測度方法,就必須了解社交網(wǎng)絡的產(chǎn)生背景、構成要素、表現(xiàn)形式與基本特征,既要研究它的共性問題,又要研究它的個性問題與差異性,同時還要研究它的變化趨勢。只有這樣,才能掌握社交網(wǎng)絡數(shù)據(jù)的構成要件或元素,才能建立起科學的、能有效體現(xiàn)社交網(wǎng)絡數(shù)據(jù)意義的統(tǒng)計測度方法。再如,要分析研究電子商務數(shù)據(jù),也必須先弄清楚什么是電子商務,尤其是弄清楚它與傳統(tǒng)的商業(yè)模式有什么不同(包括物流、資金流與信息流)、有哪些新生事物(包括時空特征、法律監(jiān)管)等等,否則統(tǒng)計測度無從下手或者抓不住要害。同時,作為一個新的研究領域,數(shù)據(jù)科學的理論基礎將與計算機科學、統(tǒng)計學、人工智能、數(shù)學、社會科學等有關,離不開對相關學科領域知識與研究方法的借鑒,因此對相關領域的知識與研究方法的學習十分重要。否則,就會嚴重扭曲統(tǒng)計測度方法,胡亂設置測度標志,這需要引起高度關注。
其次,要緊密結合大數(shù)據(jù)的特點去創(chuàng)新統(tǒng)計測度方法。大數(shù)據(jù)的特點是復雜性、不確定性和涌現(xiàn)性并存,構成了多維的數(shù)據(jù)空間,里面蘊藏著豐富的信息資源,這是傳統(tǒng)的統(tǒng)計數(shù)據(jù)不可比擬的。那么該從何處進入這樣的數(shù)據(jù)空間?怎么進去?又怎么出來?這歸根結底還是統(tǒng)計測度方法問題。因此,在開展大數(shù)據(jù)分析之前,首先要研究大數(shù)據(jù)的基礎性問題,包括大數(shù)據(jù)的內(nèi)在機理(包括大數(shù)據(jù)的演化與傳播機制、生命周期),數(shù)據(jù)科學與社會學、經(jīng)濟學、行為科學等之間的互動機制,以及大數(shù)據(jù)的結構與效能的規(guī)律性等等,為創(chuàng)新統(tǒng)計測度方法提供導向。本文認為,再復雜的數(shù)據(jù)也有共性,再不確定的數(shù)據(jù)也有規(guī)律,再涌現(xiàn)的數(shù)據(jù)也有軌跡。網(wǎng)絡大數(shù)據(jù)背后的網(wǎng)絡平均路徑長度、度分布、聚集系數(shù)、核數(shù)、介數(shù)等具有共性的特征與參數(shù),是開展復雜網(wǎng)絡數(shù)據(jù)分析的基礎(李國杰、程學旗,2012)[15];大數(shù)據(jù)在時空維度上的分布形式、內(nèi)在結構、動態(tài)變化和相關聯(lián)的規(guī)律,是找到大數(shù)據(jù)分析切入口、進而簡化大數(shù)據(jù)表征的前提;大數(shù)據(jù)的涌現(xiàn)性軌跡(包括模式涌現(xiàn)性、行為涌現(xiàn)性和智慧涌現(xiàn)性),是研究更多的社會網(wǎng)絡模型和理解網(wǎng)絡瓦解失效原因,理解人們網(wǎng)絡行為涌現(xiàn)特征(例如人們發(fā)郵件數(shù)量的時間分布特征),以及探求大量自發(fā)個體語義融合連接形成有特定意義的通用語義之過程的路徑(靳小龍等,2013)[16]。也就是說,這些共性、規(guī)律和軌跡就是統(tǒng)計測度的主要依據(jù),也是重點內(nèi)容。發(fā)展和創(chuàng)新能夠準確發(fā)現(xiàn)大數(shù)據(jù)的共性、規(guī)律和軌跡的定量方法,其實就是發(fā)展和創(chuàng)新大數(shù)據(jù)統(tǒng)計測度方法。
第三,要緊密結合現(xiàn)代信息技術以完善統(tǒng)計測度方法。復雜、多變和不斷涌現(xiàn)的大數(shù)據(jù),不僅需要借助現(xiàn)代信息技術(包括硬件與軟件)來解決極其復雜的分析計算問題,也需要利用現(xiàn)代信息技術來解決其繁雜多樣的統(tǒng)計測度問題。對于大數(shù)據(jù),不論是原始統(tǒng)計測度還是再測度,其復雜性或難度都不是傳統(tǒng)的結構化數(shù)據(jù)所能相提并論的,哪怕是基本的關聯(lián)詞計數(shù)、分類與匯總,其工作量之大也超乎想象,不借用現(xiàn)代信息技術幾乎是不可能完成的。而事實上,有些統(tǒng)計測度的內(nèi)容與方法本身也是以數(shù)據(jù)處理能力的提升為前提的。可以說,脫離現(xiàn)代信息技術,人們難以承受大數(shù)據(jù)的統(tǒng)計測度與分析任務;要把統(tǒng)計測度思想變?yōu)榭蓪崿F(xiàn)的統(tǒng)計測度方法,必須借助現(xiàn)代信息技術。為此,要充分利用各種信息技術和手段,把統(tǒng)計測度與數(shù)據(jù)清洗相結合、與數(shù)據(jù)分析模型相結合、與計算方法相結合,努力建立融自動搜索統(tǒng)計測度、動態(tài)演化統(tǒng)計測度和自主優(yōu)選統(tǒng)計測度為一體的大數(shù)據(jù)統(tǒng)計測度方法體系。
【關鍵詞】數(shù)據(jù)分析 籃球運動 籃球技術
【中圖分類號】G841 【文獻標識碼】A 【文章編號】1674-4810(2015)08-0188-02
在一場籃球比賽中進行數(shù)據(jù)挖掘,并提取相關籃球技術動作中可用信息是推進籃球運動與事業(yè)發(fā)展的一個有效方法。將數(shù)據(jù)分析應用到籃球運動中,通過對統(tǒng)計數(shù)據(jù)的分析,對籃球的各項數(shù)據(jù)進行分類,并分析查找這些數(shù)據(jù)之間的相關性。
一 籃球數(shù)據(jù)分析方式
籃球數(shù)據(jù)分析是現(xiàn)代籃球很重要的一部分,通過數(shù)據(jù)的分析可以發(fā)現(xiàn)很多平時難于發(fā)現(xiàn)的問題。在實際的運用中,數(shù)據(jù)分析的方式就顯得尤為重要。
1.橫向的數(shù)據(jù)分析
橫向分析是對同一時期數(shù)據(jù)資料進行橫剖研究,拋開其他各種條件,對待一事物的具體特征,以具體數(shù)據(jù)的方式研究其變化的趨勢與規(guī)律。這種分析方式在籃球運動中可以用來分析球員的籃板、得分、助攻、搶斷、失誤五項數(shù)據(jù)。例如可以橫向地分析助攻失誤比是多少,這個比率越大說明助攻的成功率就越高,助攻的效率也就越高,反之說明助攻的同時付出了過大的失誤損失,助攻的效率就低。這個比率可以提示球員需要在哪些方面提高,比率大了就要增大助攻的次數(shù),比率小了就要適當減少助攻的次數(shù)、提高傳球的把握性。數(shù)據(jù)橫向分析在籃球運動中使用是理論與實際相結合的過程,它提高了籃球技術的科學性,加快了籃球技術的發(fā)展。
2.縱向的數(shù)據(jù)分析
縱向分析也可以叫作垂直分析,主要用分析發(fā)展進步的程度和速度。它可以清晰地分析出某個球員在職業(yè)生涯中的籃板、得分、助攻、搶斷、失誤的發(fā)展方向,也可以分析出一個球隊一年中基本數(shù)據(jù)的發(fā)展趨勢。例如某個球員的得分每個月的平均得分都在變大,這說明這個球員在上升期,就可以判斷這個球員還有很大的潛力空間;一個球隊每個月的平均籃板數(shù)都在下降,這說明球隊的球員積極性在減弱,教練就可以多進行搶籃板方面的訓練,多提醒球員拼搶籃板球,進而調(diào)動球員的積極性,提升球隊的籃板球數(shù)。
二 籃球數(shù)據(jù)分析的主體
籃球數(shù)據(jù)主要由單個球員的數(shù)據(jù)和球隊數(shù)據(jù)構成,在分析籃球數(shù)據(jù)時就要將這兩個主體分門別類匯總對比分析。
1.球員的數(shù)據(jù)分析
球員是籃球運動的基本要素,球員數(shù)據(jù)的分析是數(shù)據(jù)分析的第一步,也是最基礎的一步。球員在各個方面的貢獻才能換來球隊的良性發(fā)展,球員對球隊的發(fā)展起到很大的推動作用,這樣就要求在對球員進行數(shù)據(jù)分析時要對單個球員和多個球員組合進行數(shù)據(jù)分析。
第一,單個球員各項數(shù)據(jù)分析。(1)單個球員某場比賽中在籃板、得分、助攻、搶斷、失誤等數(shù)據(jù)分析。(2)單個球員特定時間段在籃板、得分、助攻、搶斷、失誤等數(shù)據(jù)方面增大或者減少。(3)相同位置的球員數(shù)據(jù)分析,數(shù)據(jù)分析對比就可以看出能力、效率和態(tài)度。(4)單個球員歷史數(shù)據(jù)分析?,F(xiàn)實數(shù)據(jù)與歷史數(shù)據(jù)進行分析,清楚地顯示該球員得分的增減、防守的變化、拼搶積極性的變化等。(5)單個球員特定比賽的數(shù)據(jù)分析。例如一球員主場時平均得分20分,客場時平均得分10分,就可以清楚地判斷該球員在客場狀態(tài)沒有在主場狀態(tài)好,這樣就可以適當增加該球員的主場上場時間,減少客場上場時間。
第二,多個球員組合數(shù)據(jù)分析。在籃球比賽中,對比賽數(shù)據(jù)進行實時錄入分析,并輔以以往的比賽數(shù)據(jù)作為教練員的參考是極為重要的,這不但可以幫助教練員判斷球員的參賽狀況,還可以幫助分析哪些球員組合后能發(fā)揮出更大的優(yōu)勢。
球員組合數(shù)據(jù)分析是為了更好地產(chǎn)生球隊化學反應。例如球員甲、乙、丙一塊上場時球隊凈勝10分,球員乙、丙、丁一塊上場時球隊負5分。通過這個球員組合數(shù)據(jù)分析可以表明甲、乙、丙組合效率更高,效果更好,在安排技戰(zhàn)術時應增加此組合的上場時間。同理則要適當減少乙丙丁組合的上場時間。
組合數(shù)據(jù)分析在實際運用中越來越被重視,很多的球隊都出現(xiàn)了“三巨頭”“后場雙槍”等。例如NBA達拉斯小牛隊當年的“三駕馬車”、底特律活塞隊的“藍領五人組”和湖人王朝時期的“OK”組合,還有我們都比較熟悉的火箭麥蒂與姚明“MM”組合。這些組合都是在組合數(shù)據(jù)分析的基礎上建立的,最終也都在籃球運動的歷史里留下了濃重的一筆。
2.球隊的數(shù)據(jù)分析
籃球這項運動是一個團隊運動,只分析球員的數(shù)據(jù)就違背了團隊運動的精髓。因此,球隊數(shù)據(jù)分析要建立在球員數(shù)據(jù)分析的基礎上,既要注重個人的發(fā)揮,又要考慮球隊的整體。對球隊的數(shù)據(jù)分析主要有以下四個方面。
第一,球隊勝利時的數(shù)據(jù)分析。數(shù)據(jù)分析的目的是為了提高球隊的戰(zhàn)斗力和競爭力,這就要求了在進行數(shù)據(jù)分析時要重視球隊獲得勝利時的各項數(shù)據(jù)。例如勝利的比賽要分析命中率比對手高幾個百分點和凈勝對手多少分,這兩個數(shù)據(jù)可以體現(xiàn)球隊的狀態(tài)和進攻能力。在分析進攻的同時也不能忽視防守,防守情況就要分析凈勝對手多少個籃板球、逼迫對手出現(xiàn)多少次失誤、將對手的得分限制在多少分等。
第二,球隊失敗時的數(shù)據(jù)分析。有勝就有敗,勝利時的數(shù)據(jù)分析會鼓舞人心,失敗時的數(shù)據(jù)分析可能會使人心灰意冷,但是失敗時的數(shù)據(jù)分析是尋找差距并迎頭趕上的必經(jīng)之路。只有進行準確到位的分析,才能將進攻端和防守端的問題暴露出來,才能更好地從根本上解決問題。
第三,球隊歷史的數(shù)據(jù)分析。把歷史當作一面鏡子,要經(jīng)常地去照鏡子,只有知道距離歷史最好水平還有多少差距,才可以明確球隊的發(fā)展方向。球隊歷史數(shù)據(jù)分析主要體現(xiàn)在以下三個方面:(1)發(fā)生重大人員變化。引進的重要球員偏重進攻,在戰(zhàn)術體系中就要加大進攻的風格。(2)球隊戰(zhàn)術發(fā)生重大變化。球隊由進攻型風格向防守型風格變化,就要分析改變風格后防守數(shù)據(jù)是否大于之前的效率。(3)與球隊鼎盛時期的數(shù)據(jù)對比。球隊鼎盛時期的數(shù)據(jù)是球隊建設的目標,如果球隊在上升期就要對各項數(shù)據(jù)進行分析,以便能盡快地達到巔峰。如果球隊在下降期,如果只分析一些諸如防守的部分數(shù)據(jù),就會使球隊陷入一種困惑,反倒會起到負面作用。
對球隊歷史數(shù)據(jù)分析時最重要,也是最需要注意的一點是對比的時期一定要選擇準確,否則會讓數(shù)據(jù)分析不能客觀、科學地指導球隊的發(fā)展。
第四,與其他球隊的數(shù)據(jù)分析。俗話說:“知己知彼,百戰(zhàn)不殆”“三人行必有我?guī)煛?,講的就是要熟悉對手、學習對手的優(yōu)勢才能打敗對手。與其他球隊數(shù)據(jù)分析主要有以下四個方面的內(nèi)容:(1)與即將比賽的球隊進行之前交手數(shù)據(jù)的分析。這些分析就可以清晰地反映球隊的優(yōu)勢或弱點,對手在某個環(huán)節(jié)的優(yōu)勢或弱點。從而在安排技戰(zhàn)術時就可以最大化自己的優(yōu)勢,猛攻對手的弱點。(2)與戰(zhàn)術體系相同的球隊進行數(shù)據(jù)分析。進攻型的球隊分析進攻數(shù)據(jù),找到球隊在進攻端的差距和不足;分析防守型球隊的數(shù)據(jù),這樣可以使球隊的戰(zhàn)術體系更加的均衡化,以便提高和長足發(fā)展。(3)與戰(zhàn)術體系不相同的球隊進行數(shù)據(jù)分析,發(fā)現(xiàn)其他球隊的優(yōu)勢,進而學習,變?yōu)樽约旱膬?yōu)勢。(4)與戰(zhàn)績好的球隊進行數(shù)據(jù)分析,尋找需要提高的要素。
三 結束語
隨著數(shù)據(jù)分析在籃球運動中的運用越來越廣泛,有些球隊專門成立數(shù)據(jù)分析團隊,聘請數(shù)據(jù)分析專家,籃球運動中的數(shù)據(jù)分析越來越精細化、專業(yè)化,數(shù)據(jù)分析已經(jīng)成為籃球運動不可或缺的一部分。
參考文獻
【關鍵詞】英語教學 可視化分析 學習成效
我國英語教學在網(wǎng)絡課程、移動學習、智能測評等方面近年來發(fā)展迅猛。結合我國實際的教學環(huán)境以及新近發(fā)展起來的大數(shù)據(jù)可視化分析模型,探索更有針對性更加有效的英語教學模式,以更大限度的提高學生學習熱情,改善學習成績,培養(yǎng)全面發(fā)展的英語人才。
一、中國英語教育的規(guī)模與社會需求
全球化進程和頻繁的國際交流推動著我國的英語教育發(fā)展,同時也導致外語類教學消費的泡沫現(xiàn)象。針對高校英語專業(yè)和英語增長和英語類考試泛濫的現(xiàn)狀,導致了學生數(shù)量與教學質(zhì)量之間的矛盾。我國高校英語教育規(guī)模和社會需求的快速發(fā)展,但也隨之帶來了師資不足、教材陳舊、教學手段落后、理論和實際脫離等一系列問題。在飛速發(fā)展的大數(shù)據(jù)時代,如何在保障英語教育規(guī)模的同時,建設英語專業(yè)教材、深化英語專業(yè)教學改革、確保英語專業(yè)教學質(zhì)量已經(jīng)成為當前迫切需要解決的問題。
二、大數(shù)據(jù)分析模型在學生英語學習過程中的應用
大數(shù)據(jù)概念在教育領域的發(fā)展體現(xiàn)在:開創(chuàng)教育理念的新思維新視角的同時,也給教育實踐探索帶來了新技術、新方法。通過數(shù)據(jù)記錄學生學習的能力、效果、時間、水平、成績、思維流程等,能夠直接、具象的掌握學生的學習進度。通過大數(shù)據(jù)系統(tǒng),對這些信息和數(shù)據(jù)進行記錄、整理、統(tǒng)計、分析,使得教師能更科學全面地掌握學生的學習動向,也使得學生和家長能及時客觀地了解個體發(fā)展情況。
通過大數(shù)據(jù)分析模型著重闡述了如何對學生英語水平進行切面橫向的評價,同時進行分析研究,查缺補漏,制定個性化學習方案,教師實行定制化的施教方案,有針對性地對學生的英語學習進行指導和教授知識點,有效提高學生英語水平。
從縱向的時間維度來講,以學生個體在學習過程中積累的變動數(shù)據(jù)為根據(jù),橫向細分考察點(聽說讀寫譯的子考察點)為依托,這樣可以繪制出學生個體在學習過程中的數(shù)據(jù)變化模型,制作出來評分圖,對比以前的評分圖,可以實現(xiàn)對該學生整個學習過程進行可視化研究,并隨時調(diào)整學習方法和施教方案,有針對性地加強薄弱點的學習,掌控學生的學習效果。
同前面所述一樣可以繪制出學生的學習水平評價表,可以清晰地記錄學生的學習軌跡,如果條件允許還可以制定學習記錄檔案,這不僅能成為學生學習成長的指引工具,也有助于鍛煉學生的分析解決問題能力和邏輯思維。
三、大數(shù)據(jù)分析法在英語教學當中的應用
1.大數(shù)據(jù)分析模型在學習群體中的分類應用。對一個學習群體來講,主要從以下四個方面進行分類研究,考查點分別是基礎綜合水平、學生學習目標要求、英語學習薄弱點和學生的性格特點等。該四個考查點每個以滿分100分計,基礎綜合水平時根據(jù)學生目前的學習狀況做個全面客觀的測試,可以從聽說讀寫譯等五個基礎點進行測試,為考慮英語教學是為學生英語學習的全面發(fā)展,故每個基礎點滿分為20分,進行考察統(tǒng)計;學生學習目標要求是指根據(jù)學生當前狀況,同時結合學生家長、學生本人以及學校的期望和要求,制定合理的學習目標;英語學習薄弱點主要通過綜合水平的考查就可得出學生學習的評估結論;性格特點是指在英語學習過程當中該學生適合的一種學習方法,以上四個方面具體參考下面表格進行分類:
通過基礎綜合水平(從聽說讀寫譯等五個方面進行考核)、學習薄弱點、性格特點、學習目標要求(學生自己的學習水平,學生家長、學生本人以及學校的期望和要求)這四個方面,將學生群體分成幾類,清楚了解他們在英語學習過程中存在的問題,可針對性地進行施教,同時對學習過程進行圖表追蹤,可以直觀反映學生在學習過程中的進步情況。傳統(tǒng)的教育教學評價模式和大數(shù)據(jù)的評價模式有較大的差別,大數(shù)據(jù)時代的教育,更加注重ρ生多方面的考核,對學生的了解更具有針對性,施教方法和教材的選用都能體現(xiàn)個性化,會更客觀和全面地對學生進行考核、評價、分析和研究。
通過對學生群體從以上四個大方向的了解分析,進行有針對性的施教,前三個方面是從學生當前自身的了解,后一項是對其學習目標的確認,首先,在了解以上各方面的狀態(tài)下,結合學生的基礎綜合水平高低將其目標分段實現(xiàn),同時,結合其學習薄弱點,進行重點練習和學習,鞏固以前基礎,提升重點知識水平,針對不同性格的學生,采用不同的學習和練習方法,比如性格開朗具有語言天賦的學生更能在聽說應用中提高知識水平,性格內(nèi)向的學生在讀寫和記憶知識方面更能發(fā)揮他們的優(yōu)勢。
2.大數(shù)據(jù)分析模型在學生個性化英語學習中應用。
(1)英語教學評價指標體系介紹。以單個學生為例,由評價老師組成評價小組,取平均值對學生進行橫向切面的英語水平數(shù)據(jù)分析,評價表設計為:聽(詞0.2、句0.2、文0.2、邏輯關系0.3、習語0.1)說(發(fā)音0.5、斷句0.3、語氣語調(diào)0.2)、讀(詞匯0.3、句型0.3、語法0.4)寫(詞匯0.5、格式行文0.2、組織結構0.3)譯(口譯0.4、筆譯0.4、速記0.2)。
通過以上表格對學生的英語水平進行全方位的數(shù)據(jù)分析,需要說明的是評分等級可以是上面模糊指標,也可以是精確的得分,通過建立科學準確的數(shù)學模型,可以輕而易舉的展現(xiàn)出某一學生的優(yōu)勢和不足,同時上表還可以結合學生的目標要求拆開來用,針對某一或幾個大類進行評價分析,最終可視化地得出學生英語水平表,之后針對學生的不足制定出個性化的學習和施教方案。按照英語水平數(shù)據(jù)分析評價模型表,就某一學生實際英語水平考查得分用柱狀圖進行可視化分析。
從圖1可以看出該學生的能力水平中等偏上,但是翻譯水平很差,讀寫水平良好,聽說能力一般,總體水平都有待提高,特別是翻譯水平需要特別注意。經(jīng)過分析,針對該學生教師首先著重從鍛煉其翻譯能力為重,制定專門能夠提高翻譯水平的施教方案和策略,同時注意對聽說讀寫等方面能力的學習和提高。
下面再聽力水平為例進行分析,研究哪些細分方面能力水低而導致該生的聽力水平一般。以聽力水平考查得分為例,
由上圖可以輕松看出來該生的英語聽力水平一般,具體原因除在詞匯方面表現(xiàn)良好以外,其他細分能力點的水平都很普通,在全文聽力理解表現(xiàn)較差,對語句理解一般,全文邏輯關系掌握較差,英語習語的了解水平低,說明該生需要著重訓練語句及全文的聽力理解邏輯關系和英語習語的學習,結合英語聽力能力的不足點,制定個性化學習和施教方案,有針對性地彌補不足;同時從時間維度來看,可以隔一段時間對該學生的水平進行評價,做出評分圖,對比以前的評分圖可以看出該學生的提升幅度和當前的能力水平,適時調(diào)整學習方法和側重點,優(yōu)化調(diào)整施教方案。
四、結束語
“數(shù)據(jù)驅(qū)動社會,分析變革教育”的大數(shù)據(jù)時代已經(jīng)到來,改變和優(yōu)化傳統(tǒng)的教育教學方法是時代所趨,更是學生學習的內(nèi)在所需。教育數(shù)據(jù)資源共享,利用大數(shù)據(jù)分析模型開展教育和教學工作,提高學生英語學習水平,降低學習成本,實現(xiàn)大數(shù)據(jù)分析方法的最大的價值。
參考文獻:
[1]徐鵬.大數(shù)據(jù)視角分析學習變革[J].遠程教育雜志,2013,(6): 11-17.
[2]焦欣然.大數(shù)據(jù)時代下的因材施教[J].觀察視角,2015,(6):72.
Abstract: Construction idea for risk database of processed food was proposed under present food safety, test data of processed food was the object of study in this database. Information sources management and data screening analysis were realized by OLAP analysis tool. Expert judging, considering some factors such as data analysis and result, risk priority number of food hazard, and production process was studied, so as to realize the early warning analysis for risk data of processed food.
關鍵詞: 加工食品;風險數(shù)據(jù)庫;構建
Key words: processed food;risk database;construction
中圖分類號:G250.74 文獻標識碼:A 文章編號:1006-4311(2013)30-0174-02
0 引言
隨著食品加工技術的快速發(fā)展和新食品的開發(fā),農(nóng)藥、獸藥、激素、添加劑、非食品原料帶入的食品安全問題引起的社會的廣泛關注。加強對食品生產(chǎn)加工環(huán)節(jié)的管控是降低食品安全風險的重要舉措。近年來,食品監(jiān)管部門持續(xù)加大風險監(jiān)測的工作力度,組織實施有針對性的風險監(jiān)測計劃,積累了大量的食品風險監(jiān)測數(shù)據(jù)資源,為發(fā)現(xiàn)食品中可能存在的潛在風險源提供有力的數(shù)據(jù)支撐。在此基礎上,構建風險數(shù)據(jù)庫,有效整合加工食品的企業(yè)、產(chǎn)品及監(jiān)測數(shù)據(jù)等信息資源,可實現(xiàn)資源的統(tǒng)籌管理和風險預警分析。
1 加工食品風險數(shù)據(jù)庫組成部分
數(shù)據(jù)庫的加工食品風險數(shù)據(jù)庫的構建主要包括信息管理、預警分析、系統(tǒng)管理三大部分,通過各模塊功能作用有效實現(xiàn)數(shù)據(jù)錄入或?qū)?、查詢統(tǒng)計、數(shù)據(jù)分析及研判功能,滿足日常食品監(jiān)管工作中不同目的的查詢、統(tǒng)計、分析需求。①信息管理部分包括對企業(yè)信息、產(chǎn)品信息、檢測數(shù)據(jù)信息的錄入管理、綜合查詢兩個模塊,這兩個模塊作為操作性部分,實現(xiàn)對企業(yè)信息、產(chǎn)品信息、食品檢測數(shù)據(jù)的錄入、統(tǒng)計和管理。②預警分析部分包括數(shù)據(jù)篩查、統(tǒng)計分析、專家研判3個模塊。這三個模塊作為系統(tǒng)分析處理生成部分。③系統(tǒng)管理部分包括組織機構信息、用戶權限管理等2個模塊。這兩個模塊作為數(shù)據(jù)系統(tǒng)的輔助部分,實現(xiàn)對組織機構和用戶的管理。
2 加工食品數(shù)據(jù)庫設計思路
2.1 信息資源庫的建立 借鑒識別安全風險的整體風險分析方法,考慮與某一加工食品相關的各種因素,針對企業(yè)、產(chǎn)品、檢測數(shù)據(jù)建立三大信息源庫,作為數(shù)據(jù)庫的基礎資源儲備。建立某一區(qū)域食品企業(yè)信息源庫,內(nèi)容包括:企業(yè)名稱、生產(chǎn)許可證號、企業(yè)所在地、生產(chǎn)地址、聯(lián)系方式。建立不同種類產(chǎn)品信息源庫,內(nèi)容包括:QS產(chǎn)品類別、生產(chǎn)工藝及關鍵控制點。建立檢測數(shù)據(jù)源庫,內(nèi)容包括:產(chǎn)品名稱、生產(chǎn)日期、產(chǎn)品包裝/規(guī)格/型號、商標、執(zhí)行標準號、監(jiān)測類型、監(jiān)測時間、檢測項目、檢出值、檢測單位、標準規(guī)定值、檢出限、檢驗結論、檢測標準、判定標準。
2.2 信息資源庫的管理 信息資源庫的管理必須消除源數(shù)據(jù)中的不一致,保證數(shù)據(jù)庫的高度集成性。將數(shù)據(jù)導入數(shù)據(jù)庫前,工作人員需從數(shù)據(jù)整理、對象管理、數(shù)據(jù)關系等方面建立數(shù)據(jù)維護。在將數(shù)據(jù)導入數(shù)據(jù)庫前,需進行源數(shù)據(jù)的抽取、清理和轉(zhuǎn)換,要注意數(shù)據(jù)的規(guī)范化,規(guī)范化數(shù)據(jù)才能進行有效的數(shù)據(jù)挖掘和數(shù)據(jù)分析。
2.3 分析工具 數(shù)據(jù)分析工具用于幫助用戶對源數(shù)據(jù)進行獲取和分析,是數(shù)據(jù)系統(tǒng)的重要組成部分,也是數(shù)據(jù)挖掘的基礎。目前應用于食品數(shù)據(jù)分析的工具包括聯(lián)機分析處理(OLAP)和數(shù)據(jù)挖掘(DM)。運用OLAP技術,可以進行相關數(shù)據(jù)的交互查詢、匯總分析、多維分析,趨勢分析等多項分析功能[1]。DM是從超大型數(shù)據(jù)庫中發(fā)現(xiàn)并提取隱藏在內(nèi)部的信息的一種新技術,可以通過發(fā)現(xiàn)變化趨勢,幫助決策者尋找數(shù)據(jù)間潛在的關聯(lián),開展有針對性的食品風險監(jiān)測,為制定食品安全預警措施提供科學依據(jù)。
3 加工食品數(shù)據(jù)分析及預警系統(tǒng)的建立
3.1 食品危害物標準數(shù)據(jù)庫的建立 食品危害物標準數(shù)據(jù)庫包含食品安全預警關鍵因子,即涉及食品安全的有關檢測項目,本文將預警關鍵因子分為三大類:禁用或禁存類食品危害物、限用或限存類食品危害物、一般類食品危害物。
禁用或禁存類食品危害物,即在食品加工中不允許使用或在檢測中不得檢出的物質(zhì),主要是指非食用物質(zhì)、病源性微生物、禁用的農(nóng)藥殘留與獸藥殘留、生物毒素及化學污染物,一旦檢出,即為不合格食品。
限用或限存類食品危害物,是食品中主要的危害物,即在食品中可以存在的物質(zhì),但是具有最大限量值(MRL)。食品中的含量超過最大限量值(MRL),可能對人體健康造成危害。主要有農(nóng)藥殘留、獸藥殘留、食品添加劑、有害元素、化學污染物等。此類危害物在食品中的含量若不在最大限量值范圍內(nèi),即為不合格食品。
一般類食品危害物,主要指與食品的質(zhì)量品質(zhì)相關的指標,如酸價、過氧化值、氨基酸態(tài)氮等。此類危害物對人體的危害性較小,其在食品中的含量若不在標準規(guī)定范圍內(nèi),即為不合格食品。
3.2 食品安全預警關鍵因子風險系數(shù)R的確立 通過建立模型對某一食品的風險程度進行研判,本文參照文獻[2],修正后建立風險系數(shù)R的計算模型:R=S+a。
①S值的確定:為危害物的敏感因子,可根據(jù)危害物在國內(nèi)外食品安全上關注的敏感度和重要性進行適時的調(diào)整。在本次模型建立中,參照國質(zhì)檢監(jiān)[2010]575號《關于印發(fā)的通知》中關于風險信息分級規(guī)范確定各檢測項目的S值。參照文件規(guī)定的風險信息分級分為一級風險信息、二級風險信息、三級風險信息,并結合文獻資料對敏感因子的分類依據(jù),S(危害物敏感因子)分別設為5(社會敏感度高,或危害特別嚴重,或影響區(qū)域廣泛,或受到境內(nèi)外廣泛關注的,如塑化劑、致病菌及毒素),3(對產(chǎn)品質(zhì)量安全和發(fā)展有一定影響,屬于較為嚴重的違法添加行為,可能嚴重危害公眾健康,如農(nóng)獸藥殘留、非法添加物、化學及金屬污染物),1(屬于常規(guī)性風險項目,或尚未構成對人體的嚴重健康危害,但需引起一定關注,或是已較少使用的物質(zhì),關注度有所下降,如品質(zhì)指標等)。
②a值設定:在本次模型建立工作中,a暫定為0;在數(shù)據(jù)分析運行一定時間后,可依據(jù)年平均問題檢出率情況對風險系數(shù)R進行修正,a為修正值可直接取一定時間內(nèi)該風險項目的平均問題檢出率;若均無問題情況檢出,該危害物的敏感因子以每年1/2遞減。
3.3 數(shù)據(jù)篩查及分析 基于OLAP開展食品安全風險分析[3],首先分析食品監(jiān)測結果涉及因素:產(chǎn)品、企業(yè)、檢測機構、監(jiān)管部門,并形成關系圖,見圖1。采用維度分析方法,以監(jiān)測產(chǎn)品、監(jiān)測時間、監(jiān)測區(qū)域、監(jiān)測企業(yè)、檢測項目為維度進行問題檢出率統(tǒng)計分析,見表1。
3.4 專家研判分析
采用德爾菲法原則,充分發(fā)揮各領域?qū)<业摹爸悄覉F”力量,將其在技術研究、產(chǎn)品研發(fā)、檢測、生產(chǎn)等方面具有的技術和經(jīng)驗優(yōu)勢應用到食品風險研判分析中。專家們在加工食品風險數(shù)據(jù)庫中,綜合考慮產(chǎn)品檢測數(shù)據(jù)分析結果、風險系數(shù)R值、生產(chǎn)工藝等諸多因素,對食品的風險等級進行評價。
4 小結
本文初步提出了加工食品風險數(shù)據(jù)庫的構建思路,并就數(shù)據(jù)庫的組成部分、設計思路、數(shù)據(jù)分析及預警系統(tǒng)三個部分進行闡述。建立加工食品風險數(shù)據(jù)庫系統(tǒng),是一項涉及食品工程、風險分析、數(shù)據(jù)庫信息管理系統(tǒng)、計算機網(wǎng)絡等多專業(yè)領域的綜合性研究課題。目前,該系統(tǒng)的研究還處于不斷完善和發(fā)展階段,未來在數(shù)據(jù)庫的共享、數(shù)據(jù)源的多維綜合預測分析方面還需進行更加深入的研究,以開拓系統(tǒng)的應用領域,從而實現(xiàn)系統(tǒng)的有效推廣。
參考文獻:
[1]許建軍,高勝普.食品安全預警數(shù)據(jù)分析體系構建研究[J].中國食品學報,2011,11(2):169-172.
大數(shù)據(jù)一詞是由英文單詞“Big Data”翻譯而來。大數(shù)據(jù)時代的到來既是信息技術領域的一場持久而深刻的變革,更在全世界范圍內(nèi)開啟了思想的劇變,從而成為引領社會實現(xiàn)新興技術不斷向前發(fā)展與變革的利器,深刻地影響著人們的生產(chǎn)與生活?!爱斀裆鐣呀?jīng)邁入了大數(shù)據(jù)時代,大數(shù)據(jù)已經(jīng)滲透到當今所有的行業(yè)和業(yè)務領域,成為重要的生產(chǎn)因素?!盵1]在這個宏觀背景下,大數(shù)據(jù)的社會價值和科學價值的不斷得到彰顯與利用,給高校的教育與管理也帶來了新的機遇。教育領域的大數(shù)據(jù)運用有其自身的特點,在高校的實現(xiàn)應當側重從學生的學習過程、日常生活的微觀表現(xiàn)進行測量,開展精準的“學生畫像”,有效分析與預測研究對象的學業(yè)完成進度與趨勢,從而為學校教育教學質(zhì)量提升和學生教育管理服務提供保障。
目前,國內(nèi)不少高校通過利用大數(shù)據(jù)技術,深度挖掘在校大學生的行為數(shù)據(jù),但每個學校都因有自身不同的辦學特色和現(xiàn)實情況,如何結合學校信息化校園建設,開展針對在校學生的行為數(shù)據(jù)分析與研究,幫助教學、學工等相關部門提供可視化圖表的方式呈現(xiàn)數(shù)據(jù)分析結果和學業(yè)預警等相關意見,從而為學校教育與管理服務,提供決策建議與意見,具有強烈的現(xiàn)實意義和廣闊的應用前景。
2 一卡通數(shù)據(jù)系統(tǒng)分析云平臺
本文以圍繞學院校園一卡通系統(tǒng)建設,開展智慧校園和智慧管理研究,通過對學生教室考勤、宿舍門禁,校園消費、上網(wǎng)記錄、獎勵資助及購水購電等信息,關聯(lián)學生教務、圖書及其他物聯(lián)網(wǎng)等應用系統(tǒng)后臺數(shù)據(jù)庫,結合系統(tǒng)基礎數(shù)據(jù)庫的表結構特征和關鍵字段,設置相應的邏輯關系和判斷條件,通過校園一卡通大數(shù)據(jù)分析云平臺,從學生學業(yè)警示預警、個性化學習、上網(wǎng)行為、消費行為、獎懲資助和就業(yè)幫扶等六個維度,使用聚類、關系規(guī)則和序列模式挖掘等技術指標與手段,開展深度數(shù)據(jù)分析與數(shù)據(jù)挖掘,形成可視化圖表的方式呈現(xiàn)出數(shù)據(jù)分析的描述結果,給出相關的建議結論或預警意見,供班導師、輔導員、相關職能部門查看與使用,從而為學校教育、管理與服務提供決策支持和智慧服務。[2]
3 學生行為大數(shù)據(jù)分析
3.1 學業(yè)警示預警分析
基于一卡通數(shù)據(jù)系統(tǒng)分析云平臺關聯(lián)學生教務系統(tǒng),系統(tǒng)管理員根據(jù)權限可以實現(xiàn)實時查看學生個人學業(yè)完成及積欠課程的情況,各班導師或輔導員可以統(tǒng)計與分析相關專業(yè)學生的學業(yè)完成度統(tǒng)計數(shù)據(jù),結合學生的課堂考勤、心理測評、圖書借閱、重修課程、上網(wǎng)數(shù)據(jù)等對學生的失聯(lián)、留級及預判延長學制、不能畢業(yè)等情況予以預警。根據(jù)動態(tài)分析數(shù)據(jù),班導師和輔導員可以及時與學生本人、任課教師和學生家長取得聯(lián)系,幫助學生分析和查找問題,指明努力方向。
3.2 個性化學習分析
基于一卡通數(shù)據(jù)系統(tǒng)分析云平臺結合學生選修課程、個人興趣與綜合評估,分析學生個人現(xiàn)狀及特點,通過大數(shù)據(jù)分析,給予相關培養(yǎng)建議,從而圍繞校園數(shù)據(jù)資源,指導學校相關職能部門定期向?qū)W生推送個性化的網(wǎng)絡教學資源、網(wǎng)絡書籍與紙質(zhì)圖書資源、兼職與就業(yè)招聘信息等,提高課外閱讀量和專業(yè)學習水平,從而實現(xiàn)個性化教學指導與幫助。
3.3 上網(wǎng)行為分析
基于一卡通數(shù)據(jù)系統(tǒng)分析云平臺對學生的上網(wǎng)行為統(tǒng)計分析,通過對學生上網(wǎng)時間、上網(wǎng)地點、上網(wǎng)時長、上網(wǎng)內(nèi)容、流量下載等數(shù)據(jù)建模,挖掘與分析學生上網(wǎng)行為習慣。通過統(tǒng)計分析日均上網(wǎng)或游戲時長較長的學生情況,結合學生學業(yè)完成度等,定期開展預警警示工作,班導師和各學院學團也可以有針對性的開展學風檢查、建設與整頓工作,從而更好地培育優(yōu)良的校風、班風與學風。
3.4 消費行為分析
基于一卡通數(shù)據(jù)系統(tǒng)分析云平臺對校園的消費數(shù)據(jù)進行分析,發(fā)現(xiàn)和診斷群體消費的偏好以及潛在的問題,有效分析與預測未來消費新趨勢,加強后勤服務場所的管理與引導。學??梢葬槍ω毨炔煌矸萏卣魅巳洪_展分類型的數(shù)據(jù)分析,通過消費數(shù)據(jù)的挖掘,在貧困生認定和精準幫扶等方面提供可靠的數(shù)據(jù)支持,從而有效地為學工、教務后勤等部門的管理與服務提供信息數(shù)據(jù)支持。
3.5 獎懲資助行為分析
基于一卡通數(shù)據(jù)系統(tǒng)分析云平臺對學生在校期間的獎懲資助行為分析,完善學生獎懲助困的動態(tài)分析與監(jiān)控。通過及時完善相關信息,便于后期的數(shù)據(jù)統(tǒng)計及篩查工作,同時有利于完善貧困生的資助體系,開展貧困生精準幫扶工作,引導與管理好校園義工和勤工儉學崗位。通過全面梳理學生獎勵及資助數(shù)據(jù),能有效加強對受處分學生的動態(tài)的監(jiān)控,及時受理學生處分的撤銷與評議,提高受處分學生主動承擔社區(qū)及義工服務的意識。
3.6 就業(yè)行為分析
基于一卡通數(shù)據(jù)系統(tǒng)分析云平臺對全?;蛘卟糠謱I(yè)提供市場就業(yè)細分,結合學生生源地區(qū)、專業(yè)特長、性格特征、個人愛好、學業(yè)完成度、能力模型及求職意向,設計就業(yè)工作模型,匹配相關用人單位及招聘信息,通過大數(shù)據(jù)實施雙向精準推薦,從而更好地服務學生和用人單位。針對就業(yè)市場的大數(shù)據(jù)分析和結論,還可以為學?,F(xiàn)有專業(yè)建設及人才培養(yǎng)方案的重構,提供數(shù)據(jù)支撐,從而進一步服務教學與管理工作。
4 數(shù)據(jù)分析結果評價
基于一卡通數(shù)據(jù)系統(tǒng)分析云平臺的運用,針對應用系統(tǒng)后臺數(shù)據(jù)庫開展數(shù)據(jù)分析,通過大數(shù)據(jù)挖掘方法,開展系統(tǒng)總體構建設計,利用從原數(shù)據(jù)層到數(shù)據(jù)處理層,再到數(shù)據(jù)庫倉層,最終到終端用戶層的框架模型,維度分析因果和映射關系,輔助以靈活可視化的查詢界面、圖形與圖表等形式,呈現(xiàn)出研究對象的學習、上網(wǎng)、消費、獎懲、資助、閱讀、就業(yè)等日常行為特征,分析其行為特征與學校智慧化校園管理與監(jiān)督之間的關系,為學校的教育、教學與管理工作提供決策建議和意見。
4.1 有助于學校精細化管理
通過平臺,理清管理職責與權限,加強工作的細化與內(nèi)化,逐步實現(xiàn)學生的精準化管理,既提高了工作的效率,又提升了工作的水平。通過信息系統(tǒng),改變原有相對粗放的管理模式,量化分析學生的學習行為和日常表現(xiàn),洞察學習規(guī)律,促進管理工作橫向到底、縱向到邊。[3]
4.2 有助于學校精準化服務
通過平臺,運用數(shù)據(jù)監(jiān)測,分析與定位重點幫扶的班級及學生,積極關注情況特別學生群體,幫助學業(yè)預警、心理異常、經(jīng)濟特困、就業(yè)困難、違紀處分等類型的學生分析困難與問題,找到走出困境的途徑與方法,從而將幫扶工作做到精準到位,幫助每個學生充分發(fā)展。
4.3 有助于學校精心化育人
通過平臺,透視教育數(shù)據(jù),優(yōu)化管理與評價機制,建立全方位育人體系,為學校及學生個性化教育和教學干預行為進行準確預測與服務,加強部門間的聯(lián)動與溝通,從而推進學校決策的系統(tǒng)化與科學化,打造全員、全過程的育人格局,打造精心育人工程。
Excel單元是信息處理的重要組成部分,內(nèi)容具有一定的衍生性,在信息科技課程體系中有著承前啟后的作用。筆者以Excel單元學習為例,從概念的深度理解、學科思維的培養(yǎng)、知識的遷移應用三個方面展開教學實踐研究。
概念深度理解:從技術操作到技術原理
“知道不等于理解”“會操作不等于理解”,學生雖然依靠模仿和訓練掌握了Excel的操作技能,但由于對概念沒有深度理解,往往在后期遷移和應用時束手無措。Excel單元中的重要概念,教師可以結合生活情境,調(diào)動、激活學生的已有知識經(jīng)驗,使他們對學習內(nèi)容加以解釋,重新建構知識的意義,促進知識從“表層符號學習”進入“知識內(nèi)在的邏輯形式”,使學生以融會貫通的方式對學習內(nèi)容進行組織,建構他們的知識結構。
例1:在《數(shù)據(jù)的分類匯總》教學中往往存在這樣的現(xiàn)象:學生進行分類匯總時經(jīng)常忘記或者不能準確對“分類字段”進行排序分類,著重于技術操作,卻無法根據(jù)實際需求運用技術解決問題??梢妼W生對“分類匯總”這個概念的技術原理和實際應用意義并沒有理解,僅是模仿和套用教師的操作,并通過大量的操作訓練實現(xiàn)知識與技能的學習。
【分析】Excel中分類匯總的概念比較抽象,如何深入理解“分類”“匯總”的概念,并將它們聯(lián)系起來尤為重要。從技術思想方面,“分類匯總”分為兩步,第一步是利用數(shù)據(jù)排序功能進行數(shù)據(jù)分類,使數(shù)據(jù)條理化和明確化。第二步是利用Excel數(shù)據(jù)處理中的函數(shù)功能,完成數(shù)據(jù)匯總?!胺诸悈R總”概念的深度學習可以結合生活中的事例,通過情境類比和多元化學習的方法幫助學生理解技術操作背后的技術原理。
【實踐】教學設計――《數(shù)據(jù)的分類匯總》。
1.創(chuàng)設生活化情境,將抽象的概念形象化
問題情境是啟學引思、導學引教的有效載體。筆者結合生活中的情境,在導入環(huán)節(jié)中向?qū)W生展示某快遞公司某天即將發(fā)往松江各地區(qū)的快遞,并告知此快遞公司共有松江新城、松江老城、松江九亭、松江佘山、松江泗涇五個網(wǎng)點(如下頁圖1),以問題為引導促進學生對概念的深度理解。
師:面對堆積如山的快遞物品,工作人員要做什么?
生:分類。
師:分類完成后,快遞公司需要做統(tǒng)計,明確發(fā)往各區(qū)域的快遞物品的數(shù)目是多少,這時候要怎么辦?
生:求和(求和是匯總的方式之一)。
上述情境創(chuàng)設和設計問題看似簡單,卻激發(fā)了學生的生活經(jīng)驗和思考,實現(xiàn)了對“分類匯總”中“分類”和“匯總”的真實理解。
2.運用技術開展多元化學習,實現(xiàn)可持續(xù)性理解
在《數(shù)據(jù)的分類匯總》一課教學中,筆者采用了微視頻技術,以便學生能有選擇地學習,進而促進他們個性化的互助學習。整節(jié)課的教學流程如下:
環(huán)節(jié)一:教師通過上述情境類比的方式講解分類匯總的定義和方法,利用Excel分類匯總的方式求出各地區(qū)快遞物品的數(shù)量是多少。
環(huán)節(jié)二:自主學習。學生利用微視頻進行自主學習。
環(huán)節(jié)三:互助。由于每位學生的信息技術基礎和操作熟練度不一樣,導致他們的完成時間不同,這時候可以讓優(yōu)生當小老師,學困生在同伴的幫助下及時跟上學習進度。
環(huán)節(jié)四:整體反饋。反饋共性問題,師生共同總結鞏固新知識。
學生通過自學、互助、交流等進行深度學習,教師也有了更多的時間關注每位學生的動態(tài),及時發(fā)現(xiàn)并解決問題,幫助他們深入理解“分類字段”“匯總方式”“匯總項”等概念。
挖掘思維深度,培養(yǎng)學科思想
知識、能力與思想方法是學科學習的三大要素。學科知識是魚,學科思想是漁,真正對學生以后的學習、生活和工作長期起作用并使其終身受益的是學科思想。Excel單元的深度學習是要把握學科知識的本質(zhì)聯(lián)系,特別是注重學科思想的培養(yǎng),幫助學生形成解決相似問題的思維方法。
例2:在《Excel數(shù)據(jù)計算》的教學中,教師經(jīng)常會遇到這樣的問題:使用單元格地址進行公式編輯,卻總有學生直接使用數(shù)值計算,混淆了不同情況下填充柄的使用功能。尤其是在學業(yè)考試數(shù)據(jù)計算量不大的情況下,只要結果正確,這個問題往往就被忽略了。
【分析】在Excel數(shù)據(jù)計算中,學生要掌握填充柄和相對引用的技術方法,其中“引用”“相對地址”的概念屬于新知識,對學生而言難度較大。其實“引用”這種高效解決問題的思想在初中信息科技課程不同的章節(jié)中屢見不鮮,但是學生卻總是會出錯。究其原因,主要是學生對其沒有真正地理解,因此必須對這類問題進行深度挖掘、透徹分析。
【實踐】教學設計――《Excel數(shù)據(jù)計算》。
1.以學科思想為主線,揭示技術規(guī)律
“引用”不是對對象本身的操作,而是對存儲對象的引用。學生理解和類比幾種“引用”思想的運用,深度挖掘“引用”的技術思維,能夠培養(yǎng)學科思想,實現(xiàn)信息的高效管理。以下筆者將結合具體教學內(nèi)容進行闡述。
(1)“引用”思想在信息搜索方面的表現(xiàn):優(yōu)化存儲,提高閱讀效率。在《信息搜索》的教學設計中,教師提出相關問題,請學生觀察搜索引擎中的搜索結果。學生通過觀察和討論發(fā)現(xiàn)搜索結果的呈現(xiàn)方式是相關的地址鏈接,并沒有加載具體的內(nèi)容,通過引用“超鏈接”這種常見的技術呈現(xiàn)出來,目的是快速提供多樣化的內(nèi)容供搜索者進一步篩選。
(2)“引用”思想在信息管理方面的表現(xiàn):使用簡單,提高打開效率。計算機中不僅可以存儲具體內(nèi)容,還可以存儲內(nèi)容存放的地址。在《文件與文件夾的管理》教學中,筆者設計了討論“‘快捷方式’高效管理程序的意義”的活動,加深了學生對快捷圖標也即“引用”思想體現(xiàn)的認識。
(3)“引用”思想在單元格地址引用中的表現(xiàn):靈活智能,提高了使用效率。在《Excel數(shù)據(jù)計算》教學中,學生通過遷移和類比的方法,可以很好地理解“相對引用”的思想和意義,即單元格地址引用實際上是引用了單元格內(nèi)容?!耙谩狈椒ㄊ歉咝Ы鉀Q問題的思維方式,是學科思想的一種體現(xiàn)。
2.設置技術過渡區(qū),深度理解學科思想
為了更好地理解“引用”思想在Excel單元的應用,在《家庭用水情況數(shù)據(jù)統(tǒng)計》教學中(上海市居民用水每立方米自來水價格為1.63元,排水費為1.30元,水費=自來水費+排水費×90%),筆者做了如下教學設計。
活動一:在C3單元格中輸入公式,計算該用戶本月家庭用水情況(B列表示本月用水量)。
在計算過程中,筆者發(fā)現(xiàn)有兩種不同的計算方法,有的學生輸入的是數(shù)值,有的學生輸入了引用單元格地址,如下所示:
①在C3單元格中輸入公式:=1.63*18+1.30*18*0.9(B3中的值為18)。
②在C3單元格中輸入公式:=1.63*B3+1.30*B3*0.9。
師:因B3單元格中的數(shù)據(jù)錄入有誤,現(xiàn)在重新輸入數(shù)據(jù),觀察并討論上述兩種方法C3單元格中的數(shù)據(jù)有哪些變化?為什么?
生:第一種方法C3單元格不變,第二種方法C3單元格跟隨B3單元格值的變化而變化。
師:當在公式中引用某單元格數(shù)據(jù)時,你認為應該引用數(shù)值還是引用單元格的地址?為什么?
生:引用單元格地址,便于數(shù)據(jù)的后續(xù)管理。
活動二:設置技術過渡環(huán)節(jié),使用相對引用的方法,計算出數(shù)據(jù)表內(nèi)C3單元格后兩個用戶的水費。
在C4單元格中輸入公式:=1.63*B4+1.30*B4*0.9。
在C5單元格中輸入公式:=1.63*B5+1.30*B5*0.9。
設計意圖:鞏固地址和引用的概念,并讓學生意識到重復輸入公式很低效、繁瑣,思考是否有更加便捷的方法,為后面“填充柄”和“相對地址”學習做鋪墊。
活動三:以上三個用戶水費計算公式有什么不同?變化的區(qū)域有什么規(guī)律?能否推斷出Cn單元格中的公式是什么?
推測得出Cn單元格中的公式:=1.63*Cn+1.30*Cn*0.9。
設計意圖:借助層次遞進的問題,引導學生從現(xiàn)象入手探究規(guī)律。
活動四:學習新技術――填充柄。
學生通過上述實驗推測的方法,在了解技術原理的基礎上學習使用填充柄,鞏固了用“引用”來高效解決問題的學科思想,將學習從淺表的知識學習和技巧訓練提升到深層思想方法的學習。
從理解到實踐:實現(xiàn)知識的遷移應用
葉圣陶先生曾說過,“教是為了不教”。這句話既道出了教學的目的,又道出了學生掌握知識和方法后,應能遷移和應用原有知識,用以分析問題和解決問題。Excel單元深度學習的一個重要特點就是實現(xiàn)數(shù)據(jù)統(tǒng)計知識與技能的靈活應用。
例3:在初中信息科技課堂上,學生跟隨教師的講解,不斷地演練著Excel中數(shù)據(jù)統(tǒng)計等基本操作。教師講學生練,經(jīng)歷了大量的訓練,但學生卻不知道計算這些數(shù)據(jù)有什么實際作用,無法很好地讀數(shù)據(jù)、找不到規(guī)律或無法發(fā)現(xiàn)有用信息的現(xiàn)象層出不窮。任務中缺乏問題產(chǎn)生的土壤,容易導致學生的知識只是在某種情境下應用,而不能學以致用。
【分析】例3呈現(xiàn)的是初中信息科技課程教學現(xiàn)場經(jīng)常出現(xiàn)的現(xiàn)象。機械技能僵化訓練看似方便學生操作,但課堂變得機械、枯燥、乏味,學生不知道為什么學,簡單的技能訓練并沒有提升學生綜合應用技術的能力。信息科技學習的本質(zhì)是如何利用它分析和解決問題,為了把理論教學與實踐活動有機地結合起來,項目活動成為達成信息科技課程目標的有效途徑。
1.挖掘數(shù)據(jù)規(guī)律,深度理解技術意義
【實踐】教學設計――《慧眼讀數(shù)據(jù)――數(shù)據(jù)分析》。
在大數(shù)據(jù)時代,對數(shù)據(jù)進行統(tǒng)計和深入分析,發(fā)現(xiàn)其背后蘊含的規(guī)律,并加以開發(fā)利用是一項非常有價值的工作,這也是學習Excel的意義所在。數(shù)據(jù)統(tǒng)計是一種技術,也是解決問題的方法。理解數(shù)據(jù)統(tǒng)計的意義,是學生實現(xiàn)深度學習的動力之一。為提升學生“讀”數(shù)據(jù)的意識和能力,總結分析方法,并對實際生活產(chǎn)生指導作用,筆者本節(jié)課的教學設計如下:
環(huán)節(jié)一:故事激趣,概念導入。引入“數(shù)據(jù)挖掘技術在沃爾瑪?shù)倪\用”的趣味故事,學生在故事中體會數(shù)據(jù)分析是有用的,激發(fā)學習興趣。
環(huán)節(jié)二:數(shù)據(jù)分析。學生觀看視頻《足球場上的神秘紙條》,思考數(shù)據(jù)分析的意義。說一說,數(shù)據(jù)分析在家庭生活中的應用。
環(huán)節(jié)三:熱身活動。筆者出示某旅游景點歷年接待游客的情況:2010年迎接游客約100萬人次,2011年迎接游客約200萬人次,2012年迎接游客約300萬人次,2013年迎接游客約350萬人次,2014年迎接游客約380萬人次,2015年迎接游客約400萬人次。
師:請同學們預測一下2016年的游覽人數(shù)是多少?得到的數(shù)據(jù)對人們有什么幫助?
生:可能是410萬人。經(jīng)過數(shù)據(jù)分析,作為游客,可以判斷景區(qū)的游覽舒適度;作為景區(qū)的工作人員,可以做好迎接游客的準備。
以問題為引導培養(yǎng)學生“讀”數(shù)據(jù)的能力,體會數(shù)據(jù)分析的過程,嘗試總結數(shù)據(jù)分析的方法(如圖2):
①整理數(shù)據(jù)――從各種數(shù)據(jù)源中選取和集成用于數(shù)據(jù)分析的數(shù)據(jù);
②分析數(shù)據(jù)――用某種技術方法將數(shù)據(jù)中的規(guī)律找出來;
③推測結論――分析原因,給出建議或推測。
環(huán)節(jié)四:任務驅(qū)動,步步為營。筆者提供網(wǎng)購書籍的真實情境,根據(jù)各大電商的銷售數(shù)據(jù)選購本月熱門圖書,并整理和分析歷年的書籍銷售數(shù)據(jù),用數(shù)據(jù)說話,結合物流等綜合因素,驗證“雙十一”購買書籍是否劃算。
教學以數(shù)據(jù)分析為切入點,學生鞏固了電子表格中數(shù)據(jù)統(tǒng)計的方法,學習從熟練操作技能逐漸轉(zhuǎn)向?qū)?shù)據(jù)的整理和分析,理解技術的意義。
2.開展項目活動,提升綜合應用能力
【實踐】項目活動――霧霾知多少。
美國國家研究理事會(NRC)研究概括出深度學習的本質(zhì),即個體能夠?qū)⑵湓谝粋€情境中所學的知識運用于新情境的過程。為了讓學生能夠靈活運用知識,加強他們在實際生活中解決問題的能力,筆者在教學實踐中,設計并開展了主題為“霧霾知多少”的項目活動。
“霧霾”與學生生活息息相關,圍繞主題,學生通過自主探究、互相交流、選擇問題、解決問題等途徑展開深度學習。
在項目活動的初始階段,學生通過網(wǎng)絡搜索了解了霧霾的基本定義、危害物及主要成分、起因、危害物種類的等級等,形成對霧霾的基本認識。
為了更清晰地了解霧霾到底對我們生活有多大影響,還需要用數(shù)據(jù)來說話,這就需要學生遷移已有的數(shù)據(jù)統(tǒng)計知識和技能,運用數(shù)據(jù)計算、多角度分析數(shù)據(jù)表、制作圖表的方法,對數(shù)據(jù)進行分析,取得想要的結果并展開交流,總結活動經(jīng)驗,提出切實可行的對策。
關鍵詞:大數(shù)據(jù);科技情報工作;挑戰(zhàn);對策建議
中圖分類號: G250.2 文獻標識碼: A DOI: 10.11968/tsyqb.1003-6938.2015123
Challenges and Rethinking of S&T Information Service in Big Data Era
Abstract Data processing improvement is one of the main driven forces of S&T information service innovation. It becomes more and more difficult for S&T information institutes to face the challenges of scattered data resources, deepened and widened users' demands, and the complexity of big data analysis technologies. Meanwhile, these challenges make it possible for the innovation and sharp turn to new information service models. This paper analyzed the technical environment of big data, deconstructed the main challenges of intelligence work, and gave several suggestions as countermeasures.
Key words big data; S&T information service; challenges; suggestions
科技情報服務領域普遍將當前面臨的海量數(shù)據(jù)處理和服務能力的矛盾,視為泛在信息環(huán)境所涌現(xiàn)出的、特有的“大數(shù)據(jù)”問題,并產(chǎn)生了隱隱的“大數(shù)據(jù)憂慮”。隨著國家大數(shù)據(jù)戰(zhàn)略的提出,各界對數(shù)據(jù)問題的關注和對數(shù)據(jù)服務的需求激增,學術界和科技情報服務實踐中對“大數(shù)據(jù)”應用也呈現(xiàn)出多樣化的解讀,比如王飛躍提出的“基于ACP方法的開源情報解析理論框架”和“四熵服務”理念[1],李廣建等提出的情報研究五個轉(zhuǎn)變[2],賀德方、喬曉東、曾建勛等提出的“事實型數(shù)據(jù)+專用工具+專家智慧”的FAST4Wisdom服務理念[3-4]和情報學四維度拓展變革[5],以及楊善林等提出的情報內(nèi)涵轉(zhuǎn)變[6]等。因此,消解科技情報機構的大數(shù)據(jù)憂慮,洞察科技情報大數(shù)據(jù)發(fā)展特征與發(fā)展趨勢,是當前科技情報實踐領域的當務之急。
1 科技數(shù)據(jù)挑戰(zhàn)與科技情報服務的發(fā)展
科技情報服務領域大數(shù)據(jù)問題,實質(zhì)是全球數(shù)據(jù)自發(fā)式、爆發(fā)式增長以及數(shù)據(jù)處理高效率要求的不對稱體現(xiàn)[7]。而科技情報工作很早就關注到知識增長趨勢及其在管理和服務領域帶來的信息爆炸與信息過載問題[8]??萍记閳蠊ぷ鲝恼Q生之初起就一直面臨數(shù)據(jù)或信息資源的加工處理和分析利用的挑戰(zhàn),并在不同發(fā)展階段呈現(xiàn)出不同的問題表征。在某種意義上,科技情報機構就是為解決“大數(shù)據(jù)”問題而誕生的專門機構,而數(shù)據(jù)挑戰(zhàn)也成為科技情報服務創(chuàng)新的內(nèi)在動力。
1.1 科技情報初創(chuàng)時期的數(shù)據(jù)挑戰(zhàn)與服務創(chuàng)新
1944年,美國圖書館學家F.Rider關注到圖書館館藏大約每16年增長1倍,并以此估計耶魯大學圖書館將在2040年擁有超過2億冊圖書,大約2PB的信息存儲,而這些圖書將占據(jù)6000英里長的書架,至少需要6000名圖書館員完成編目和維護工作[9]。以當時的數(shù)據(jù)處理條件而言,2億冊圖書的存儲空間和集中管理維護就是可能的“大數(shù)據(jù)”問題。與之類似,戰(zhàn)后美國政府收繳的40噸德國和日本技術資料的處理,也超出了當時的文獻處理能力。科技情報界提出了“信息爆炸”的理念,并主張信息分析和處理工作的專門化和體系化,也視之為科技情報工作的開端。依托業(yè)務部門進行體系化的樹狀業(yè)務分解和專門信息的保存、交流和利用,構建跨部門協(xié)作保障體系,極大紓解了信息總量增長困難,并通過在1950年代引入縮微技術和數(shù)字存儲技術進一步緩解了信息存儲空間問題。
1.2 數(shù)字資源建設時期的數(shù)據(jù)挑戰(zhàn)與服務創(chuàng)新
20世紀60年代數(shù)據(jù)存儲技術的引入有效緩解了數(shù)據(jù)存儲和數(shù)據(jù)集中管理問題,但對原始數(shù)據(jù)的加工處理和分析技術短板卻再次成為“大數(shù)據(jù)”問題。例如20世紀50年代美國國家安全局雇傭了超過12000名安全技術人員來處理每年偵聽或加密的17000卷磁帶[10];1965年,美國國家數(shù)據(jù)中心的600個數(shù)據(jù)集存儲了1億張打孔卡片和3萬份存儲磁帶,但對其擁有的1.75億枚指紋記錄、每年7.42億份納稅記錄的分析束手無策[11]。因此,1965年Dunn報告認為,“面臨的最大問題就是不知如何發(fā)現(xiàn)不同機構、不同數(shù)據(jù)之間的內(nèi)在關聯(lián)”[11],即數(shù)據(jù)分析的“大數(shù)據(jù)問題”。Kaysen委員會提出的集中存儲和數(shù)據(jù)共享方案,推動數(shù)據(jù)庫技術、信息檢索技術和數(shù)據(jù)科學的產(chǎn)生。這一時期,科技情報服務機構也引入了數(shù)字存儲和數(shù)據(jù)庫管理體系,并引入了信息檢索技術,比如1966年《化學文摘(CA)》引入的自動處理系統(tǒng)和計算機可讀數(shù)據(jù)庫、1967年Roger Summit 主持開發(fā)的Dialog在線數(shù)據(jù)訪問??萍记閳箢I域產(chǎn)生了以數(shù)據(jù)加工和信息系統(tǒng)管理為特征的海量科技情報服務,出現(xiàn)了從文獻保障服務向以數(shù)據(jù)庫、信息檢索為代表的技術服務的融合,提升了科技情報處理的數(shù)據(jù)數(shù)量和處理速度。
1.3 數(shù)據(jù)分析和處理時期的數(shù)據(jù)挑戰(zhàn)與服務創(chuàng)新
20世紀80年代數(shù)據(jù)庫技術日益成熟,以數(shù)據(jù)挖掘和高階數(shù)據(jù)分析為代表的數(shù)據(jù)分析和處理技術得到廣泛應用,數(shù)據(jù)分析進入智能化階段。但這一時期的數(shù)據(jù)分析主要局限于封閉計算環(huán)境的中央數(shù)據(jù)存儲、局限于結構化數(shù)據(jù)的分析和處理。因而,在20世紀80年代面臨的新的“大數(shù)據(jù)”問題是海量外部數(shù)據(jù)的采集、加工和分析,以及如何降低數(shù)據(jù)分析成本和重復建設的“數(shù)據(jù)黑洞”,因而以競爭情報、趨勢跟蹤等定向或定題的專項信息分析為代表的創(chuàng)新服務得以引入。科技情報服務機構完成了從信息數(shù)據(jù)產(chǎn)品向情報產(chǎn)品的升級,具備了情報監(jiān)測和智能分析功能,光盤數(shù)據(jù)庫和應用軟件產(chǎn)品得到推廣,使得信息分析和預測水平有了大幅提升,比如1987年發(fā)行的Medline光盤產(chǎn)品、1988年的科技信息網(wǎng)絡STN Express■軟件以及90年代初期的大量面向個人計算機的數(shù)據(jù)應用軟件。
1.4 開放網(wǎng)絡和自動加工處理時期的數(shù)據(jù)挑戰(zhàn)與服務創(chuàng)新
20世紀90年代以來網(wǎng)絡技術、個人數(shù)據(jù)終端普遍采納,數(shù)據(jù)存儲成本快速下降,科技信息資源的分布發(fā)生了巨大變化。首先,以互聯(lián)網(wǎng)企業(yè)和技術服務企業(yè)為代表的新生業(yè)態(tài)迅速崛起,以圖書檔案和科技情報機構為中心的科技信息服務體系受到挑戰(zhàn)或顛覆;其次,數(shù)據(jù)可得性大大增加,數(shù)據(jù)規(guī)模和數(shù)據(jù)多樣性大大增加,以搜索引擎為代表的數(shù)據(jù)自動抓取、分析和推送技術極大增強了數(shù)據(jù)分析和處理能力,數(shù)據(jù)挖掘和機器學習技術得到廣泛推廣應用;再次,信息服務提供商更加積極地關注用戶個性需求和反饋,對用戶交互、行為數(shù)據(jù)和個性化推薦更加關注。這一時期,“總量巨大(Volume)”、“類型多樣(Variety)”的兩個“V”的問題已經(jīng)凸顯,“大數(shù)據(jù)”問題初現(xiàn)端倪。相對于互聯(lián)網(wǎng)企業(yè)而言,傳統(tǒng)科技情報服務機構逐步通過兼并聯(lián)合、擴展數(shù)據(jù)來源,提升數(shù)據(jù)應用能力予以應對。這一時期,面向網(wǎng)絡的數(shù)據(jù)開放服務、數(shù)據(jù)集成與融合技術、數(shù)據(jù)應用分析工具與“數(shù)據(jù)+應用”的深度服務模式快速發(fā)展。比如SciFinder、SciVal、Scopus等數(shù)據(jù)分析工具的開發(fā)和 WorldCat全球協(xié)作機制和協(xié)同服務模式的發(fā)展。
2 大數(shù)據(jù)時代科技情報工作面臨的主要挑戰(zhàn)
大數(shù)據(jù)的4V特征,即超大規(guī)模和快速增長的數(shù)據(jù)體量(Volume)、異構和多樣性的數(shù)據(jù)結構(Variety)、大量不相關信息的低價值密度(Value)和大量實時分析應用工具的使用(Velocity),是數(shù)據(jù)分析和利用的主要障礙,在科技情報領域也同樣如此。此外,從整個社會和用戶需求角度看,科技情報機構的資源角色和地位進一步弱化,用戶需求向更深更廣信息分析領域拓展,情報服務與創(chuàng)新服務的融合以及資源-服務的一體化對科技情報機構的服務能力也提出了更高挑戰(zhàn)。
2.1 科技情報服務機構的資源優(yōu)勢弱化
在數(shù)據(jù)開放趨勢下,可得可用的信息資源更加豐富,科技情報服務機構資源獨占優(yōu)勢不復存在。以往科技情報服務過于依賴其資源優(yōu)勢,而對信息加工、信息分析的優(yōu)勢沒用充分重視,存在短期的“轉(zhuǎn)型瓶頸”。而政府數(shù)據(jù)公開、研究機構數(shù)據(jù)公開獲取以及數(shù)據(jù)集市商務模式(GitHub)的出現(xiàn),加劇了科技情報機構作為數(shù)據(jù)樞紐角色的弱化。以政府數(shù)據(jù)公開為例,美國政府目前可提供192440個數(shù)據(jù)集[12],英國政府可提供1353個部門和機構開放的20688個數(shù)據(jù)集、386個APP應用[13]。數(shù)據(jù)開放可得,意味著業(yè)務機構可直接跳過科技情報服務中介而直接存取和利用信息,對科技情報機構的資源業(yè)務服務帶來了挑戰(zhàn)。如美國NTIS提供的科技報告服務,因政府部門科技報告的免費公開,在1999年以后連續(xù)多年虧損。因而,單純提供內(nèi)容獲取或計量的服務模式并不能完全支持業(yè)務決策的需要。
2.2 科技情報服務的用戶需求轉(zhuǎn)變
大數(shù)據(jù)環(huán)境下,用戶不再滿足于信息資源的整序獲取,不再滿足于以文獻單元為主要特征的加工整理和存取分析,而是對信息分析深度和廣度提出了更高要求:在深度上突出碎片化信息加工和計算化服務[14-15],包括數(shù)據(jù)資源快速評價推薦、知識單元的抽取和分析、多維數(shù)據(jù)融合、細粒度數(shù)據(jù)分析以及可視化、計算化的數(shù)據(jù)呈現(xiàn)與分析,力爭將大數(shù)據(jù)去冗分類、去粗存精、去偽存真;在廣度上以全局性和宏觀戰(zhàn)略性情報服務為特征[16],包括動態(tài)監(jiān)測服務、態(tài)勢分析研究服務和前瞻預測研究服務三種類型,需要對多源數(shù)據(jù)、異構數(shù)據(jù)、隨機動態(tài)數(shù)據(jù)進行收割、融合、跟蹤和監(jiān)控。同時,用戶數(shù)據(jù)或信息資源利用也不同于以往數(shù)據(jù)閱讀、數(shù)據(jù)參考和數(shù)據(jù)統(tǒng)計等淺層利用,而是在決策分析和學術研究中尋求高階數(shù)據(jù)分析、尋求多維數(shù)據(jù)的降維理解、尋求專家智慧的介入矯正、尋求從數(shù)據(jù)分析向情報解析的升級。因此,科技情報服務不可避免地將由傳統(tǒng)的依托資源數(shù)據(jù)的數(shù)據(jù)分析服務向多源多方協(xié)作的情報解析和計算分析服務轉(zhuǎn)變,是對現(xiàn)有科技情報機構的分析技術能力的挑戰(zhàn)。
2.3 資源服務一體化下的服務能力不足
科技情報機構過去一直強調(diào)資源保障能力,服務協(xié)作能力并未上升到戰(zhàn)略地位。當大數(shù)據(jù)開放環(huán)境使資源獲取相對容易時,反而發(fā)現(xiàn)“要讀的太多,要挖掘、發(fā)現(xiàn)和分析的隱織的內(nèi)容太多太復雜,要掌握的方法、技術與工具太多太復雜,有效分析和利用信息成為一個日益復雜、負擔沉重的問題”[17]。對科技情報機構而言,提出了兩個要求:第一,要求全面介入,無處不在,并注重分析方法和分析技術的全面協(xié)助;第二,要求在科技情報服務流程中更早更深地介入用戶服務,提供更加精細化的服務內(nèi)容,并提供更好的內(nèi)容質(zhì)量控制水平。
相比于傳統(tǒng)的委托服務模式,新的科技情報服務團隊將由行業(yè)專家、數(shù)據(jù)分析員、情報分析員 3 個角色構成[18],并在選題階段更早介入服務流程,同時融合數(shù)據(jù)服務、信息服務和知識服務,提供資源與服務一體化的服務體系(見圖1)。依托大數(shù)據(jù)的科技情報服務要求與創(chuàng)新主體高度融合,以用戶解決問題為中心,融入解決問題的過程,支持對問題解決方案的探索、構建和測試等服務機制[19],從選題確立到任務分解、任務實施、數(shù)據(jù)解析,均需雙方和行業(yè)專家頻繁交互與協(xié)作,以應對分析需求的易變性和不可預見性[20-21]。在服務過程中,大數(shù)據(jù)分析和可視化技術提升了用戶對數(shù)據(jù)的認知和理解,也可能將“情報服務”提升到知識協(xié)作、協(xié)同創(chuàng)新的高度,這也意味著科技情報服務人員的能力要求更高,可能需身兼行業(yè)專家、數(shù)據(jù)分析員、情報分析員中的多種角色。
3 大數(shù)據(jù)時代科技情報工作的資源保障體系建設
資源保障是信息服務的基礎,建立全面、高質(zhì)、開放的可得資源體系仍是科技情報工作的首要任務。
3.1 建立信息資源保障的大數(shù)據(jù)理念
大數(shù)據(jù)環(huán)境下,信息資源保障的內(nèi)涵有所不同:第一,信息資源利用形式更開放快捷,大量信息資源來不及建立知識產(chǎn)權屏障就已過時,使得信息資源的價值實現(xiàn)更依賴資源利用和分析的溢出效應,而非知識產(chǎn)權變現(xiàn);第二,信息資源的邊界越來越模糊,以往受限于機構邊界和知識產(chǎn)權保護而構建的信息資源保障“優(yōu)選精選”理念,正面臨低廉存儲、海量來源的資源體系沖擊;第三,信息資源的表現(xiàn)形式更多樣,質(zhì)量參差不齊,直接利用困難,資源保障體系的重心逐漸由收藏保障向利用保障轉(zhuǎn)移;第四,隨著獨有信息資源優(yōu)勢的弱化,信息資源保障的開放性和協(xié)作利用將更為突出。
3.2 擴展多元數(shù)據(jù)來源和新型數(shù)據(jù)存儲
科技信息機構應擴展資源的廣度,關注片段信息或社會網(wǎng)絡數(shù)據(jù)等低價值密度信息資源或新型信息資源的采集和保存[2]。在具體的采集和開發(fā)過程中,有兩種典型做法:一種主張搶救性保存,因擔心數(shù)字信息資源的易逝性,如不加以保存以后將無法利用,因而突出優(yōu)先存儲,逐步利用的原則,并不一定要優(yōu)先設定明確和具體的應用目標。典型的是美國國會圖書館啟動的網(wǎng)絡存檔項目,其已采集網(wǎng)絡數(shù)據(jù)500TB以上,尤其是2010年啟動的Twitter存檔的特種館藏項目已存儲2006~2010年的1700億條133.2TB的Twitter記錄[22],并以每天5億條的規(guī)模快速增長。目前雖然尚未完全開放服務并且也面臨數(shù)據(jù)解析整理的技術困難,但歷史學和人文學者均期待其資源的開放利用[23]。一種主張縱向驅(qū)動和片段利用驅(qū)動,突出以若干利用和主題推動項目的存儲,最終實現(xiàn)數(shù)據(jù)匯集和大數(shù)據(jù)。如聯(lián)合國在雅加達設立全球脈動(Globle Pulse)大數(shù)據(jù)利用[24]和大多數(shù)的政府開放數(shù)據(jù)集建設都采用縱向驅(qū)動方式。
3.3 推動深層數(shù)據(jù)存儲和核心資源質(zhì)量
相對于文獻資源、規(guī)范元數(shù)據(jù)等資源形式,推動深層數(shù)據(jù)類型的采集和保存將有效提升科技情報機構的信息分析能力。以往科技情報機構的資源主體是文獻信息、描述信息、事實信息以及部分淺層知識資源,現(xiàn)在需要進一步加強內(nèi)容實體信息、科學數(shù)據(jù)、深層知識資源以及用戶行為信息的保存,繼續(xù)發(fā)展和完善知識庫、本體庫、情景庫、資料庫、實體庫等新型數(shù)據(jù)庫類型[16]。比如中信所在專利分析中對人名、機構名和技術術語、領域深層主題及其相互關系的構建[3],中科院科學數(shù)據(jù)中心對科學數(shù)據(jù)與科技文獻集成服務關鍵技術研究與應用[25]等。
3.4 科學規(guī)劃參考資源架構體系
大數(shù)據(jù)環(huán)境下,大多數(shù)科技情報機構都需要考慮自建數(shù)據(jù)源、開放數(shù)據(jù)源與商業(yè)數(shù)據(jù)源的混搭利用。美國中央情報局的首席技術官 Gus Hunter在推進OpenStack項目時,提出了參考資源架構(Reference Architecture)的規(guī)劃理念。相對于規(guī)范的學術資源和科技信息,大數(shù)據(jù)更零散、更原始、更復雜,巨量、快速和多樣的數(shù)據(jù)存在明顯的碎片化特征,并不能直接利用[2]。因而,科技情報機構需要建立更加具有層次性、協(xié)調(diào)性的數(shù)據(jù)來源和數(shù)據(jù)參考規(guī)劃,突出海量數(shù)據(jù)支撐與核心資源質(zhì)量控制相結合的資源保障策略。一方面需要加強對科技信息獲取渠道及其內(nèi)容的質(zhì)量評價,構建多維度科技信息質(zhì)量評價指標體系和綜合運用多種質(zhì)量控制策略[26];一方面需要加強對信息資源的深度加工與科學解析,提升數(shù)據(jù)的可理解性和可用性。
3.5 加強多源科技情報資源的集成與聚合
大數(shù)據(jù)環(huán)境下,科技信息服務需要面對方法、工具、數(shù)據(jù)的離散化分布[3],需要融合多種來源結構異質(zhì)的數(shù)據(jù),集成多種數(shù)據(jù)分析方法,并且通過融合多源數(shù)據(jù)發(fā)現(xiàn)資源之間潛在關聯(lián)[27]。關聯(lián)性或弱信息的挖掘,被認為是大數(shù)據(jù)服務區(qū)別以往科技情報服務的典型差異[28-29]。而通過把不同渠道、利用多種采集方式獲取的具有不同數(shù)據(jù)結構的信息匯聚到一起,形成具有統(tǒng)一格式、面向多種應用的數(shù)據(jù)集合,這一過程稱為多源數(shù)據(jù)融合[2]。相對于以往圖書情報機構基于目錄的OPAC、基于元數(shù)據(jù)收割協(xié)議的數(shù)字館藏、基于協(xié)議標準的跨庫檢索等聚合方法,當前的數(shù)字資源聚合更注重內(nèi)容層面的知識發(fā)現(xiàn),尤其是數(shù)據(jù)驅(qū)動的弱信息關注[30]以及注重內(nèi)容片斷進行搜索、過濾、瀏覽、鏈接、注釋和分析的戰(zhàn)略性閱讀[31]。
資源融合過程也是數(shù)據(jù)處理和分析技術的應用過程。李廣建等統(tǒng)計了國際上143個數(shù)字資源整合項目[32],歸納出數(shù)據(jù)倉庫、Mediator/ Wrapper(中介器或封裝器)、Agent和P2P等四種整合機制,而且約占85%的項目或系統(tǒng)采用前兩種方法,其中涉及海量存儲技術、ETL技術、信息源監(jiān)控與更新技術、信息源選擇技術、信息抽取技術、查詢處理技術、結果整合技術、語義整合技術等。尤其針對云計算環(huán)境下多源、異構、大規(guī)模、動態(tài)信息資源特征和人們?nèi)找姘l(fā)展的個性化信息服務需求,基于語義的本體資源聚合、分布式協(xié)作資源聚合成為當前關注的焦點[33]。
3.6 積極推動資源開放獲取與協(xié)作
大數(shù)據(jù)環(huán)境下,科技情報機構還應充分利用開放數(shù)據(jù),加強機構間的協(xié)作共享。具體需要從業(yè)務模式和技術手段層面加以規(guī)劃,改變傳統(tǒng)科技情報獲取方法,降低用戶情報獲取難度,促進資源有效利用。從業(yè)務模式上看,要加大政府開放信息源的有效利用和商業(yè)機構的技術力量協(xié)作,以提高數(shù)據(jù)使用的內(nèi)在效率為原則,盈利動機為補充,引入社會力量參與[34]。以英國政府開放數(shù)據(jù)為例,目前已有多家數(shù)據(jù)創(chuàng)業(yè)公司與data.gov.uk合作,如Open Corporates的全球企業(yè)信息查詢、Placr的整合位置與數(shù)據(jù)查詢、Locatable的綜合稅率和交通情況的居住地與購房決策查詢等。從技術手段看,則需增加數(shù)據(jù)的可得性。通常采用關聯(lián)數(shù)據(jù)集(Linked Data Set)技術支持開放共享,以RDF(資源描述框架)構建數(shù)據(jù)模型,利用URI(統(tǒng)一資源標示符)定義數(shù)據(jù)實體,通過HTTP協(xié)議瀏覽并獲取數(shù)據(jù)[35]。
4 大數(shù)據(jù)時代科技情報工作的服務模式創(chuàng)新
資源、技術與服務是科技情報工作的核心要素,資源的改變、技術的提升必然需要匹配服務的創(chuàng)新與升級。大數(shù)據(jù)環(huán)境下,科技情報服務模式的創(chuàng)新強調(diào)以用戶需求為中心,注重運用大數(shù)據(jù)技術分析方法,并建立拓展的資源保障體系與用戶需求之間的關聯(lián)[29]。結合大數(shù)據(jù)本身特征,科技情報服務將進一步突出輕量化服務、細粒度服務、技術服務和一體化服務的趨勢。
4.1 輕量數(shù)據(jù)分析服務
輕量數(shù)據(jù)分析的服務設計主要基于動態(tài)數(shù)據(jù)和片段數(shù)據(jù)的快速增長,較小地犧牲信息分析準確性而開展的快速信息分析方式,即“短、平、快”的服務模式。動態(tài)數(shù)據(jù)的迅速更新與快速增長導致全量數(shù)據(jù)分析的難度與時間復雜度增加,大而全的分析模式反而會降低情報分析結果的時效性,降低情報價值。因而,輕量化科技情報服務模式要突出三個要點:一是強調(diào)數(shù)據(jù)的快速解析與知識發(fā)現(xiàn),一般采用即時跟蹤和動態(tài)監(jiān)控的服務方式[36];二是突出最大可能降低信息分析的效度損耗,建立高效的數(shù)據(jù)篩選機制,從大量信息中準確選擇目標數(shù)據(jù),盡可能通過較小數(shù)據(jù)吞吐發(fā)現(xiàn)問題;三是突出用戶價值,通過用戶定制、用戶交互實時獲取用戶需求,滿足用戶多變需求。
4.2 細粒度情報解析服務
細粒度情報解析主要面向用戶的深層信息需求以及對海量數(shù)據(jù)信息的降維與濃縮需求。細粒度情報解析服務的實現(xiàn)方式主要有:第一,對文獻實體知識單元的提取和分析,對文獻主題、章節(jié)結構、文獻元素(如圖表、數(shù)據(jù)、化學式、專利號)等進行有效提取和聚合分析,典型如學術本體、知識地圖、知識擴散與突變等偵測;第二,對文獻資源之間的弱關聯(lián)關系的發(fā)現(xiàn)[37],尤其是數(shù)據(jù)背后關系網(wǎng)絡的發(fā)現(xiàn),發(fā)現(xiàn)數(shù)據(jù)或知識之間的相關關系;第三,對內(nèi)容片斷進行搜索、過濾、瀏覽、鏈接、注釋和分析的戰(zhàn)略性解析。
從服務表現(xiàn)形式上,細粒度情報服務導致從單一渠道獲取數(shù)據(jù)的數(shù)量與質(zhì)量下降,為了保證情報分析的有效性需要擴大數(shù)據(jù)來源,提高多源數(shù)據(jù)分析能力。一方面,針對不同渠道采集的異構數(shù)據(jù)進行有效解析和聚合;另一方面要關注泛在網(wǎng)絡知識的利用,以及將開放數(shù)據(jù)內(nèi)在的交互性、開放性轉(zhuǎn)化為可以利用資源,并利用海量數(shù)據(jù)的可知識對象化、可計算化開展服務。
4.3 技術應用即服務方式
技術應用即服務方式是對資源保障分析的延伸,將信息分析過程技術化、工具化,并以服務的形式提供給用戶。典型的應用如萬方創(chuàng)新助手、百度數(shù)據(jù)開放平臺、百度開題助手、騰訊云分析等平臺,在數(shù)據(jù)服務基礎上,將數(shù)據(jù)解析和處理工具也提供給用戶,用戶不僅利用數(shù)據(jù),而且也能享受服務方提供的高度定制化的技術工具。相對一般的SaaS服務,科技情報機構的技術應用服務本身不存在數(shù)據(jù)委托存儲的數(shù)據(jù)安全問題,同時更能體現(xiàn)科技情報機構資源與分析技術的協(xié)同效應。同時,技術服務也為科技情報機構之間提供了資源和服務合作的橋梁。歐美學術圖書館就建議情報服務機構提供從資源到資源管理的完整服務體系[38]。
4.4 全流程一體化服務
全流程一體化服務強調(diào)科技情報服務對業(yè)務過程的全程參與與支持,滿足用戶的多元需求。大數(shù)據(jù)時代數(shù)據(jù)準確采集與精確加工難度增加,業(yè)務部門或用戶對情報機構的依賴性將愈發(fā)明顯,科技情報可將服務鏈擴展到情報采集、加工、服務、服務反饋及延伸應用的全生命周期鏈。典型應用是OCLC提出的學術圖書館研究支撐服務[39]。OCLC發(fā)現(xiàn)研究者對情報機構的需求不僅僅是文獻提供與保障,還有研究機會發(fā)現(xiàn)(研究項目趨勢)、研究者的知識產(chǎn)權管理與商業(yè)價值實現(xiàn)、研究合作者發(fā)現(xiàn)、管理和存儲文本與數(shù)據(jù)集、大量文本或數(shù)據(jù)分析、改進信息檢索或管理能力、引文管理、尋找機會、職位晉升或工作機會發(fā)現(xiàn)、學術聲譽管理、出版前出版中和出版后的文獻管理等。
5 結語
在文獻服務、技術服務、應用服務和決策服務的演進過程中,不僅科技情報工作的服務對象逐漸從文獻資料、系統(tǒng)信息過渡到覆蓋全生命周期數(shù)據(jù)、文獻知識單元、分析與應用工具以及決策與咨詢建議的立體服務結構,而且用戶需求和受眾的情報利用方式也發(fā)生了變化。以學術領域的情報工作服務為例,知識大數(shù)據(jù)的興起不僅推動了學術知識工程和數(shù)據(jù)存儲服務在科技領域的深度應用[40],科學家和人文學者對知識數(shù)據(jù)的利用方式改變也催生了知識大數(shù)據(jù)服務的誕生[41]。在商業(yè)領域,Chen和Chiang通過梳理情報分析技術進展,發(fā)現(xiàn)情報分析從面向數(shù)據(jù)庫的結構化數(shù)據(jù)分析向面向網(wǎng)絡的非結構化數(shù)據(jù)分析、移動網(wǎng)絡和感知數(shù)據(jù)分析的BI&A3.0快速轉(zhuǎn)變[42]。雖然科技情報機構面臨著大數(shù)據(jù)在資源保障和信息分析技術上的挑戰(zhàn),但另一方面科技情報的應用領域越來越廣泛、用戶對科技情報機構分析能力的依賴將越來越強,面臨巨大的發(fā)展機遇。
參考文獻:
[1] 王飛躍. 知識產(chǎn)生方式和科技決策支撐的重大變革――面向大數(shù)據(jù)和開源信息的科技態(tài)勢解析與決策服務[J].中國科學院院刊, 2012, 27(5): 527-537.
[2] 李廣建,楊林.大數(shù)據(jù)視角下的情報研究與情報研究技術[J].圖書與情報,2012(6):1-8.
[3] 賀德方. 基于大數(shù)據(jù)、云服務的科技情報工作思考[J]. 數(shù)字圖書館論壇, 2013 (6): 2-9.
[4] 喬曉東,朱禮軍,李穎,等. 大數(shù)據(jù)時代的技術情報工程[J]. 情報學報, 2014, 33(12): 1255-1263.
[5] 曾建勛,魏來. 大數(shù)據(jù)時代的情報學變革[J]. 情報學報, 2015, 34(1): 37-44.
[6] 王曉佳,楊善林,陳志強. 大數(shù)據(jù)時代下的情報分析與挖掘技術研究[J]. 情報學報, 2013, 32(6): 564-574.
[7] 張斌, 馬費成. 大數(shù)據(jù)環(huán)境下數(shù)字信息資源服務創(chuàng)新[J]. 情報理論與實踐, 2014(6):28-33.
[8] Santovena A Z. Big data: evolution, components, challenges and opportunities[D]. Massachusetts Institute of Technology, 2013.
[9] Rider,F(xiàn).The scholar and the future of the research library: A problem and its solution[M].New York city: Hadham Press,1944.
[10] Kraus R. Statistical déjà vu: The National Data Center Proposal of 1965 and its descendants[J]. Journal of Privacy and Confidentiality, 2013, 5(1): 1
[11] U.S.Bureau of the Budget,Office of Statistical Standards,Review of Proposal for a National Data Center,Statistical Evaluation Report No. 6, December 1965, reprinted in Edgar S. Dunn, Jr., Social Information Processing and Statistical Systems-Change and Reform[M].New York: John Wiley & Sons, 1974:204.
[12] The Home of the U.S. Government's Open Data[EB/OL].[2015-10-10].https://data.gov/.
[13] Openning Up Government UK[EB/OL].[2015-10-10].https://data.gov.uk/data/search.
[14] 李國杰, 程學旗. 大數(shù)據(jù)研究:未來科技及經(jīng)濟社會發(fā)展的重大戰(zhàn)略領域――大數(shù)據(jù)的研究現(xiàn)狀與科學思考[J]. 中國科學院院刊, 2012, 27(6):647-657.
[15] 鄔賀銓.大數(shù)據(jù)時代的機遇與挑戰(zhàn)[J].求是,2013(4):47-49.
[16] 趙凡, 冷伏海. 科技情報研究與服務的發(fā)展現(xiàn)狀與趨勢[J]. 數(shù)字圖書館論壇, 2006(10):52-60.
[17] 張曉林. 研究圖書館2020:嵌入式協(xié)作化知識實驗室?[J]. 中國圖書館學報, 2012(1):11-20.
[18] 劉如,吳晨生,李夢輝. 大數(shù)據(jù)時代科技情報工作的機遇與變革[J]. 情報理論與實踐, 2015, 38(6): 35-39.
[19] 張曉林. 走向知識服務:尋找新世紀圖書情報工作的生長點[J]. 中國圖書館學報, 2000, 26(5):32-37.
[20] 錢力, 張曉林, 李春旺,等. 利用OSGi的科技情報分析集成服務架構研究與應用[J]. 現(xiàn)代圖書情報技術, 2014(12):62-70.
[21] 毛曉燕. 大數(shù)據(jù)環(huán)境下圖書館信息服務走向分析[J]. 圖書館工作與研究, 2014(3):72-75.
[22] Library of Congress, “Update on the Twitter Archive At the Library of Congress”(January)[EB/OL].[2015-11-15].http://loc.gov/today/pr/2013/files/twitter_report_2013jan.pdf.
[23] Zimmer M. The Twitter Archive at the Library of Congress: Challenges for information practice and information policy[J]. First Monday, 2015, 20(7).
[24] Pulse U N G. Big data for development: Challenges &opportunities[M]. NacionesUnidas, Nueva York, mayo, 2012.
[25] 中科院數(shù)據(jù)云.科學數(shù)據(jù)與科技文獻集成服務關鍵技術研究與應用[EB/OL].[2015-11-10].http:///linkdata/597.jhtml.
[26] 裴雷, 孫建軍. 中國科技報告質(zhì)量評價體系與推進策略[J]. 情報學報, 2014(8):813-823.
[27] 楊善林, 羅賀, 丁帥. 基于云計算的多源信息服務系統(tǒng)研究綜述[J]. 管理科學學報, 2012, 15(5):83-96.
[28] 官思發(fā),朝樂門.大數(shù)據(jù)時代信息分析的關鍵問題、挑戰(zhàn)與對策[J].圖書情報工作,2015,59(3):12-18,34.
[29] 李廣建,化柏林.大數(shù)據(jù)分析與情報分析關系辨析[J].中國圖書館學報,2014(5):14-22.
[30] Palmer C L. Weak information work and “doable” problems in interdisciplinary science[J]. Proceedings of the American Society for Information Science and Technology, 2006, 43(1): 1-16.
[31] Renear A H, Palmer C L. Strategic reading, ontologies, and the future of scientific publishing[J]. Science, 2009, 325(5942): 828-832.
[32] 李廣建, 汪語宇, 張麗. 數(shù)字資源整合的實現(xiàn)機制及關鍵技術――對國外數(shù)字資源整合系統(tǒng)的實證研究[J]. 中國圖書館學報, 2007, 33(2): 75-80.
[33] 劉向, 王偉軍, 李延暉. 云計算環(huán)境下信息資源集成與服務系統(tǒng)的體系架構[J]. 情報科學, 2014, 32(6): 128-133.
[34] 王晴. 論科學數(shù)據(jù)開放共享的運行模式, 保障機制及優(yōu)化策略[J]. 國家圖書館學刊, 2014, 23(1): 3-9.
[35] 李志芳, 鄧仲華. 國內(nèi)開放科學數(shù)據(jù)的分布及其特點分析[J]. 情報科學, 2015(3): 9.
[36] 繆其浩. 當情報遇到大數(shù)據(jù)――大數(shù)據(jù)熱點情報跟蹤的回顧與感悟[J]. 情報探索, 2013(5):1-3.
[37] Palmer C L, Cragin M H, Hogan T P. Weak information work in scientific discovery[J].Information processing & manage
ment, 2007, 43(3): 808-820.
[38] Malpas,Constance.Cloud-sourcing Research Collections:Managing Print in the Mass-digitized Library Environment[R/OL].[2015-11-15].http:///research/publications/library/2011/2011-01.pdf.
[39] Susan Kroll and Rick Forsman. A Slice of Research Life: Information Support for Research in the United States[R/OL]. [2015-11-15].http:///research/publications/library/2010/2010-15.pdf.
[40] Lyon Liz. The Informatics Transform: Re-Engineering Libraries for the Data Decade[J].The International Journal of Digital Curation, 2012, 7(1): 126-138.
關鍵詞:考綱;中考化學;復習備考;策略
中圖分類號:G632.41 文獻標志碼:A 文章編號:1674-9324(2017)23-0208-04
中考化學復習策略優(yōu)化與否直接關系到學生中考化學成績的高低,科學的復習可以收到事半功倍的效果。中考化學復習時應采取什么樣的復習策略呢?
一、精準把握命題特點是科學備考的前提
廣州市初中畢業(yè)生化學學業(yè)考試是義務教育階段化學課程的終結性考試,考試結果既是衡量學生是否達到畢業(yè)標準的主要依據(jù),也是高中階段學校招生的重要依據(jù)之一,屬選拔性和水平性相結合的考試。本文結合廣州近五(2011―2015)年中考化學年報及中考化學試題,以《廣州中考指導書》及《義務教育化學課程標準》為綱,把握中考命題的特點。
(一)研究課標,解讀考綱
根據(jù)教育部頒布的《義務教育化學課程標準(2011年版)》(以下簡稱《化學課程標準》),為更好地執(zhí)行《化學課程標準》,明確初中化學教學的基本要求和評價要求,廣州市編制了《廣州市初中畢業(yè)生學業(yè)考試――化學考試大綱》(以下簡稱《化學考試大綱》),廣州市初中畢業(yè)生學業(yè)考試化學試卷就是《化學課程標準》、《化學考試大綱》和《評價標準(化學)》而編制的。廣州市中考化學命題依據(jù)“知識不超綱,能力不封頂”的原則。
根據(jù)每年《廣州中考指導書》,結合《化學課程標準》組織學習《化學考試大綱》,考試大綱所呈現(xiàn)出來的有三方面的內(nèi)容――考試目標、考試方式和試卷結構以及考試內(nèi)容范圍。本文重點解讀考綱的考試目標及考試內(nèi)容范圍。詳見表1。
考試目標是根據(jù)《化學課程標準》對認知性學習目標的要求和初中化學教學的特點,中考試題在認知領域考查分為三個水平等級。
重點有于解讀考試的范圍和要求。當每年發(fā)的考試大綱與往年的考試大綱從考試范圍六個方面進行逐一比對,發(fā)現(xiàn)是否有異同或有沒有增減,并緊扣考試大綱的各條要求,明確復習備考總體方向。
(二)鉆研年報,巧用數(shù)據(jù)
《廣州市初中畢業(yè)生學業(yè)考試年報》(以下簡稱《年報》)。《年報》呈現(xiàn)內(nèi)容有試題說明、統(tǒng)計數(shù)據(jù)與分析、試題分析、復習備考與教學建議等方面的內(nèi)容。復習備考工作開始之初,必須對《年報》深入鉆研,吸收有效信息,并巧用數(shù)據(jù),指導復習備考工作的開展。以下從四個方面對《年報》進行深入探討:
1.考試的能力要求及變化,明確考試方向?!赌陥蟆分兄赋?,試卷符合考綱規(guī)定的要求,選擇題考點常規(guī),不偏不怪,緊扣學科基礎知識,非選擇題對單質(zhì)、氧化物、酸、堿、鹽的典型性質(zhì)全面涉及,對物質(zhì)的制備等實驗類型全面涉及??荚嚳傮w的能力要求沒有太大的變化,說明命題還是比較穩(wěn)定的。隨著時間的推移,關于“化學核心觀念”及試題“聯(lián)系實際,凸顯應用,圖文并茂”等方面能力要求發(fā)生了變化。詳見表2。
從上表可知,試題對于化學核心觀念能力要求,從注重到關注過渡到全面涉及。也說明考試方向從分類觀、微粒觀、變化觀、守恒觀等化學核心觀念要求方面加深過。
另外試題“聯(lián)系實際,凸顯應用,圖文并茂”,說明試題重視與生活、生產(chǎn)實際相聯(lián)系,體現(xiàn)了化學離不開生活、化學離不開實驗,化學思維離不開探究,學生懂得從各種信息呈現(xiàn)形式中獲取其本質(zhì)意義。因此,復習備考過程中引導學生加強自學能力的養(yǎng)成,綜合提高自身化學學科素養(yǎng),才能適應現(xiàn)中考的要求。這種強調(diào)學生自學和閱讀能力的命題特點也是綜合素質(zhì)培養(yǎng)的大勢所趨。
2.考點的考查規(guī)律及命題變化,明確考試范圍
從試題特點分析可知,考點內(nèi)容的覆蓋考試范圍達90%以上,題型配置和內(nèi)容比例保持基本穩(wěn)定,考查了九年級化學的主體內(nèi)容,考查了主要的、重要的學科基本觀念和思想方法。近五年試題內(nèi)容、分值分布比例情況分析,詳見表3。
從以上數(shù)據(jù)分析中,我們能準確地獲知近五年中考題在每個知識模塊的分布情況及在總分所占分值比例,化學學科基本思想和化學研究基本方法、常見物質(zhì)和化學實驗總分所占比例在70%左右,而且這三部分內(nèi)容所點比例基本保持穩(wěn)定。它們是中考備考的重點,要立足基礎、兼顧選拔、深挖教材內(nèi)容背后的化學原理和學科思想。從常見的物質(zhì)中,發(fā)現(xiàn)近兩年題量顯明增加,分值變化不大,說明命題更為細化,知識點更深入。另外,近兩年“物質(zhì)的微粒構成”的分值較前幾年有所增加,說明命題體現(xiàn)學科的核心觀念。
3.試題呈現(xiàn)方式的變化,明確命題意圖。試題是命題者從不同切入點命題達到呈現(xiàn)考點,通過研讀比對近五年試題就可以發(fā)現(xiàn)命題者命題思路,從而為科學備考做到心中有數(shù)。如以近五年中考中的物質(zhì)的微粒構成,詳見表4。
從近五年的試題中分析,物質(zhì)的微粒構成是每年必考的知識點?!洞缶V》對于物質(zhì)構成的知識要點進行細化,呈現(xiàn)方式的變化每年略有不同,但還是注重原子結構及其表示方法、化學式、常見元素化合價的判斷、物質(zhì)組成的描述、物質(zhì)變化的微觀本質(zhì)。從數(shù)據(jù)分析中,準確地看到近五年中考知識要點及各要點所占分值,且近兩年分值有所增加。分子、原子、離子、原子團及元素符及化學式每年必考,通過對數(shù)分析發(fā)掘出命題呈現(xiàn)方式發(fā)生了變化。
4.從試題難易比例去分析,明確備考重點。通過對每年試題難易數(shù)據(jù)的分析,分析全卷易、中、難試題的比例從而有利于備課制定備考方案,以保持平穩(wěn),重視基礎,兼顧選拔,體現(xiàn)水平性考試與選拔作用的命題要求,所以必須面向?qū)W生全體落實基礎知識。具體見表5。
從表5中的區(qū)分度和信度數(shù)據(jù)來看,近五年來試卷難度、區(qū)分度都較好。從數(shù)據(jù)分析中,備課組發(fā)現(xiàn)選擇題的難度近兩年有所降低,非選擇部分的難度沒有太大的變化,但容易題有所下降,中等難度題有所提升。因此對考生來,保分就是要嚴抓基礎,做好化學學科基本思想和化學研究基本方法、常見物質(zhì)和化學實驗的復習。而從這五年較難題上增加了分值,要讓優(yōu)秀學生從選拔中脫穎而出,較難題拿分是培優(yōu)的突破口。
(三)夯基礎,用好教材
從近五年《年報》分析可知:中考以保持平穩(wěn),重視基礎,兼顧選拔。必須面向?qū)W生全體夯實基礎知識,同時注重用好教科書,所有知識均能在教材上找到相應的落腳點,發(fā)揮教科書的教學功能,回歸化學學科的教育本質(zhì)。
1.重視基礎。從近五《年報》均指出,強調(diào)學科知識的基礎性和廣泛的實用性,突出對化學學科思想、基本觀念、學科研究方法及科學探究能力的考查。選擇題考點常規(guī),不偏不怪,緊扣學科基礎知識。非選擇題對單質(zhì)、氧化物、酸、堿、鹽的典型性質(zhì)有全面涉及。
2.綱不離本。從近五《年報》均指出,以課本與指導書為大綱,堅持“不超,不難,不怪”。希望通過中考題,學生真切地感受到學以致用,化學是一門讓人熱愛、讓人思考、讓人創(chuàng)造的一門自然科學。用好化學教科書,發(fā)揮教科書的教學功能。
3.命題之源。認真研讀中考指導書對中考化學的考試范圍與要求,做到知識不超綱,所有知識點均能在教材上找到相應的落腳點。教材中的習題、例題、插圖、圖表、閱讀材料都常用作編題的材料。這樣的試題引導教學重視教材,落實基礎。具體詳見表6
二、取得可喜成績是復習備考的成果
學校經(jīng)過三年的實施與踐行,取得不錯的教育效果。近三年中考成績均超番禺區(qū)、廣州市的平均分。具體詳見表7。
通過備課組深入研究考綱,結合年報,制定精準策略,并實踐踐行,從上表中數(shù)據(jù)可知,近三年我?;瘜W學科的中考成績均超區(qū)平均分3分以上,超廣州市均在8分以上。2016年中考較2015年市、區(qū)再有近1分的提高。
總之,中考化學高效復習課堂教學的方法多樣化,只要堅守“以學生為本”的教學理念,在中考化學總復習中,知識的掌握、能力的提升不可能一蹴而就,必須著眼于知識、能力和覺悟三者的有機統(tǒng)一,立足于教材,關注熱點,掌握科學有效的方法,進而提高能力。要讓學生從訓練中能夠不斷積累應考經(jīng)驗和技能。
參考文獻:
[1]周鑫榮.高三化學復習中提高習題訓練有效性的策略[J].化學教育,2013,(02).
[2]傅繪景.中考化學高效復習策略[J].新課程,2015,(01).
[3]劉秀娟.巧用數(shù)據(jù)分析指導化學中考備考[J].新課程,2014,(07).
[4]廣州市教育研究院.2014年廣州市初中畢業(yè)生學業(yè)考試年報[M].廣東教育出版社,2015.
[5]廣州市教育研究院.2015年廣州市初中畢業(yè)生學業(yè)考試年報[M].廣東教育出版社,2015.
[6]廣州市教育研究院.2016年廣州市初中畢業(yè)生學業(yè)考試指導書化學[M].廣東教育出版社,2015.
Based upon Test under the Outline under Midterm Exams Chemical Refresher the Test Strategy
―For Guangzhou City 2011―2015 Date under Midterm Exams Chemical
CHEN De-quan
(Guangzhou City Panyu Area Shilou Middle School,Guangzhou,Guangdong 511447,China)