前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的測度論在統(tǒng)計學中的應用主題范文,僅供參考,歡迎閱讀并收藏。
關鍵詞:統(tǒng)計測度;統(tǒng)計學;大數(shù)據(jù);數(shù)據(jù)科學;
作者簡介:李金昌,男,50歲,浙江義烏人。浙江財經(jīng)大學校長,統(tǒng)計學教授,博士生導師。研究方向為經(jīng)濟統(tǒng)計學,統(tǒng)計理論與方法,抽樣技術,政府統(tǒng)計等。
最近兩年,統(tǒng)計學界對大數(shù)據(jù)問題所進行的理論探討逐漸增多,視角也各有千秋,引起了一些共鳴。圍繞大數(shù)據(jù)問題,由統(tǒng)計學、計算機科學、人工智能、數(shù)學等學科共同支撐的數(shù)據(jù)科學開始形成。但大數(shù)據(jù)畢竟是一個新課題,因此遠未達到對其有一個系統(tǒng)完整的認識,仍然需要從不同的方面加以研究,其中有一個重要但又容易被忽視的問題,即統(tǒng)計測度問題,值得去探討。
一、什么是統(tǒng)計測度
漢語上,測度是指猜測、揣度、估計。數(shù)學上,測度是一個函數(shù),它對一個給定集合的某些子集指定一個數(shù),這個數(shù)可以比作大小、體積、概率等等。通俗地說,測度把每個集合映射到非負實數(shù)來規(guī)定這個集合的大?。嚎占臏y度是0;集合變大時測度至少不會減小(因為要加上變大的部分的測度,而它是非負的)。
除了數(shù)學角度的測度論,查閱國內文獻資料,帶有測度這個詞匯的文獻不少,但專門針對統(tǒng)計測度(或測度)內涵的討論幾乎沒有。一些對社會經(jīng)濟現(xiàn)象進行分析測度的文獻,例如新型工業(yè)化進程測度、貨幣流動性測度、全面小康社會發(fā)展進程測度、收入分配公平性測度、技術效率測度、人力資本測度、金融風險測度、產(chǎn)業(yè)關聯(lián)測度等等,所做的測度都是再測度,均不對測度本身進行討論。查閱國外文獻資料(關鍵詞:measurement),也同樣存在這樣的問題,只能收集到一些比較零散的表述。LudwikFinkelstein(1975)[1]認為,在我們對事物或現(xiàn)象進行描述時,測度可以被定義為對現(xiàn)實世界中某一現(xiàn)象的個體屬性或特征進行量化的過程。JamesT.Townsend和F.GregoryAshby(1984)[2]認為,如果按照極端的觀點,那么統(tǒng)計分析中的基本測度理論的含義仍然是存在爭議的。LudwikFinkelstein(2003)[3]指出,測度在那些原來尚未得到卓有成效或廣泛應用的領域,也已取得了明顯的進步,社會、政治、經(jīng)濟和行為科學正在更大程度地利用定量技術;測度是現(xiàn)代思維的一種實際有效的工具,是我們借以描述世界的一種方法。GiovanniBattistaRossi(2007)[4]認為,用以表示測度結果的,是數(shù)字或者數(shù)字符號。LucaMari(2013)[5]認為,測度的基礎特征是被公認為世界上獲取并正式表達信息的基本方法,這讓它成為一種跨學科的工具。LudwikFinkelstein(2014)[6]指出,在自然科學技術中,測度的重要性不可否認,它是科學調查和發(fā)現(xiàn)必不可少的工具,它可將宇宙中的復雜現(xiàn)象用精確、簡潔和普遍的數(shù)學語言來描述。
那么,到底什么是統(tǒng)計測度呢?目前沒有一個統(tǒng)一的定義。本文認為,統(tǒng)計測度具有不同于測度的意義,并且大大超越數(shù)學上的界定,即它具有數(shù)學定義的一般屬性,但又不受制于函數(shù)表現(xiàn)形式,因為統(tǒng)計測度所要面對的是現(xiàn)實世界,實際問題要比理論上可以定義的問題復雜得多。按照我們的理解,統(tǒng)計測度就是用一定的符號和數(shù)字,用一定的形式和載體,對所研究的現(xiàn)象或事物的特征進行量化反映,表現(xiàn)為可用于統(tǒng)計分析的數(shù)據(jù)的過程。它應該具有這樣一些屬性:以實際現(xiàn)象為測度對象,測度結果具有實際意義;以量化為目的,把信息轉化為數(shù)量,提供人們容易理解的定量結論;個體特征的測度符合形成總體定量結論的要求,同時能夠體現(xiàn)個體差異。可以發(fā)現(xiàn),統(tǒng)計測度需要借用數(shù)學工具,但更重要的是對具體測度現(xiàn)象本質特征的認識和掌握。
統(tǒng)計測度可以從若干不同角度進行分類。邱東教授(2012)[7]曾在“宏觀測度的邊界悖律及其意義”一文中,從邊界的角度對宏觀測度進行了分類:一是因事物本身可測度性而形成的邊界,即本體論意義上的測度邊界;再一是由人的認知能力而形成的邊界,即認識論意義上的測度邊界;第三則是由統(tǒng)計相關性偏好和投入約束而形成的邊界,即操作意義上的測度邊界。這三條測度邊界,應該以本體論意義的測度邊界最大,認識論意義的測度邊界次之,而操作意義的測度邊界最小。這樣的分類,對于我們正確理解統(tǒng)計測度的內涵很有幫助。受此啟發(fā),筆者認為統(tǒng)計測度還可以有如下分類:
1.從測度的實現(xiàn)形式看,可以分為原始測度和再測度。原始測度也可以稱為直接測度,它通過對測度對象進行直接測度來獲取數(shù)據(jù),例如清點庫存物品數(shù)量、丈量作物播種面積、觀察培育細菌數(shù)目、檢測藥物成分等獲得的數(shù)據(jù),以及各種登記、記錄的原始數(shù)據(jù)等等。再測度也稱為間接測度,它以其他已知的測度數(shù)據(jù)為基礎去計算、推算或預測所需的未知數(shù)據(jù),例如根據(jù)GDP和人口數(shù)測度人均GDP、根據(jù)人口普查分年齡人口數(shù)據(jù)測度老齡化系數(shù)和社會負擔系數(shù)、根據(jù)相關指標數(shù)據(jù)測度CPI的變化等等。復雜的再測度則需要借助相應的統(tǒng)計模型作為工具,因為它實際上是對相關變量之間的關系進行定量反映。從兩者關系上看,原始測度是基礎,是根本,沒有科學的原始測度就不會有可靠的再測度;再測度則是測度功能提升的必然要求,以解決原始測度不能解決的問題。
2.從測度的計量方式看,可以分為自然測度、物理測度、化學測度、時間測度和價值測度。自然測度是利用現(xiàn)象的自然屬性所進行的一種統(tǒng)計測度,例如人口規(guī)模、企業(yè)數(shù)量等的測度,采用自然計量單位;物理測度是利用現(xiàn)象的物理屬性所進行的一種統(tǒng)計測度,例如公路長度、作物播種面積、天然氣產(chǎn)量等的測度,采用物理計量單位;化學測度是利用現(xiàn)象的化學屬性所進行的一種統(tǒng)計測度,例如醫(yī)學、生物學中化學合成物的成分結構測度,采用百分數(shù)、千分數(shù)或特定標識為計量單位;時間測度是利用現(xiàn)象的時間屬性所進行的一種統(tǒng)計測度,例如勞動用工、閑暇時間等測度,采用時間計量單位;價值測度是利用現(xiàn)象的價值屬性所進行的一種統(tǒng)計測度,例如勞動報酬、經(jīng)濟活動成果等測度,采用貨幣計量單位。在這些測度計量方式中,價值測度因最具有綜合功能而應用最為廣泛。
3.從測度的方法看,可以分為計數(shù)測度、測量測度、實驗測度、定義測度和模型測度。計數(shù)測度是一種通過觀測計數(shù)來獲得數(shù)據(jù)的方法,最為簡單,一般用于自然測度或時間測度;測量測度是一種根據(jù)物理或化學規(guī)制對現(xiàn)象進行測量、測算來獲得數(shù)據(jù)的方法,一般用于物理測度或化學測度;實驗測度是一種按照科學實驗原理、通過觀察實驗對象在既定條件下的反應來獲得數(shù)據(jù)的方法,一般與測量測度相結合,用于獲取科學研究數(shù)據(jù);定義測度也可以稱之為指標測度,是一種通過探究現(xiàn)象的本質特征和活動規(guī)律、歸納出表現(xiàn)其數(shù)量特征的范疇、給出統(tǒng)計指標定義(包括內容、口徑、計算方法和表現(xiàn)形式等)來獲取數(shù)據(jù)的方法,最常用于價值測度,也用于其他形式的測度??梢哉f,定義測度方法應用最為廣泛,但也最為困難。模型測度是一種根據(jù)現(xiàn)象與現(xiàn)象之間的內在聯(lián)系關系、或者現(xiàn)象自身的發(fā)展變化規(guī)律,通過建立一定的方程模型來獲取數(shù)據(jù)的方法。前面三種統(tǒng)計測度方法基本上都屬于直接測度,定義測度既可能是直接測度、也可能是間接測度,而模型測度都屬于間接測度方法。
4.從測度的維度看,可以分為單一測度與多維測度。單一測度是指采用單一的方式方法對所研究現(xiàn)象或事物進行單一角度的測度,獲得單一的數(shù)據(jù)。多維測度是指對所研究現(xiàn)象或事物進行多角度的測度,測度過程中可能需要采用多種測度方法和計量方式,例如多指標綜合評價就需要借助統(tǒng)計指標體系對評價對象進行多角度的測度。顯然,單一測度是多維測度的基礎。
二、統(tǒng)計測度是統(tǒng)計學的立足之本
首先,從統(tǒng)計學的發(fā)展歷史看,是統(tǒng)計測度使統(tǒng)計學破繭而出。為什么主流觀點認為政治算術是統(tǒng)計學的起源而不是國勢學?正是因為威廉·配第首次采用統(tǒng)計測度的方式進行了國家實力的統(tǒng)計分析和有關推算,得出了令人信服的結論。威廉·配第在1693年出版的《政治算術》[8]中寫道“因為和只使用比較級或最高級的詞匯以及單純作思維的論證相反,我卻采用了這樣的方法(作為我很久以來就想建立的政治算術的一個范例),即用數(shù)字、重量和尺度的詞匯來表達我自己想說的問題,只進行能訴諸人們的感官的論證和考察在性質上有可見的根據(jù)的原因”,這一觀點在統(tǒng)計學的發(fā)展過程中產(chǎn)生了非常重要的影響。他的這段話雖然沒有出現(xiàn)測度一詞,但卻道出了測度的本質,即讓事物變得明白、變得有根據(jù),因為“數(shù)字、重量和尺度”就是測度、就是根據(jù),用“數(shù)字、重量和尺度的詞匯來表達想說的問題”就是一種測度的思想,盡管測度的方式方法還很簡單。相反,國勢學雖然提出了歸納法這一統(tǒng)計學的基本方法并首創(chuàng)了統(tǒng)計學一詞,但由于沒有采用統(tǒng)計測度的方式進行國勢問題的研究而難以修成正果。正如邱東教授[7]所說:“在配第之前,統(tǒng)計學的研究對象雖然是國家的態(tài)勢,但它在方法論上只是定性言說。一個國家的財富總量在本體論意義上是可以測度的。然而只是到了配第時期,人類才想到了要測度它,并發(fā)明了如何測度的基本方法。政治算術,即開創(chuàng)期的經(jīng)濟統(tǒng)計學,實現(xiàn)了從無到有的轉變,大大擴展了宏觀測度的認識論邊界,因而才具有了統(tǒng)計學范式創(chuàng)新的革命性意義?!蓖瑯樱窭侍氐摹蛾P于死亡表的自然觀察和政治觀察》也是人口統(tǒng)計測度方面的經(jīng)典之作,無論是原始測度還是再測度,都給后人留下了寶貴的財富。之后,統(tǒng)計學就是沿著如何更加科學、準確測度世界這一主線而發(fā)展的。筆者曾在“從政治算術到大數(shù)據(jù)分析”一文[9],對數(shù)據(jù)的變化與統(tǒng)計分析方法的發(fā)展進行了粗淺的歸納,其主題實際上就是統(tǒng)計測度問題。
其次,從統(tǒng)計學的研究對象上看,統(tǒng)計測度是體現(xiàn)統(tǒng)計學數(shù)量性特征的前提條件。統(tǒng)計學的研究對象是現(xiàn)象的數(shù)量方面,或者說統(tǒng)計學是關于如何收集和分析數(shù)據(jù)的科學。統(tǒng)計數(shù)據(jù)從何而來?從統(tǒng)計測度中來。數(shù)據(jù)不同于數(shù)字,數(shù)字是統(tǒng)計測度的符號,數(shù)據(jù)是統(tǒng)計測度的結果,這也正是統(tǒng)計學區(qū)別于數(shù)學之處。所以說,數(shù)據(jù)的本質問題就是統(tǒng)計測度問題,故此統(tǒng)計測度是統(tǒng)計學的基本問題。這里重點討論兩個問題:一是統(tǒng)計測度與統(tǒng)計指標的關系,二是統(tǒng)計測度面臨的新問題。關于第一個問題,本文認為統(tǒng)計測度與統(tǒng)計指標是一個事物的兩個方面,這個事物就是數(shù)據(jù)。統(tǒng)計指標法是統(tǒng)計學的基本方法之一,盡管前面對統(tǒng)計測度從方式方法上進行了分類,但從廣義上說所有統(tǒng)計測度都是定義測度,都表現(xiàn)為指標。也就是說,任何統(tǒng)計測度———不論是直接測度還是間接測度,最終目的是獲得能夠讓人明白的數(shù)據(jù),而表現(xiàn)數(shù)據(jù)的最主要形式就是統(tǒng)計指標,其他表現(xiàn)數(shù)據(jù)的形式都是派生出來的。所以,統(tǒng)計測度就是根據(jù)所設定的統(tǒng)計指標去獲得所需的數(shù)據(jù)。關于第二個問題,與后文所要論及的大數(shù)據(jù)有關,就是定性測度問題。在統(tǒng)計學中,數(shù)據(jù)可以分為兩類———定性數(shù)據(jù)與定量數(shù)據(jù),其中定性數(shù)據(jù)又包括定類數(shù)據(jù)與定序數(shù)據(jù)兩種,它們屬于非結構化或半結構化數(shù)據(jù)。相應地,統(tǒng)計測度也可分為定性測度與定量測度。很顯然,只有定性測度與定量測度方法得到同步發(fā)展,統(tǒng)計學才能更加完善??傮w上看,定量數(shù)據(jù)的統(tǒng)計測度已經(jīng)比較完善,但定性數(shù)據(jù)的統(tǒng)計測度還有很多問題尚待解決,難點就在于測度的切入點———如何提取有效的信息、如何最終轉化為統(tǒng)計指標。盡管關于定性數(shù)據(jù)分析的論著已經(jīng)不少,但還沒有從理論方法上建立起定性數(shù)據(jù)統(tǒng)計測度的體系,因此統(tǒng)計學在這方面的任務依然很重。
第三,從統(tǒng)計學的永恒主題看,通過科學的數(shù)據(jù)分析、得出有效的結論是其不變的追求,而數(shù)據(jù)分析過程就是綜合的統(tǒng)計測度過程。獲得數(shù)據(jù)的目的是為了發(fā)現(xiàn)隱含其中的有價值的信息,即發(fā)現(xiàn)數(shù)據(jù)背后的數(shù)據(jù),讓數(shù)據(jù)再生數(shù)據(jù),從而滿足人們認識事物、掌握規(guī)律、科學決策的需要。除了總量、結構等基本信息外,更重要的是通過數(shù)據(jù)分析來呈現(xiàn)現(xiàn)象的變化規(guī)律與相互關系。不難發(fā)現(xiàn),這種數(shù)據(jù)分析的過程,就是不斷進行各種統(tǒng)計測度的過程,所以最終的統(tǒng)計分析結果實際上就是各環(huán)節(jié)、各方面的各種類型的統(tǒng)計測度的疊加結果,或者說是統(tǒng)計測度不斷放大的過程。大量針對社會經(jīng)濟現(xiàn)象進行分析研究的文獻(不論是否冠以“測度”兩字),只要有數(shù)據(jù)分析,都是如此。可以說,統(tǒng)計測度貫穿于統(tǒng)計數(shù)據(jù)分析的全過程。但是,為什么很多統(tǒng)計數(shù)據(jù)分析并沒有得出有效的結論呢?本文認為原因就出在統(tǒng)計測度上,尤其是沒有首先解決好原始統(tǒng)計測度問題。應該說,圍繞數(shù)據(jù)分析已經(jīng)建立起一整套比較完整的統(tǒng)計方法體系,很多方法也都身經(jīng)百戰(zhàn)、行之有效,但一旦原始統(tǒng)計測度有問題、數(shù)據(jù)不準確或不真實,那么任何方法都只是擺設。仔細研讀很多所謂的實證分析文獻,其重點均在于構建什么樣的模型或運用什么樣的方法,雖然有的文獻也必須要討論選擇什么樣的變量(指標)這個問題,但并不是系統(tǒng)地從測度的角度進行闡述,因此所用的模型越來越復雜,但所得的結論卻離實際情況越來越遠。學界總是有這樣一種觀念:變量越多、符號越新奇、模型越復雜的文章才越有水平,似乎這樣分析所得的結論才越可靠。殊不知,不以科學可靠的原始統(tǒng)計測度為基礎,任何數(shù)據(jù)分析都會成為無源之水、無本之木,所得的結論也只是更精確的錯誤而已。本文認為,任何脫離科學統(tǒng)計測度的統(tǒng)計分析都是毫無意義的,充其量是一種數(shù)字游戲而已。應該樹立這樣一種觀念:科學的統(tǒng)計數(shù)據(jù)分析首先取決于科學的統(tǒng)計測度,而不是首先取決于什么樣的分析模型,雖然模型也很重要。這也再一次證明,統(tǒng)計測度問題是統(tǒng)計學的根本問題。其實,歸根結底看,在統(tǒng)計數(shù)據(jù)分析過程中,每一步分析都以前一步的測度為原始測度,每一步所用的方法都是統(tǒng)計測度方法,因此所有的統(tǒng)計分析方法都是統(tǒng)計測度方法。甚至可以說,統(tǒng)計學方法體系就是統(tǒng)計測度方法體系。
當然,在實際的統(tǒng)計分析中,統(tǒng)計測度往往遇到一些困難,即有些指標數(shù)據(jù)由于各種原因無法獲得,這就不得不采用替代這種途徑。例如,綠色GDP核算的概念已經(jīng)提出很多年,但為什么還沒有哪個國家真正公布綠色GDP數(shù)據(jù),原因就是自然資源價值、生態(tài)環(huán)境價值等的統(tǒng)計測度目前還面臨著很大的困難,其背后存在著一系列有待進一步研究和解決的理論與實踐問題,因此不少學者進行了替代測度的探討。這一方面說明統(tǒng)計測度的重要性,另一方面說明統(tǒng)計測度替代的無奈性。但是,替代測度必須遵守相應的規(guī)則與邏輯,要經(jīng)得起推敲。有的文獻明明知道有關變量無法測度、有關數(shù)據(jù)無法獲得,卻隨意地、不符合邏輯地進行所謂的替代,結果是最后的結論不知替代成什么樣了,很難理解它的意義。關于替代測度的有效性問題,邱東教授[7]已有精辟的論述,在此不再展開討論。
三、統(tǒng)計測度是數(shù)據(jù)科學的基礎
籠統(tǒng)地講,數(shù)據(jù)科學就是以大數(shù)據(jù)為研究對象的科學,需要多學科交叉融合、共同支撐。由于大數(shù)據(jù)是快速增長的復雜數(shù)據(jù),因此大數(shù)據(jù)分析僅有統(tǒng)計思維與統(tǒng)計分析方法是不夠的,還需要強大的數(shù)據(jù)處理能力與計算能力。只有把統(tǒng)計思維、統(tǒng)計方法與計算技術結合起來,才有可能真正挖掘出大數(shù)據(jù)中的有價值信息。本文認為統(tǒng)計思維、統(tǒng)計方法與計算技術相結合的基礎就是科學的統(tǒng)計測度。
首先,大數(shù)據(jù)技術不能自行解決其計算和分析應從何處著手的問題?,F(xiàn)代信息技術與互聯(lián)網(wǎng)、物聯(lián)網(wǎng)技術的快速發(fā)展,使人類進入大數(shù)據(jù)時代,也有人說進入到數(shù)聯(lián)網(wǎng)時代,這意味著我們一方面被各種越來越多、越來越復雜的數(shù)據(jù)所包圍,另一方面又被數(shù)據(jù)中巨大的信息價值所吸引,想從中挖掘出可供決策之用的信息。如何挖掘大數(shù)據(jù)?人們已經(jīng)進行了艱苦的探索,發(fā)展了很多專門的方法技術,并已嘗到了不少甜頭,但遠未達到充分利用大數(shù)據(jù)中有效信息的目的,因為已有的大數(shù)據(jù)分析研究主要集中于計算機科學與技術、軟件工程、計算數(shù)學等領域,重點是計算能力與算法研究,而很少從統(tǒng)計學的角度進行有針對的探討,還沒有真正進入數(shù)據(jù)分析的深層。這里面實際上忽略了最基礎的統(tǒng)計測度問題。如果說,計算技術的發(fā)展能夠解決數(shù)據(jù)儲存與計算的能力問題,算法模型的改進能夠解決大數(shù)據(jù)分析的綜合能力問題,那么它們仍然不能解決對誰進行計算與分析的問題,也即從何處著手的問題。無論是傳統(tǒng)的結構型數(shù)據(jù),還是現(xiàn)在的包含大量非結構型數(shù)據(jù)的大數(shù)據(jù),要對它們進行分析都必須找到正確的切入口,即分析的基本元素是什么,或者說需要測度什么。當然,還有如何測度的問題。然后,才能進行分組、綜合和構建模型,否則大數(shù)據(jù)分析不會達到人們的預期。
其次,大數(shù)據(jù)之所以催生數(shù)據(jù)科學,就是為了通過多學科交叉融合來共同解決大數(shù)據(jù)分析中存在的問題,其中包括統(tǒng)計測度問題,這一點對于非結構化數(shù)據(jù)尤為突出。實際上,大數(shù)據(jù)的本質就是非結構化數(shù)據(jù),一是體量大、比重高(超過95%),二是變化快、形式多,三是內容雜、不確定。通過各種社交網(wǎng)絡、自媒體、富媒體,以及人機對話和機器感應記錄等產(chǎn)生的各種非結構化數(shù)據(jù),例如各種文字、各種表情符號、各種聲音、各種圖像,到底表示什么?綜合在一起能體現(xiàn)什么規(guī)律?如何綜合各種信息?存在著大量有待研究的問題。其實,文字的長短、用詞、表達形式(敘述式、議論式、散文式、詩歌式,等)甚至字體大小與顏色,表情類型與偏好,聲音高低、頻率與情緒,圖像顏色等等,都是有特定意義的,即在特定環(huán)境條件下的反應。所以,一句話或一段聲音的意義并非文字本身的意思,一個表情符號的意義并非符號表征的意思,一個圖像的意義并非圖像內容與色彩本身的意思,因為背后有太多的未知。人們?yōu)g覽檢索各種信息的習慣、收看與回復郵件等信息的習慣、參與信息網(wǎng)絡的習慣、購物習慣與支付習慣等等,也是如此。更何況,同樣的網(wǎng)絡詞匯在不同的時間代表著不同的語義。這背后隱藏著的是人們的行為與社會關系,既具有個性又具有共性,極其復雜。所以對這樣的數(shù)據(jù)進行分析,首先絕非是計算問題,也不是用什么模型問題,而首先是從何處著手、如何選取關鍵詞、如何選定關聯(lián)詞、可以用什么樣的指標來綜合、可以用什么樣的表式來表現(xiàn)等問題,一句話就是統(tǒng)計測度問題。非結構化數(shù)據(jù)的統(tǒng)計測度將主要是定義測度,這些問題不解決,分析模型也是難以構建的,或者難以得出令人信服的結論。
例如,關于《紅樓夢》前80回與后40回是否同一作者的爭論,韋博成[10]進行了綜合性的比較研究并提出了自己的觀點,他指出已有美國威斯康辛大學華裔學者陳炳藻教授(1980)[11]、我國華東師范大學陳大康教授(1987年)[12]和復旦大學李賢平教授(1987年)[13]等學者從統(tǒng)計學的角度進行過專門的研究,但卻得出了不同的結論:陳炳藻教授認為前80回與后40回均是曹雪芹所著;陳大康教授認為前80回與后40回為不同人所著;李賢平教授認為前80回是曹雪芹根據(jù)《石頭記》增刪而成,后40回是曹雪芹親友搜集整理原稿加工補寫而成。此外,還有其他一些學者進行過類似的研究,也有一些不同的結論。為什么都通過提取關聯(lián)詞和統(tǒng)計的方法卻得出不同的結論?原因就在于用以分析的關聯(lián)詞不同,即統(tǒng)計測度的切入點不同,當然也有統(tǒng)計方法上的差異,但前者是根本。至少存在幾個統(tǒng)計測度上的問題:提取單一維度的關聯(lián)詞還是多維度的關聯(lián)詞?提取什么類型的關聯(lián)詞(例如:關聯(lián)詞是名詞、形容詞還是動詞;是花卉、樹木、飲食、醫(yī)藥還是詩詞)?這些關聯(lián)詞可以綜合為什么樣的指標?等等。由此可見,原始統(tǒng)計測度代表著數(shù)據(jù)分析的方向。
相比《紅樓夢》,大數(shù)據(jù)分析要復雜得多、困難得多。所以,數(shù)據(jù)科學除了需要數(shù)學、統(tǒng)計學、計算機科學與技術、人工智能等學科的交叉融合外,還需要與行為科學、語言學、社會學、經(jīng)濟學等學科相結合,以便能很好地解決作為數(shù)據(jù)分析之前提的統(tǒng)計測度問題。
第三,數(shù)據(jù)科學將進一步拓展統(tǒng)計測度的邊界,并提出更高的要求。伴隨著人類認識世界的范圍的不斷拓展,統(tǒng)計測度的范圍也不斷擴大,從自然現(xiàn)象統(tǒng)計測度到人口現(xiàn)象、經(jīng)濟現(xiàn)象統(tǒng)計測度,再到社會現(xiàn)象、環(huán)境現(xiàn)象、政治現(xiàn)象等統(tǒng)計測度,幾乎已經(jīng)滲透到了所有可以想象到的領域。相應地,統(tǒng)計數(shù)據(jù)分析也從少量數(shù)據(jù)的分析進入到了大數(shù)據(jù)分析。大數(shù)據(jù)的復雜性、不確定性和涌現(xiàn)性(王元卓等,2013)[14],意味著統(tǒng)計測度的內容大大增加,原來一些不能測度的數(shù)據(jù)被納入到了統(tǒng)計測度的范圍,按照邱東教授的說法就是統(tǒng)計測度的邊界大大擴展了。統(tǒng)計測度邊界的擴大,必須以統(tǒng)計測度能力的提升為前提,即要求統(tǒng)計學借助現(xiàn)代信息技術進一步提升處理和分析數(shù)據(jù)的能力———對大數(shù)據(jù)“化繁為簡”、“變厚為薄”的能力,這就必須以科學準確的大數(shù)據(jù)統(tǒng)計測度為前提,既改變統(tǒng)計思維,又創(chuàng)新統(tǒng)計分析方法,其中就包括統(tǒng)計測度思維、統(tǒng)計測度方法與統(tǒng)計測度標準。面對大量繁雜的數(shù)據(jù),如果沒有更好的統(tǒng)計測度思路與方法,包括個體標志定義方法、最小數(shù)據(jù)細胞分組與聚類方法、關聯(lián)詞含義的時間影響計量方法、定性測度指標篩選方法、再測度路徑與方法、大數(shù)據(jù)統(tǒng)計測度評價標準等,那么統(tǒng)計學在數(shù)據(jù)科學發(fā)展過程中就難以發(fā)揮應有的作用,數(shù)據(jù)科學也將裹足不前。這就是統(tǒng)計學邁向數(shù)據(jù)科學的重要挑戰(zhàn)之一。
綜上所述,統(tǒng)計測度的基礎性問題從統(tǒng)計學延伸到了數(shù)據(jù)科學,是兩者的共同基礎,并且對于數(shù)據(jù)科學而言顯得更為重要。大數(shù)據(jù)的復雜性、不確定性和涌現(xiàn)性導致了統(tǒng)計測度的難度猛增,亟需建立面向大數(shù)據(jù)分析的統(tǒng)計測度理論與方法。要通過研究大數(shù)據(jù)的復雜性、不確定性和涌現(xiàn)性特征的基本因素,以及這些因素之間的內在聯(lián)系、外在指標和測度方法,進而研究基于先進計算技術的大數(shù)據(jù)度量模型,構建尋找面向計算的數(shù)據(jù)內核或者數(shù)據(jù)邊界的基本方法。總之,建立有效易行的數(shù)據(jù)表示方法,即科學的統(tǒng)計測度方法,是數(shù)據(jù)科學必須解決的基礎問題之一。
四、創(chuàng)新與完善大數(shù)據(jù)統(tǒng)計測度方法
如前所述,統(tǒng)計學研究對象已經(jīng)從結構化數(shù)據(jù)延伸到了包括非結構化數(shù)據(jù)在內的一切數(shù)據(jù),統(tǒng)計測度邊界得到了大大的擴展。按照邱東教授[7]曾經(jīng)引用過的海德格爾的話:“界限并不表示某一事物的發(fā)展到此為止,而是像希臘人所認知的那樣,界限是某種事物開始展現(xiàn)的地方”,預示著統(tǒng)計學在數(shù)據(jù)科學發(fā)展階段的新起點已經(jīng)展現(xiàn)在我們面前。新的統(tǒng)計測度邊界催生統(tǒng)計測度方法的創(chuàng)新,統(tǒng)計測度方法的創(chuàng)新促進統(tǒng)計測度邊界的拓展,兩者相輔相成,共同推動統(tǒng)計學與數(shù)據(jù)科學的發(fā)展。為此,我們要系統(tǒng)梳理統(tǒng)計測度方法的發(fā)展歷程,面對大數(shù)據(jù)提出的新挑戰(zhàn),大膽探索統(tǒng)計測度的新思路、新理論和新方法,為數(shù)據(jù)科學奠定堅實的統(tǒng)計學基礎。為此提出如下幾點建議:
首先,要緊密結合現(xiàn)象的本質去探求更科學的統(tǒng)計測度方法。本質決定一切,既然統(tǒng)計測度的目的是獲得客觀反映現(xiàn)象本質的數(shù)據(jù),那么深入到現(xiàn)象本質、認識和掌握現(xiàn)象的本質,是科學統(tǒng)計測度的關鍵,也是探求新的統(tǒng)計方法的出發(fā)點。換句話說,科學的統(tǒng)計測度方法能夠體現(xiàn)出數(shù)據(jù)的真正意義。例如,要探求社交網(wǎng)絡數(shù)據(jù)的統(tǒng)計分析和測度方法,就必須了解社交網(wǎng)絡的產(chǎn)生背景、構成要素、表現(xiàn)形式與基本特征,既要研究它的共性問題,又要研究它的個性問題與差異性,同時還要研究它的變化趨勢。只有這樣,才能掌握社交網(wǎng)絡數(shù)據(jù)的構成要件或元素,才能建立起科學的、能有效體現(xiàn)社交網(wǎng)絡數(shù)據(jù)意義的統(tǒng)計測度方法。再如,要分析研究電子商務數(shù)據(jù),也必須先弄清楚什么是電子商務,尤其是弄清楚它與傳統(tǒng)的商業(yè)模式有什么不同(包括物流、資金流與信息流)、有哪些新生事物(包括時空特征、法律監(jiān)管)等等,否則統(tǒng)計測度無從下手或者抓不住要害。同時,作為一個新的研究領域,數(shù)據(jù)科學的理論基礎將與計算機科學、統(tǒng)計學、人工智能、數(shù)學、社會科學等有關,離不開對相關學科領域知識與研究方法的借鑒,因此對相關領域的知識與研究方法的學習十分重要。否則,就會嚴重扭曲統(tǒng)計測度方法,胡亂設置測度標志,這需要引起高度關注。
其次,要緊密結合大數(shù)據(jù)的特點去創(chuàng)新統(tǒng)計測度方法。大數(shù)據(jù)的特點是復雜性、不確定性和涌現(xiàn)性并存,構成了多維的數(shù)據(jù)空間,里面蘊藏著豐富的信息資源,這是傳統(tǒng)的統(tǒng)計數(shù)據(jù)不可比擬的。那么該從何處進入這樣的數(shù)據(jù)空間?怎么進去?又怎么出來?這歸根結底還是統(tǒng)計測度方法問題。因此,在開展大數(shù)據(jù)分析之前,首先要研究大數(shù)據(jù)的基礎性問題,包括大數(shù)據(jù)的內在機理(包括大數(shù)據(jù)的演化與傳播機制、生命周期),數(shù)據(jù)科學與社會學、經(jīng)濟學、行為科學等之間的互動機制,以及大數(shù)據(jù)的結構與效能的規(guī)律性等等,為創(chuàng)新統(tǒng)計測度方法提供導向。本文認為,再復雜的數(shù)據(jù)也有共性,再不確定的數(shù)據(jù)也有規(guī)律,再涌現(xiàn)的數(shù)據(jù)也有軌跡。網(wǎng)絡大數(shù)據(jù)背后的網(wǎng)絡平均路徑長度、度分布、聚集系數(shù)、核數(shù)、介數(shù)等具有共性的特征與參數(shù),是開展復雜網(wǎng)絡數(shù)據(jù)分析的基礎(李國杰、程學旗,2012)[15];大數(shù)據(jù)在時空維度上的分布形式、內在結構、動態(tài)變化和相關聯(lián)的規(guī)律,是找到大數(shù)據(jù)分析切入口、進而簡化大數(shù)據(jù)表征的前提;大數(shù)據(jù)的涌現(xiàn)性軌跡(包括模式涌現(xiàn)性、行為涌現(xiàn)性和智慧涌現(xiàn)性),是研究更多的社會網(wǎng)絡模型和理解網(wǎng)絡瓦解失效原因,理解人們網(wǎng)絡行為涌現(xiàn)特征(例如人們發(fā)郵件數(shù)量的時間分布特征),以及探求大量自發(fā)個體語義融合連接形成有特定意義的通用語義之過程的路徑(靳小龍等,2013)[16]。也就是說,這些共性、規(guī)律和軌跡就是統(tǒng)計測度的主要依據(jù),也是重點內容。發(fā)展和創(chuàng)新能夠準確發(fā)現(xiàn)大數(shù)據(jù)的共性、規(guī)律和軌跡的定量方法,其實就是發(fā)展和創(chuàng)新大數(shù)據(jù)統(tǒng)計測度方法。
第三,要緊密結合現(xiàn)代信息技術以完善統(tǒng)計測度方法。復雜、多變和不斷涌現(xiàn)的大數(shù)據(jù),不僅需要借助現(xiàn)代信息技術(包括硬件與軟件)來解決極其復雜的分析計算問題,也需要利用現(xiàn)代信息技術來解決其繁雜多樣的統(tǒng)計測度問題。對于大數(shù)據(jù),不論是原始統(tǒng)計測度還是再測度,其復雜性或難度都不是傳統(tǒng)的結構化數(shù)據(jù)所能相提并論的,哪怕是基本的關聯(lián)詞計數(shù)、分類與匯總,其工作量之大也超乎想象,不借用現(xiàn)代信息技術幾乎是不可能完成的。而事實上,有些統(tǒng)計測度的內容與方法本身也是以數(shù)據(jù)處理能力的提升為前提的??梢哉f,脫離現(xiàn)代信息技術,人們難以承受大數(shù)據(jù)的統(tǒng)計測度與分析任務;要把統(tǒng)計測度思想變?yōu)榭蓪崿F(xiàn)的統(tǒng)計測度方法,必須借助現(xiàn)代信息技術。為此,要充分利用各種信息技術和手段,把統(tǒng)計測度與數(shù)據(jù)清洗相結合、與數(shù)據(jù)分析模型相結合、與計算方法相結合,努力建立融自動搜索統(tǒng)計測度、動態(tài)演化統(tǒng)計測度和自主優(yōu)選統(tǒng)計測度為一體的大數(shù)據(jù)統(tǒng)計測度方法體系。