网站首页
教育杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
医学杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
经济杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
金融杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
管理杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
科技杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
工业杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
SCI杂志
中科院1区 中科院2区 中科院3区 中科院4区
全部期刊
公務(wù)員期刊網(wǎng) 精選范文 測度論在統(tǒng)計學(xué)中的應(yīng)用范文

測度論在統(tǒng)計學(xué)中的應(yīng)用精選(九篇)

前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的測度論在統(tǒng)計學(xué)中的應(yīng)用主題范文,僅供參考,歡迎閱讀并收藏。

測度論在統(tǒng)計學(xué)中的應(yīng)用

第1篇:測度論在統(tǒng)計學(xué)中的應(yīng)用范文

關(guān)鍵詞:統(tǒng)計測度;統(tǒng)計學(xué);大數(shù)據(jù);數(shù)據(jù)科學(xué);

作者簡介:李金昌,男,50歲,浙江義烏人。浙江財經(jīng)大學(xué)校長,統(tǒng)計學(xué)教授,博士生導(dǎo)師。研究方向為經(jīng)濟統(tǒng)計學(xué),統(tǒng)計理論與方法,抽樣技術(shù),政府統(tǒng)計等。

最近兩年,統(tǒng)計學(xué)界對大數(shù)據(jù)問題所進(jìn)行的理論探討逐漸增多,視角也各有千秋,引起了一些共鳴。圍繞大數(shù)據(jù)問題,由統(tǒng)計學(xué)、計算機科學(xué)、人工智能、數(shù)學(xué)等學(xué)科共同支撐的數(shù)據(jù)科學(xué)開始形成。但大數(shù)據(jù)畢竟是一個新課題,因此遠(yuǎn)未達(dá)到對其有一個系統(tǒng)完整的認(rèn)識,仍然需要從不同的方面加以研究,其中有一個重要但又容易被忽視的問題,即統(tǒng)計測度問題,值得去探討。

一、什么是統(tǒng)計測度

漢語上,測度是指猜測、揣度、估計。數(shù)學(xué)上,測度是一個函數(shù),它對一個給定集合的某些子集指定一個數(shù),這個數(shù)可以比作大小、體積、概率等等。通俗地說,測度把每個集合映射到非負(fù)實數(shù)來規(guī)定這個集合的大?。嚎占臏y度是0;集合變大時測度至少不會減小(因為要加上變大的部分的測度,而它是非負(fù)的)。

除了數(shù)學(xué)角度的測度論,查閱國內(nèi)文獻(xiàn)資料,帶有測度這個詞匯的文獻(xiàn)不少,但專門針對統(tǒng)計測度(或測度)內(nèi)涵的討論幾乎沒有。一些對社會經(jīng)濟現(xiàn)象進(jìn)行分析測度的文獻(xiàn),例如新型工業(yè)化進(jìn)程測度、貨幣流動性測度、全面小康社會發(fā)展進(jìn)程測度、收入分配公平性測度、技術(shù)效率測度、人力資本測度、金融風(fēng)險測度、產(chǎn)業(yè)關(guān)聯(lián)測度等等,所做的測度都是再測度,均不對測度本身進(jìn)行討論。查閱國外文獻(xiàn)資料(關(guān)鍵詞:measurement),也同樣存在這樣的問題,只能收集到一些比較零散的表述。LudwikFinkelstein(1975)[1]認(rèn)為,在我們對事物或現(xiàn)象進(jìn)行描述時,測度可以被定義為對現(xiàn)實世界中某一現(xiàn)象的個體屬性或特征進(jìn)行量化的過程。JamesT.Townsend和F.GregoryAshby(1984)[2]認(rèn)為,如果按照極端的觀點,那么統(tǒng)計分析中的基本測度理論的含義仍然是存在爭議的。LudwikFinkelstein(2003)[3]指出,測度在那些原來尚未得到卓有成效或廣泛應(yīng)用的領(lǐng)域,也已取得了明顯的進(jìn)步,社會、政治、經(jīng)濟和行為科學(xué)正在更大程度地利用定量技術(shù);測度是現(xiàn)代思維的一種實際有效的工具,是我們借以描述世界的一種方法。GiovanniBattistaRossi(2007)[4]認(rèn)為,用以表示測度結(jié)果的,是數(shù)字或者數(shù)字符號。LucaMari(2013)[5]認(rèn)為,測度的基礎(chǔ)特征是被公認(rèn)為世界上獲取并正式表達(dá)信息的基本方法,這讓它成為一種跨學(xué)科的工具。LudwikFinkelstein(2014)[6]指出,在自然科學(xué)技術(shù)中,測度的重要性不可否認(rèn),它是科學(xué)調(diào)查和發(fā)現(xiàn)必不可少的工具,它可將宇宙中的復(fù)雜現(xiàn)象用精確、簡潔和普遍的數(shù)學(xué)語言來描述。

那么,到底什么是統(tǒng)計測度呢?目前沒有一個統(tǒng)一的定義。本文認(rèn)為,統(tǒng)計測度具有不同于測度的意義,并且大大超越數(shù)學(xué)上的界定,即它具有數(shù)學(xué)定義的一般屬性,但又不受制于函數(shù)表現(xiàn)形式,因為統(tǒng)計測度所要面對的是現(xiàn)實世界,實際問題要比理論上可以定義的問題復(fù)雜得多。按照我們的理解,統(tǒng)計測度就是用一定的符號和數(shù)字,用一定的形式和載體,對所研究的現(xiàn)象或事物的特征進(jìn)行量化反映,表現(xiàn)為可用于統(tǒng)計分析的數(shù)據(jù)的過程。它應(yīng)該具有這樣一些屬性:以實際現(xiàn)象為測度對象,測度結(jié)果具有實際意義;以量化為目的,把信息轉(zhuǎn)化為數(shù)量,提供人們?nèi)菀桌斫獾亩拷Y(jié)論;個體特征的測度符合形成總體定量結(jié)論的要求,同時能夠體現(xiàn)個體差異。可以發(fā)現(xiàn),統(tǒng)計測度需要借用數(shù)學(xué)工具,但更重要的是對具體測度現(xiàn)象本質(zhì)特征的認(rèn)識和掌握。

統(tǒng)計測度可以從若干不同角度進(jìn)行分類。邱東教授(2012)[7]曾在“宏觀測度的邊界悖律及其意義”一文中,從邊界的角度對宏觀測度進(jìn)行了分類:一是因事物本身可測度性而形成的邊界,即本體論意義上的測度邊界;再一是由人的認(rèn)知能力而形成的邊界,即認(rèn)識論意義上的測度邊界;第三則是由統(tǒng)計相關(guān)性偏好和投入約束而形成的邊界,即操作意義上的測度邊界。這三條測度邊界,應(yīng)該以本體論意義的測度邊界最大,認(rèn)識論意義的測度邊界次之,而操作意義的測度邊界最小。這樣的分類,對于我們正確理解統(tǒng)計測度的內(nèi)涵很有幫助。受此啟發(fā),筆者認(rèn)為統(tǒng)計測度還可以有如下分類:

1.從測度的實現(xiàn)形式看,可以分為原始測度和再測度。原始測度也可以稱為直接測度,它通過對測度對象進(jìn)行直接測度來獲取數(shù)據(jù),例如清點庫存物品數(shù)量、丈量作物播種面積、觀察培育細(xì)菌數(shù)目、檢測藥物成分等獲得的數(shù)據(jù),以及各種登記、記錄的原始數(shù)據(jù)等等。再測度也稱為間接測度,它以其他已知的測度數(shù)據(jù)為基礎(chǔ)去計算、推算或預(yù)測所需的未知數(shù)據(jù),例如根據(jù)GDP和人口數(shù)測度人均GDP、根據(jù)人口普查分年齡人口數(shù)據(jù)測度老齡化系數(shù)和社會負(fù)擔(dān)系數(shù)、根據(jù)相關(guān)指標(biāo)數(shù)據(jù)測度CPI的變化等等。復(fù)雜的再測度則需要借助相應(yīng)的統(tǒng)計模型作為工具,因為它實際上是對相關(guān)變量之間的關(guān)系進(jìn)行定量反映。從兩者關(guān)系上看,原始測度是基礎(chǔ),是根本,沒有科學(xué)的原始測度就不會有可靠的再測度;再測度則是測度功能提升的必然要求,以解決原始測度不能解決的問題。

2.從測度的計量方式看,可以分為自然測度、物理測度、化學(xué)測度、時間測度和價值測度。自然測度是利用現(xiàn)象的自然屬性所進(jìn)行的一種統(tǒng)計測度,例如人口規(guī)模、企業(yè)數(shù)量等的測度,采用自然計量單位;物理測度是利用現(xiàn)象的物理屬性所進(jìn)行的一種統(tǒng)計測度,例如公路長度、作物播種面積、天然氣產(chǎn)量等的測度,采用物理計量單位;化學(xué)測度是利用現(xiàn)象的化學(xué)屬性所進(jìn)行的一種統(tǒng)計測度,例如醫(yī)學(xué)、生物學(xué)中化學(xué)合成物的成分結(jié)構(gòu)測度,采用百分?jǐn)?shù)、千分?jǐn)?shù)或特定標(biāo)識為計量單位;時間測度是利用現(xiàn)象的時間屬性所進(jìn)行的一種統(tǒng)計測度,例如勞動用工、閑暇時間等測度,采用時間計量單位;價值測度是利用現(xiàn)象的價值屬性所進(jìn)行的一種統(tǒng)計測度,例如勞動報酬、經(jīng)濟活動成果等測度,采用貨幣計量單位。在這些測度計量方式中,價值測度因最具有綜合功能而應(yīng)用最為廣泛。

3.從測度的方法看,可以分為計數(shù)測度、測量測度、實驗測度、定義測度和模型測度。計數(shù)測度是一種通過觀測計數(shù)來獲得數(shù)據(jù)的方法,最為簡單,一般用于自然測度或時間測度;測量測度是一種根據(jù)物理或化學(xué)規(guī)制對現(xiàn)象進(jìn)行測量、測算來獲得數(shù)據(jù)的方法,一般用于物理測度或化學(xué)測度;實驗測度是一種按照科學(xué)實驗原理、通過觀察實驗對象在既定條件下的反應(yīng)來獲得數(shù)據(jù)的方法,一般與測量測度相結(jié)合,用于獲取科學(xué)研究數(shù)據(jù);定義測度也可以稱之為指標(biāo)測度,是一種通過探究現(xiàn)象的本質(zhì)特征和活動規(guī)律、歸納出表現(xiàn)其數(shù)量特征的范疇、給出統(tǒng)計指標(biāo)定義(包括內(nèi)容、口徑、計算方法和表現(xiàn)形式等)來獲取數(shù)據(jù)的方法,最常用于價值測度,也用于其他形式的測度。可以說,定義測度方法應(yīng)用最為廣泛,但也最為困難。模型測度是一種根據(jù)現(xiàn)象與現(xiàn)象之間的內(nèi)在聯(lián)系關(guān)系、或者現(xiàn)象自身的發(fā)展變化規(guī)律,通過建立一定的方程模型來獲取數(shù)據(jù)的方法。前面三種統(tǒng)計測度方法基本上都屬于直接測度,定義測度既可能是直接測度、也可能是間接測度,而模型測度都屬于間接測度方法。

4.從測度的維度看,可以分為單一測度與多維測度。單一測度是指采用單一的方式方法對所研究現(xiàn)象或事物進(jìn)行單一角度的測度,獲得單一的數(shù)據(jù)。多維測度是指對所研究現(xiàn)象或事物進(jìn)行多角度的測度,測度過程中可能需要采用多種測度方法和計量方式,例如多指標(biāo)綜合評價就需要借助統(tǒng)計指標(biāo)體系對評價對象進(jìn)行多角度的測度。顯然,單一測度是多維測度的基礎(chǔ)。

二、統(tǒng)計測度是統(tǒng)計學(xué)的立足之本

首先,從統(tǒng)計學(xué)的發(fā)展歷史看,是統(tǒng)計測度使統(tǒng)計學(xué)破繭而出。為什么主流觀點認(rèn)為政治算術(shù)是統(tǒng)計學(xué)的起源而不是國勢學(xué)?正是因為威廉·配第首次采用統(tǒng)計測度的方式進(jìn)行了國家實力的統(tǒng)計分析和有關(guān)推算,得出了令人信服的結(jié)論。威廉·配第在1693年出版的《政治算術(shù)》[8]中寫道“因為和只使用比較級或最高級的詞匯以及單純作思維的論證相反,我卻采用了這樣的方法(作為我很久以來就想建立的政治算術(shù)的一個范例),即用數(shù)字、重量和尺度的詞匯來表達(dá)我自己想說的問題,只進(jìn)行能訴諸人們的感官的論證和考察在性質(zhì)上有可見的根據(jù)的原因”,這一觀點在統(tǒng)計學(xué)的發(fā)展過程中產(chǎn)生了非常重要的影響。他的這段話雖然沒有出現(xiàn)測度一詞,但卻道出了測度的本質(zhì),即讓事物變得明白、變得有根據(jù),因為“數(shù)字、重量和尺度”就是測度、就是根據(jù),用“數(shù)字、重量和尺度的詞匯來表達(dá)想說的問題”就是一種測度的思想,盡管測度的方式方法還很簡單。相反,國勢學(xué)雖然提出了歸納法這一統(tǒng)計學(xué)的基本方法并首創(chuàng)了統(tǒng)計學(xué)一詞,但由于沒有采用統(tǒng)計測度的方式進(jìn)行國勢問題的研究而難以修成正果。正如邱東教授[7]所說:“在配第之前,統(tǒng)計學(xué)的研究對象雖然是國家的態(tài)勢,但它在方法論上只是定性言說。一個國家的財富總量在本體論意義上是可以測度的。然而只是到了配第時期,人類才想到了要測度它,并發(fā)明了如何測度的基本方法。政治算術(shù),即開創(chuàng)期的經(jīng)濟統(tǒng)計學(xué),實現(xiàn)了從無到有的轉(zhuǎn)變,大大擴展了宏觀測度的認(rèn)識論邊界,因而才具有了統(tǒng)計學(xué)范式創(chuàng)新的革命性意義。”同樣,格朗特的《關(guān)于死亡表的自然觀察和政治觀察》也是人口統(tǒng)計測度方面的經(jīng)典之作,無論是原始測度還是再測度,都給后人留下了寶貴的財富。之后,統(tǒng)計學(xué)就是沿著如何更加科學(xué)、準(zhǔn)確測度世界這一主線而發(fā)展的。筆者曾在“從政治算術(shù)到大數(shù)據(jù)分析”一文[9],對數(shù)據(jù)的變化與統(tǒng)計分析方法的發(fā)展進(jìn)行了粗淺的歸納,其主題實際上就是統(tǒng)計測度問題。

其次,從統(tǒng)計學(xué)的研究對象上看,統(tǒng)計測度是體現(xiàn)統(tǒng)計學(xué)數(shù)量性特征的前提條件。統(tǒng)計學(xué)的研究對象是現(xiàn)象的數(shù)量方面,或者說統(tǒng)計學(xué)是關(guān)于如何收集和分析數(shù)據(jù)的科學(xué)。統(tǒng)計數(shù)據(jù)從何而來?從統(tǒng)計測度中來。數(shù)據(jù)不同于數(shù)字,數(shù)字是統(tǒng)計測度的符號,數(shù)據(jù)是統(tǒng)計測度的結(jié)果,這也正是統(tǒng)計學(xué)區(qū)別于數(shù)學(xué)之處。所以說,數(shù)據(jù)的本質(zhì)問題就是統(tǒng)計測度問題,故此統(tǒng)計測度是統(tǒng)計學(xué)的基本問題。這里重點討論兩個問題:一是統(tǒng)計測度與統(tǒng)計指標(biāo)的關(guān)系,二是統(tǒng)計測度面臨的新問題。關(guān)于第一個問題,本文認(rèn)為統(tǒng)計測度與統(tǒng)計指標(biāo)是一個事物的兩個方面,這個事物就是數(shù)據(jù)。統(tǒng)計指標(biāo)法是統(tǒng)計學(xué)的基本方法之一,盡管前面對統(tǒng)計測度從方式方法上進(jìn)行了分類,但從廣義上說所有統(tǒng)計測度都是定義測度,都表現(xiàn)為指標(biāo)。也就是說,任何統(tǒng)計測度———不論是直接測度還是間接測度,最終目的是獲得能夠讓人明白的數(shù)據(jù),而表現(xiàn)數(shù)據(jù)的最主要形式就是統(tǒng)計指標(biāo),其他表現(xiàn)數(shù)據(jù)的形式都是派生出來的。所以,統(tǒng)計測度就是根據(jù)所設(shè)定的統(tǒng)計指標(biāo)去獲得所需的數(shù)據(jù)。關(guān)于第二個問題,與后文所要論及的大數(shù)據(jù)有關(guān),就是定性測度問題。在統(tǒng)計學(xué)中,數(shù)據(jù)可以分為兩類———定性數(shù)據(jù)與定量數(shù)據(jù),其中定性數(shù)據(jù)又包括定類數(shù)據(jù)與定序數(shù)據(jù)兩種,它們屬于非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)。相應(yīng)地,統(tǒng)計測度也可分為定性測度與定量測度。很顯然,只有定性測度與定量測度方法得到同步發(fā)展,統(tǒng)計學(xué)才能更加完善??傮w上看,定量數(shù)據(jù)的統(tǒng)計測度已經(jīng)比較完善,但定性數(shù)據(jù)的統(tǒng)計測度還有很多問題尚待解決,難點就在于測度的切入點———如何提取有效的信息、如何最終轉(zhuǎn)化為統(tǒng)計指標(biāo)。盡管關(guān)于定性數(shù)據(jù)分析的論著已經(jīng)不少,但還沒有從理論方法上建立起定性數(shù)據(jù)統(tǒng)計測度的體系,因此統(tǒng)計學(xué)在這方面的任務(wù)依然很重。

第三,從統(tǒng)計學(xué)的永恒主題看,通過科學(xué)的數(shù)據(jù)分析、得出有效的結(jié)論是其不變的追求,而數(shù)據(jù)分析過程就是綜合的統(tǒng)計測度過程。獲得數(shù)據(jù)的目的是為了發(fā)現(xiàn)隱含其中的有價值的信息,即發(fā)現(xiàn)數(shù)據(jù)背后的數(shù)據(jù),讓數(shù)據(jù)再生數(shù)據(jù),從而滿足人們認(rèn)識事物、掌握規(guī)律、科學(xué)決策的需要。除了總量、結(jié)構(gòu)等基本信息外,更重要的是通過數(shù)據(jù)分析來呈現(xiàn)現(xiàn)象的變化規(guī)律與相互關(guān)系。不難發(fā)現(xiàn),這種數(shù)據(jù)分析的過程,就是不斷進(jìn)行各種統(tǒng)計測度的過程,所以最終的統(tǒng)計分析結(jié)果實際上就是各環(huán)節(jié)、各方面的各種類型的統(tǒng)計測度的疊加結(jié)果,或者說是統(tǒng)計測度不斷放大的過程。大量針對社會經(jīng)濟現(xiàn)象進(jìn)行分析研究的文獻(xiàn)(不論是否冠以“測度”兩字),只要有數(shù)據(jù)分析,都是如此??梢哉f,統(tǒng)計測度貫穿于統(tǒng)計數(shù)據(jù)分析的全過程。但是,為什么很多統(tǒng)計數(shù)據(jù)分析并沒有得出有效的結(jié)論呢?本文認(rèn)為原因就出在統(tǒng)計測度上,尤其是沒有首先解決好原始統(tǒng)計測度問題。應(yīng)該說,圍繞數(shù)據(jù)分析已經(jīng)建立起一整套比較完整的統(tǒng)計方法體系,很多方法也都身經(jīng)百戰(zhàn)、行之有效,但一旦原始統(tǒng)計測度有問題、數(shù)據(jù)不準(zhǔn)確或不真實,那么任何方法都只是擺設(shè)。仔細(xì)研讀很多所謂的實證分析文獻(xiàn),其重點均在于構(gòu)建什么樣的模型或運用什么樣的方法,雖然有的文獻(xiàn)也必須要討論選擇什么樣的變量(指標(biāo))這個問題,但并不是系統(tǒng)地從測度的角度進(jìn)行闡述,因此所用的模型越來越復(fù)雜,但所得的結(jié)論卻離實際情況越來越遠(yuǎn)。學(xué)界總是有這樣一種觀念:變量越多、符號越新奇、模型越復(fù)雜的文章才越有水平,似乎這樣分析所得的結(jié)論才越可靠。殊不知,不以科學(xué)可靠的原始統(tǒng)計測度為基礎(chǔ),任何數(shù)據(jù)分析都會成為無源之水、無本之木,所得的結(jié)論也只是更精確的錯誤而已。本文認(rèn)為,任何脫離科學(xué)統(tǒng)計測度的統(tǒng)計分析都是毫無意義的,充其量是一種數(shù)字游戲而已。應(yīng)該樹立這樣一種觀念:科學(xué)的統(tǒng)計數(shù)據(jù)分析首先取決于科學(xué)的統(tǒng)計測度,而不是首先取決于什么樣的分析模型,雖然模型也很重要。這也再一次證明,統(tǒng)計測度問題是統(tǒng)計學(xué)的根本問題。其實,歸根結(jié)底看,在統(tǒng)計數(shù)據(jù)分析過程中,每一步分析都以前一步的測度為原始測度,每一步所用的方法都是統(tǒng)計測度方法,因此所有的統(tǒng)計分析方法都是統(tǒng)計測度方法。甚至可以說,統(tǒng)計學(xué)方法體系就是統(tǒng)計測度方法體系。

當(dāng)然,在實際的統(tǒng)計分析中,統(tǒng)計測度往往遇到一些困難,即有些指標(biāo)數(shù)據(jù)由于各種原因無法獲得,這就不得不采用替代這種途徑。例如,綠色GDP核算的概念已經(jīng)提出很多年,但為什么還沒有哪個國家真正公布綠色GDP數(shù)據(jù),原因就是自然資源價值、生態(tài)環(huán)境價值等的統(tǒng)計測度目前還面臨著很大的困難,其背后存在著一系列有待進(jìn)一步研究和解決的理論與實踐問題,因此不少學(xué)者進(jìn)行了替代測度的探討。這一方面說明統(tǒng)計測度的重要性,另一方面說明統(tǒng)計測度替代的無奈性。但是,替代測度必須遵守相應(yīng)的規(guī)則與邏輯,要經(jīng)得起推敲。有的文獻(xiàn)明明知道有關(guān)變量無法測度、有關(guān)數(shù)據(jù)無法獲得,卻隨意地、不符合邏輯地進(jìn)行所謂的替代,結(jié)果是最后的結(jié)論不知替代成什么樣了,很難理解它的意義。關(guān)于替代測度的有效性問題,邱東教授[7]已有精辟的論述,在此不再展開討論。

三、統(tǒng)計測度是數(shù)據(jù)科學(xué)的基礎(chǔ)

籠統(tǒng)地講,數(shù)據(jù)科學(xué)就是以大數(shù)據(jù)為研究對象的科學(xué),需要多學(xué)科交叉融合、共同支撐。由于大數(shù)據(jù)是快速增長的復(fù)雜數(shù)據(jù),因此大數(shù)據(jù)分析僅有統(tǒng)計思維與統(tǒng)計分析方法是不夠的,還需要強大的數(shù)據(jù)處理能力與計算能力。只有把統(tǒng)計思維、統(tǒng)計方法與計算技術(shù)結(jié)合起來,才有可能真正挖掘出大數(shù)據(jù)中的有價值信息。本文認(rèn)為統(tǒng)計思維、統(tǒng)計方法與計算技術(shù)相結(jié)合的基礎(chǔ)就是科學(xué)的統(tǒng)計測度。

首先,大數(shù)據(jù)技術(shù)不能自行解決其計算和分析應(yīng)從何處著手的問題。現(xiàn)代信息技術(shù)與互聯(lián)網(wǎng)、物聯(lián)網(wǎng)技術(shù)的快速發(fā)展,使人類進(jìn)入大數(shù)據(jù)時代,也有人說進(jìn)入到數(shù)聯(lián)網(wǎng)時代,這意味著我們一方面被各種越來越多、越來越復(fù)雜的數(shù)據(jù)所包圍,另一方面又被數(shù)據(jù)中巨大的信息價值所吸引,想從中挖掘出可供決策之用的信息。如何挖掘大數(shù)據(jù)?人們已經(jīng)進(jìn)行了艱苦的探索,發(fā)展了很多專門的方法技術(shù),并已嘗到了不少甜頭,但遠(yuǎn)未達(dá)到充分利用大數(shù)據(jù)中有效信息的目的,因為已有的大數(shù)據(jù)分析研究主要集中于計算機科學(xué)與技術(shù)、軟件工程、計算數(shù)學(xué)等領(lǐng)域,重點是計算能力與算法研究,而很少從統(tǒng)計學(xué)的角度進(jìn)行有針對的探討,還沒有真正進(jìn)入數(shù)據(jù)分析的深層。這里面實際上忽略了最基礎(chǔ)的統(tǒng)計測度問題。如果說,計算技術(shù)的發(fā)展能夠解決數(shù)據(jù)儲存與計算的能力問題,算法模型的改進(jìn)能夠解決大數(shù)據(jù)分析的綜合能力問題,那么它們?nèi)匀徊荒芙鉀Q對誰進(jìn)行計算與分析的問題,也即從何處著手的問題。無論是傳統(tǒng)的結(jié)構(gòu)型數(shù)據(jù),還是現(xiàn)在的包含大量非結(jié)構(gòu)型數(shù)據(jù)的大數(shù)據(jù),要對它們進(jìn)行分析都必須找到正確的切入口,即分析的基本元素是什么,或者說需要測度什么。當(dāng)然,還有如何測度的問題。然后,才能進(jìn)行分組、綜合和構(gòu)建模型,否則大數(shù)據(jù)分析不會達(dá)到人們的預(yù)期。

其次,大數(shù)據(jù)之所以催生數(shù)據(jù)科學(xué),就是為了通過多學(xué)科交叉融合來共同解決大數(shù)據(jù)分析中存在的問題,其中包括統(tǒng)計測度問題,這一點對于非結(jié)構(gòu)化數(shù)據(jù)尤為突出。實際上,大數(shù)據(jù)的本質(zhì)就是非結(jié)構(gòu)化數(shù)據(jù),一是體量大、比重高(超過95%),二是變化快、形式多,三是內(nèi)容雜、不確定。通過各種社交網(wǎng)絡(luò)、自媒體、富媒體,以及人機對話和機器感應(yīng)記錄等產(chǎn)生的各種非結(jié)構(gòu)化數(shù)據(jù),例如各種文字、各種表情符號、各種聲音、各種圖像,到底表示什么?綜合在一起能體現(xiàn)什么規(guī)律?如何綜合各種信息?存在著大量有待研究的問題。其實,文字的長短、用詞、表達(dá)形式(敘述式、議論式、散文式、詩歌式,等)甚至字體大小與顏色,表情類型與偏好,聲音高低、頻率與情緒,圖像顏色等等,都是有特定意義的,即在特定環(huán)境條件下的反應(yīng)。所以,一句話或一段聲音的意義并非文字本身的意思,一個表情符號的意義并非符號表征的意思,一個圖像的意義并非圖像內(nèi)容與色彩本身的意思,因為背后有太多的未知。人們?yōu)g覽檢索各種信息的習(xí)慣、收看與回復(fù)郵件等信息的習(xí)慣、參與信息網(wǎng)絡(luò)的習(xí)慣、購物習(xí)慣與支付習(xí)慣等等,也是如此。更何況,同樣的網(wǎng)絡(luò)詞匯在不同的時間代表著不同的語義。這背后隱藏著的是人們的行為與社會關(guān)系,既具有個性又具有共性,極其復(fù)雜。所以對這樣的數(shù)據(jù)進(jìn)行分析,首先絕非是計算問題,也不是用什么模型問題,而首先是從何處著手、如何選取關(guān)鍵詞、如何選定關(guān)聯(lián)詞、可以用什么樣的指標(biāo)來綜合、可以用什么樣的表式來表現(xiàn)等問題,一句話就是統(tǒng)計測度問題。非結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)計測度將主要是定義測度,這些問題不解決,分析模型也是難以構(gòu)建的,或者難以得出令人信服的結(jié)論。

例如,關(guān)于《紅樓夢》前80回與后40回是否同一作者的爭論,韋博成[10]進(jìn)行了綜合性的比較研究并提出了自己的觀點,他指出已有美國威斯康辛大學(xué)華裔學(xué)者陳炳藻教授(1980)[11]、我國華東師范大學(xué)陳大康教授(1987年)[12]和復(fù)旦大學(xué)李賢平教授(1987年)[13]等學(xué)者從統(tǒng)計學(xué)的角度進(jìn)行過專門的研究,但卻得出了不同的結(jié)論:陳炳藻教授認(rèn)為前80回與后40回均是曹雪芹所著;陳大康教授認(rèn)為前80回與后40回為不同人所著;李賢平教授認(rèn)為前80回是曹雪芹根據(jù)《石頭記》增刪而成,后40回是曹雪芹親友搜集整理原稿加工補寫而成。此外,還有其他一些學(xué)者進(jìn)行過類似的研究,也有一些不同的結(jié)論。為什么都通過提取關(guān)聯(lián)詞和統(tǒng)計的方法卻得出不同的結(jié)論?原因就在于用以分析的關(guān)聯(lián)詞不同,即統(tǒng)計測度的切入點不同,當(dāng)然也有統(tǒng)計方法上的差異,但前者是根本。至少存在幾個統(tǒng)計測度上的問題:提取單一維度的關(guān)聯(lián)詞還是多維度的關(guān)聯(lián)詞?提取什么類型的關(guān)聯(lián)詞(例如:關(guān)聯(lián)詞是名詞、形容詞還是動詞;是花卉、樹木、飲食、醫(yī)藥還是詩詞)?這些關(guān)聯(lián)詞可以綜合為什么樣的指標(biāo)?等等。由此可見,原始統(tǒng)計測度代表著數(shù)據(jù)分析的方向。

相比《紅樓夢》,大數(shù)據(jù)分析要復(fù)雜得多、困難得多。所以,數(shù)據(jù)科學(xué)除了需要數(shù)學(xué)、統(tǒng)計學(xué)、計算機科學(xué)與技術(shù)、人工智能等學(xué)科的交叉融合外,還需要與行為科學(xué)、語言學(xué)、社會學(xué)、經(jīng)濟學(xué)等學(xué)科相結(jié)合,以便能很好地解決作為數(shù)據(jù)分析之前提的統(tǒng)計測度問題。

第三,數(shù)據(jù)科學(xué)將進(jìn)一步拓展統(tǒng)計測度的邊界,并提出更高的要求。伴隨著人類認(rèn)識世界的范圍的不斷拓展,統(tǒng)計測度的范圍也不斷擴大,從自然現(xiàn)象統(tǒng)計測度到人口現(xiàn)象、經(jīng)濟現(xiàn)象統(tǒng)計測度,再到社會現(xiàn)象、環(huán)境現(xiàn)象、政治現(xiàn)象等統(tǒng)計測度,幾乎已經(jīng)滲透到了所有可以想象到的領(lǐng)域。相應(yīng)地,統(tǒng)計數(shù)據(jù)分析也從少量數(shù)據(jù)的分析進(jìn)入到了大數(shù)據(jù)分析。大數(shù)據(jù)的復(fù)雜性、不確定性和涌現(xiàn)性(王元卓等,2013)[14],意味著統(tǒng)計測度的內(nèi)容大大增加,原來一些不能測度的數(shù)據(jù)被納入到了統(tǒng)計測度的范圍,按照邱東教授的說法就是統(tǒng)計測度的邊界大大擴展了。統(tǒng)計測度邊界的擴大,必須以統(tǒng)計測度能力的提升為前提,即要求統(tǒng)計學(xué)借助現(xiàn)代信息技術(shù)進(jìn)一步提升處理和分析數(shù)據(jù)的能力———對大數(shù)據(jù)“化繁為簡”、“變厚為薄”的能力,這就必須以科學(xué)準(zhǔn)確的大數(shù)據(jù)統(tǒng)計測度為前提,既改變統(tǒng)計思維,又創(chuàng)新統(tǒng)計分析方法,其中就包括統(tǒng)計測度思維、統(tǒng)計測度方法與統(tǒng)計測度標(biāo)準(zhǔn)。面對大量繁雜的數(shù)據(jù),如果沒有更好的統(tǒng)計測度思路與方法,包括個體標(biāo)志定義方法、最小數(shù)據(jù)細(xì)胞分組與聚類方法、關(guān)聯(lián)詞含義的時間影響計量方法、定性測度指標(biāo)篩選方法、再測度路徑與方法、大數(shù)據(jù)統(tǒng)計測度評價標(biāo)準(zhǔn)等,那么統(tǒng)計學(xué)在數(shù)據(jù)科學(xué)發(fā)展過程中就難以發(fā)揮應(yīng)有的作用,數(shù)據(jù)科學(xué)也將裹足不前。這就是統(tǒng)計學(xué)邁向數(shù)據(jù)科學(xué)的重要挑戰(zhàn)之一。

綜上所述,統(tǒng)計測度的基礎(chǔ)性問題從統(tǒng)計學(xué)延伸到了數(shù)據(jù)科學(xué),是兩者的共同基礎(chǔ),并且對于數(shù)據(jù)科學(xué)而言顯得更為重要。大數(shù)據(jù)的復(fù)雜性、不確定性和涌現(xiàn)性導(dǎo)致了統(tǒng)計測度的難度猛增,亟需建立面向大數(shù)據(jù)分析的統(tǒng)計測度理論與方法。要通過研究大數(shù)據(jù)的復(fù)雜性、不確定性和涌現(xiàn)性特征的基本因素,以及這些因素之間的內(nèi)在聯(lián)系、外在指標(biāo)和測度方法,進(jìn)而研究基于先進(jìn)計算技術(shù)的大數(shù)據(jù)度量模型,構(gòu)建尋找面向計算的數(shù)據(jù)內(nèi)核或者數(shù)據(jù)邊界的基本方法??傊?,建立有效易行的數(shù)據(jù)表示方法,即科學(xué)的統(tǒng)計測度方法,是數(shù)據(jù)科學(xué)必須解決的基礎(chǔ)問題之一。

四、創(chuàng)新與完善大數(shù)據(jù)統(tǒng)計測度方法

如前所述,統(tǒng)計學(xué)研究對象已經(jīng)從結(jié)構(gòu)化數(shù)據(jù)延伸到了包括非結(jié)構(gòu)化數(shù)據(jù)在內(nèi)的一切數(shù)據(jù),統(tǒng)計測度邊界得到了大大的擴展。按照邱東教授[7]曾經(jīng)引用過的海德格爾的話:“界限并不表示某一事物的發(fā)展到此為止,而是像希臘人所認(rèn)知的那樣,界限是某種事物開始展現(xiàn)的地方”,預(yù)示著統(tǒng)計學(xué)在數(shù)據(jù)科學(xué)發(fā)展階段的新起點已經(jīng)展現(xiàn)在我們面前。新的統(tǒng)計測度邊界催生統(tǒng)計測度方法的創(chuàng)新,統(tǒng)計測度方法的創(chuàng)新促進(jìn)統(tǒng)計測度邊界的拓展,兩者相輔相成,共同推動統(tǒng)計學(xué)與數(shù)據(jù)科學(xué)的發(fā)展。為此,我們要系統(tǒng)梳理統(tǒng)計測度方法的發(fā)展歷程,面對大數(shù)據(jù)提出的新挑戰(zhàn),大膽探索統(tǒng)計測度的新思路、新理論和新方法,為數(shù)據(jù)科學(xué)奠定堅實的統(tǒng)計學(xué)基礎(chǔ)。為此提出如下幾點建議:

首先,要緊密結(jié)合現(xiàn)象的本質(zhì)去探求更科學(xué)的統(tǒng)計測度方法。本質(zhì)決定一切,既然統(tǒng)計測度的目的是獲得客觀反映現(xiàn)象本質(zhì)的數(shù)據(jù),那么深入到現(xiàn)象本質(zhì)、認(rèn)識和掌握現(xiàn)象的本質(zhì),是科學(xué)統(tǒng)計測度的關(guān)鍵,也是探求新的統(tǒng)計方法的出發(fā)點。換句話說,科學(xué)的統(tǒng)計測度方法能夠體現(xiàn)出數(shù)據(jù)的真正意義。例如,要探求社交網(wǎng)絡(luò)數(shù)據(jù)的統(tǒng)計分析和測度方法,就必須了解社交網(wǎng)絡(luò)的產(chǎn)生背景、構(gòu)成要素、表現(xiàn)形式與基本特征,既要研究它的共性問題,又要研究它的個性問題與差異性,同時還要研究它的變化趨勢。只有這樣,才能掌握社交網(wǎng)絡(luò)數(shù)據(jù)的構(gòu)成要件或元素,才能建立起科學(xué)的、能有效體現(xiàn)社交網(wǎng)絡(luò)數(shù)據(jù)意義的統(tǒng)計測度方法。再如,要分析研究電子商務(wù)數(shù)據(jù),也必須先弄清楚什么是電子商務(wù),尤其是弄清楚它與傳統(tǒng)的商業(yè)模式有什么不同(包括物流、資金流與信息流)、有哪些新生事物(包括時空特征、法律監(jiān)管)等等,否則統(tǒng)計測度無從下手或者抓不住要害。同時,作為一個新的研究領(lǐng)域,數(shù)據(jù)科學(xué)的理論基礎(chǔ)將與計算機科學(xué)、統(tǒng)計學(xué)、人工智能、數(shù)學(xué)、社會科學(xué)等有關(guān),離不開對相關(guān)學(xué)科領(lǐng)域知識與研究方法的借鑒,因此對相關(guān)領(lǐng)域的知識與研究方法的學(xué)習(xí)十分重要。否則,就會嚴(yán)重扭曲統(tǒng)計測度方法,胡亂設(shè)置測度標(biāo)志,這需要引起高度關(guān)注。

其次,要緊密結(jié)合大數(shù)據(jù)的特點去創(chuàng)新統(tǒng)計測度方法。大數(shù)據(jù)的特點是復(fù)雜性、不確定性和涌現(xiàn)性并存,構(gòu)成了多維的數(shù)據(jù)空間,里面蘊藏著豐富的信息資源,這是傳統(tǒng)的統(tǒng)計數(shù)據(jù)不可比擬的。那么該從何處進(jìn)入這樣的數(shù)據(jù)空間?怎么進(jìn)去?又怎么出來?這歸根結(jié)底還是統(tǒng)計測度方法問題。因此,在開展大數(shù)據(jù)分析之前,首先要研究大數(shù)據(jù)的基礎(chǔ)性問題,包括大數(shù)據(jù)的內(nèi)在機理(包括大數(shù)據(jù)的演化與傳播機制、生命周期),數(shù)據(jù)科學(xué)與社會學(xué)、經(jīng)濟學(xué)、行為科學(xué)等之間的互動機制,以及大數(shù)據(jù)的結(jié)構(gòu)與效能的規(guī)律性等等,為創(chuàng)新統(tǒng)計測度方法提供導(dǎo)向。本文認(rèn)為,再復(fù)雜的數(shù)據(jù)也有共性,再不確定的數(shù)據(jù)也有規(guī)律,再涌現(xiàn)的數(shù)據(jù)也有軌跡。網(wǎng)絡(luò)大數(shù)據(jù)背后的網(wǎng)絡(luò)平均路徑長度、度分布、聚集系數(shù)、核數(shù)、介數(shù)等具有共性的特征與參數(shù),是開展復(fù)雜網(wǎng)絡(luò)數(shù)據(jù)分析的基礎(chǔ)(李國杰、程學(xué)旗,2012)[15];大數(shù)據(jù)在時空維度上的分布形式、內(nèi)在結(jié)構(gòu)、動態(tài)變化和相關(guān)聯(lián)的規(guī)律,是找到大數(shù)據(jù)分析切入口、進(jìn)而簡化大數(shù)據(jù)表征的前提;大數(shù)據(jù)的涌現(xiàn)性軌跡(包括模式涌現(xiàn)性、行為涌現(xiàn)性和智慧涌現(xiàn)性),是研究更多的社會網(wǎng)絡(luò)模型和理解網(wǎng)絡(luò)瓦解失效原因,理解人們網(wǎng)絡(luò)行為涌現(xiàn)特征(例如人們發(fā)郵件數(shù)量的時間分布特征),以及探求大量自發(fā)個體語義融合連接形成有特定意義的通用語義之過程的路徑(靳小龍等,2013)[16]。也就是說,這些共性、規(guī)律和軌跡就是統(tǒng)計測度的主要依據(jù),也是重點內(nèi)容。發(fā)展和創(chuàng)新能夠準(zhǔn)確發(fā)現(xiàn)大數(shù)據(jù)的共性、規(guī)律和軌跡的定量方法,其實就是發(fā)展和創(chuàng)新大數(shù)據(jù)統(tǒng)計測度方法。

第三,要緊密結(jié)合現(xiàn)代信息技術(shù)以完善統(tǒng)計測度方法。復(fù)雜、多變和不斷涌現(xiàn)的大數(shù)據(jù),不僅需要借助現(xiàn)代信息技術(shù)(包括硬件與軟件)來解決極其復(fù)雜的分析計算問題,也需要利用現(xiàn)代信息技術(shù)來解決其繁雜多樣的統(tǒng)計測度問題。對于大數(shù)據(jù),不論是原始統(tǒng)計測度還是再測度,其復(fù)雜性或難度都不是傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)所能相提并論的,哪怕是基本的關(guān)聯(lián)詞計數(shù)、分類與匯總,其工作量之大也超乎想象,不借用現(xiàn)代信息技術(shù)幾乎是不可能完成的。而事實上,有些統(tǒng)計測度的內(nèi)容與方法本身也是以數(shù)據(jù)處理能力的提升為前提的??梢哉f,脫離現(xiàn)代信息技術(shù),人們難以承受大數(shù)據(jù)的統(tǒng)計測度與分析任務(wù);要把統(tǒng)計測度思想變?yōu)榭蓪崿F(xiàn)的統(tǒng)計測度方法,必須借助現(xiàn)代信息技術(shù)。為此,要充分利用各種信息技術(shù)和手段,把統(tǒng)計測度與數(shù)據(jù)清洗相結(jié)合、與數(shù)據(jù)分析模型相結(jié)合、與計算方法相結(jié)合,努力建立融自動搜索統(tǒng)計測度、動態(tài)演化統(tǒng)計測度和自主優(yōu)選統(tǒng)計測度為一體的大數(shù)據(jù)統(tǒng)計測度方法體系。

免责声明

本站为第三方开放式学习交流平台,所有内容均为用户上传,仅供参考,不代表本站立场。若内容不实请联系在线客服删除,服务时间:8:00~21:00。

AI写作,高效原创

在线指导,快速准确,满意为止

立即体验
文秘服务 AI帮写作 润色服务 论文发表