前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的統(tǒng)計(jì)學(xué)經(jīng)驗(yàn)法則主題范文,僅供參考,歡迎閱讀并收藏。
大數(shù)據(jù)技術(shù)的發(fā)展又離不開(kāi)數(shù)據(jù)挖掘,那。。。
什么是數(shù)據(jù)挖掘?
數(shù)據(jù)挖掘(英語(yǔ):Data mining),又譯為資料探勘、數(shù)據(jù)采礦。它是數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)(英語(yǔ):Knowledge-Discovery in Databases,簡(jiǎn)稱:KDD)中的一個(gè)步驟。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過(guò)算法搜索隱藏于其中信息的過(guò)程。數(shù)據(jù)挖掘通常與計(jì)算機(jī)科學(xué)有關(guān),并通過(guò)統(tǒng)計(jì)、在線分析處理、情報(bào)檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)(依靠過(guò)去的經(jīng)驗(yàn)法則)和模式識(shí)別等諸多方法來(lái)實(shí)現(xiàn)上述目標(biāo)。
數(shù)據(jù)挖掘如此重要,如何進(jìn)行數(shù)據(jù)挖掘呢?當(dāng)然是知識(shí)!
知識(shí)將成為比數(shù)據(jù)更重要的資產(chǎn)
復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院教授肖仰華博士在他近期所作的《知識(shí)圖譜與認(rèn)知智能》報(bào)告中指出:前幾年大數(shù)據(jù)時(shí)代到來(lái)的時(shí)候,大家都說(shuō)“得數(shù)據(jù)者得天下”。去年,微軟研究院的沈向陽(yáng)博士曾經(jīng)說(shuō)過(guò)“懂語(yǔ)言者得天下”。而我曾經(jīng)論述過(guò),機(jī)器要懂語(yǔ)言,背景知識(shí)不可或缺。因此,在這個(gè)意義下,將是“得知識(shí)者得天下”。如果說(shuō)數(shù)據(jù)是石油,那么知識(shí)就好比是石油的萃取物。
那么問(wèn)題來(lái)了?你需要哪些知識(shí)?
數(shù)據(jù)挖掘是個(gè)復(fù)雜的過(guò)程,它需要統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫(kù)、機(jī)器學(xué)習(xí)、模式識(shí)別等多學(xué)科的交叉融合來(lái)實(shí)現(xiàn)。
數(shù)據(jù)挖掘過(guò)程中用到的算法也很多,下圖是對(duì)這些算法的一個(gè)總體梳理:
接下來(lái)我們就來(lái)說(shuō)說(shuō)這傳說(shuō)中的十大經(jīng)典算法:
決策樹(C4.5算法)
聚類(K-means算法)
關(guān)聯(lián)規(guī)則(Apriori算法)
隨機(jī)森林算法
邏輯回歸
SVM
樸素貝葉斯
K最近鄰算法
Adaboost 算法
神經(jīng)網(wǎng)絡(luò)
篇幅有限,為了保證閱讀質(zhì)量,本文只講解前三個(gè)。其余的算法講解會(huì)不定期更新的呦,想學(xué)習(xí)的小伙伴看過(guò)來(lái)???
十大經(jīng)典算法圖解(一)
01
決策樹(C4.5算法)
決策樹(Decision Tree),又稱為判定樹,是數(shù)據(jù)挖掘技術(shù)中的一種重要的分類方法,它是一種以樹結(jié)構(gòu)(包括二叉樹和多叉樹)形式來(lái)表達(dá)的預(yù)測(cè)分析模型。
根據(jù)一些特征( feature )進(jìn)行分類,每個(gè)節(jié)點(diǎn)提一個(gè)問(wèn)題,通過(guò)判斷,將數(shù)據(jù)分為若干類,再繼續(xù)提問(wèn)。這些問(wèn)題是根據(jù)已有數(shù)據(jù)學(xué)習(xí)出來(lái)的,再投入新數(shù)據(jù)的時(shí)候,就可以根據(jù)這棵樹上的問(wèn)題,將數(shù)據(jù)劃分到合適的葉子上。
決策樹生長(zhǎng)算法流程(以C4.5算法為例):
C4.5算法實(shí)例圖解:
兩周內(nèi)的天氣及網(wǎng)球俱樂(lè)部顧客光顧情況
02
聚類(K-means算法)
什么是聚類?
什么是K-means?
K-means算法流程圖解:
Setp1:確定初始質(zhì)心
Setp2:計(jì)算距離&劃分簇
Setp3:迭代計(jì)算中心點(diǎn)
Setp4:收斂
03
關(guān)聯(lián)規(guī)則(Apriori算法)
關(guān)聯(lián)規(guī)則是形如XY的蘊(yùn)涵式,其中, X和Y分別稱為關(guān)聯(lián)規(guī)則的先導(dǎo)(antecedent或left-hand-side, LHS)和后繼(consequent或right-hand-side, RHS) 。其中,關(guān)聯(lián)規(guī)則XY,存在支持度和信任度。
關(guān)聯(lián)規(guī)則經(jīng)典算法及優(yōu)缺點(diǎn)比較:
Apriori算法是種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法。它的核心是基于兩階段頻集思想的遞推算法,該關(guān)聯(lián)規(guī)則在分類上屬于單維、單層、布爾關(guān)聯(lián)規(guī)則。
在Apriori算法中,尋找最大項(xiàng)目集(頻繁項(xiàng)集)的基本思想是:算法須要對(duì)數(shù)據(jù)集進(jìn)行多步處理。
Apriori算法圖解:
1.產(chǎn)生頻繁項(xiàng)集
關(guān)鍵詞:logistic回歸 BP神經(jīng)網(wǎng)絡(luò) 上市公司 信用風(fēng)險(xiǎn)
在經(jīng)濟(jì)全球化的趨勢(shì)下,信用將成為主要的交易方式,金融危機(jī)的爆發(fā)更是顯示出信用風(fēng)險(xiǎn)管理和信用風(fēng)險(xiǎn)分類的重要性。從20世紀(jì)60年代至70年代的統(tǒng)計(jì)學(xué)方法,20世紀(jì)80年代的專家系統(tǒng)到90年代的神經(jīng)網(wǎng)絡(luò),各種信用風(fēng)險(xiǎn)評(píng)級(jí)方法層出不窮。在我國(guó),信用風(fēng)險(xiǎn)的度量和管理較為落后,金融機(jī)構(gòu)沒(méi)有完善有效的評(píng)級(jí)方法和體系,目前所應(yīng)用的方法主要是粗略的定性方法,如綜合利用宏觀經(jīng)濟(jì)與行業(yè)風(fēng)險(xiǎn)、所有權(quán)及治理結(jié)構(gòu)、信用風(fēng)險(xiǎn)及其管理、市場(chǎng)風(fēng)險(xiǎn)及其管理、資金來(lái)源/流動(dòng)性、盈利能力等進(jìn)行“加權(quán)”加分,信用風(fēng)險(xiǎn)的度量模式顯得比較單一,所以對(duì)于信用風(fēng)險(xiǎn)分類方法是學(xué)術(shù)界和實(shí)務(wù)界必須解決的課題之一。
一、文獻(xiàn)綜述
(一)國(guó)外文獻(xiàn)Logistic模型最早是由Martin (1977)用來(lái)預(yù)測(cè)公司的破產(chǎn)及違約概率。他從1970年至1977年間大約5700家美聯(lián)儲(chǔ)成員銀行中界定出58家困境銀行,并從25個(gè)財(cái)務(wù)指標(biāo)中選取總資產(chǎn)凈利潤(rùn)率等8 個(gè)財(cái)務(wù)比率,用來(lái)預(yù)測(cè)公司的破產(chǎn)及違約概率,建立了Logistic回歸模型,根據(jù)銀行、投資者的風(fēng)險(xiǎn)偏好設(shè)定風(fēng)險(xiǎn)警界線,以此對(duì)分析對(duì)象進(jìn)行風(fēng)險(xiǎn)定位和決策。同時(shí)還將Z-Score模型,ZETA模型和Logistic模型的預(yù)測(cè)能力進(jìn)行了比較,結(jié)果發(fā)現(xiàn)Logistic回歸模型優(yōu)于Z- Score模型和ZETA模型。Madalla (1983) 則采用Logistic模型區(qū)別違約與非違約貸款申請(qǐng)人,其研究結(jié)果表明,當(dāng)違約概率p>0.551時(shí)是風(fēng)險(xiǎn)貸款;當(dāng)p
(二)國(guó)內(nèi)文獻(xiàn) 在國(guó)內(nèi)的研究文獻(xiàn)中,齊治平(2002)從我國(guó)滬、深兩交易所選取164 家上市公司,然后隨機(jī)分成兩組,運(yùn)用線性判別模型、Logistic 回歸模型以及含有二次項(xiàng)和交叉項(xiàng)的Logistic 模型對(duì)數(shù)據(jù)樣本提前兩年進(jìn)行預(yù)測(cè)。結(jié)果發(fā)現(xiàn),含有二次項(xiàng)和交叉項(xiàng)的Logistic模型對(duì)前一年數(shù)據(jù)的預(yù)測(cè)準(zhǔn)確率最高。吳世農(nóng)(2003)使用剖面分析、單變量分析、線性概率模型(LPM)、Fisher二類線性判定、Logistic模型等統(tǒng)計(jì)方法對(duì)財(cái)務(wù)困境公司進(jìn)行預(yù)測(cè)研究,其中Logistic模型對(duì)前一年數(shù)據(jù)的預(yù)測(cè)準(zhǔn)確率達(dá)到93.53%,F(xiàn)isher判別分析法和LPM的準(zhǔn)確率都為89.93%。龐素琳(2003)利用多層感知器分別對(duì)我國(guó)2000年106家上市公司進(jìn)行信用評(píng)級(jí),信用評(píng)價(jià)準(zhǔn)確率高達(dá)98.11%。本文即是從上市公司的財(cái)務(wù)指標(biāo)入手,通過(guò)logistic回歸分析和BP神經(jīng)網(wǎng)絡(luò),構(gòu)建衡量企業(yè)信用狀況的模型,并通過(guò)實(shí)證研究考察模型的適用性,對(duì)比兩者信用風(fēng)險(xiǎn)分類的準(zhǔn)確度。
二、研究設(shè)計(jì)
(一)樣本選取和數(shù)據(jù)來(lái)源本研究選取滬深兩市A股市場(chǎng)上2005年至2007年三年中部分被進(jìn)行特別處理的118家ST公司和126家非ST公司,數(shù)據(jù)主要來(lái)源于CSMAR深圳國(guó)泰安信息技術(shù)有限公司提供的財(cái)務(wù)指標(biāo)數(shù)據(jù),將118家ST公司的財(cái)務(wù)數(shù)據(jù)和126家非ST公司的財(cái)務(wù)數(shù)據(jù)劃分為訓(xùn)練樣本和測(cè)試樣本。樣本集選取如(表1)所示。
(二)變量選取本文采取的財(cái)務(wù)數(shù)據(jù)在參考了已有文獻(xiàn)以及考慮到實(shí)際數(shù)據(jù)可得性的基礎(chǔ)上,選取了能夠反映短期還款能力,長(zhǎng)期還款能力,盈利能力和營(yíng)運(yùn)能力4方面共12個(gè)財(cái)務(wù)指標(biāo)。指標(biāo)變量名稱及自變量符號(hào)具體見(jiàn)表。因變量為0-1變量,信用級(jí)別高的設(shè)置為1,信用級(jí)別低的設(shè)置為0。在做logistic回歸的時(shí)候會(huì)進(jìn)一步運(yùn)用向后篩選法剔除方差貢獻(xiàn)率不大的指標(biāo)變量。具體如(表2)所示。
(三)模型設(shè)定
(1)Logistic回歸模型:
(2)多層次前向神經(jīng)網(wǎng)絡(luò)。本文所應(yīng)用的是一種稱為前向網(wǎng)絡(luò)的特殊神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。本研究應(yīng)用Rumehhart于1986年提出的如下函數(shù):Ii=wijxj+?準(zhǔn),xi=fi=其中,Ii為神經(jīng)元i的層輸入,xi為神經(jīng)元的輸出,wij為神經(jīng)元間的連接權(quán),?準(zhǔn)為神經(jīng)元i的偏置。每一條連接弧都被賦予一定的數(shù)值來(lái)表示連接弧的連接強(qiáng)度,正的權(quán)值表示影響的增加,負(fù)的權(quán)值表示影響的減弱。在前向網(wǎng)絡(luò)中,神經(jīng)元間前向連接,同層神經(jīng)元互不連接,信息只能向著一個(gè)方向傳播。前向網(wǎng)絡(luò)的連接模式是用權(quán)值向量W來(lái)表示的。在網(wǎng)絡(luò)中,權(quán)值向量決定著網(wǎng)絡(luò)如何對(duì)環(huán)境中的任意輸入作出反應(yīng)典型的學(xué)習(xí)算法是搜索權(quán)值以找到最適合給定樣本的權(quán)值。在本研究中應(yīng)用的是多層前向網(wǎng)絡(luò)的BP算法,其主要作用是知識(shí)獲取和推理,采用有導(dǎo)師學(xué)習(xí)的訓(xùn)練形式,提供輸入矢量集的同時(shí)提供輸出矢量集,通過(guò)反向傳播學(xué)習(xí)算法,調(diào)整網(wǎng)絡(luò)的連接權(quán)值,以使網(wǎng)絡(luò)輸出在最小均方差意義下,盡量向期望輸出接近,通過(guò)修改各層神經(jīng)元的連接權(quán)值,使誤差減小,然后轉(zhuǎn)入正向傳播過(guò)程,反復(fù)循環(huán),直至誤差小于給定的值為止。本文建立的BP神經(jīng)網(wǎng)絡(luò)圖(見(jiàn)圖1)。本文建立財(cái)務(wù)困境神經(jīng)網(wǎng)絡(luò)預(yù)警模型主要考慮以下兩方面的問(wèn)題:一是確定網(wǎng)絡(luò)結(jié)構(gòu);二是學(xué)習(xí)參數(shù)的調(diào)整。首先考慮網(wǎng)絡(luò)結(jié)構(gòu)的確定。網(wǎng)絡(luò)結(jié)構(gòu)主要包括連接方式、網(wǎng)絡(luò)層次數(shù)和各層結(jié)點(diǎn)數(shù)。網(wǎng)絡(luò)的連接方式代表了網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu),Lippmann(1987)證明在一定條件下,一個(gè)三層的BP神經(jīng)網(wǎng)絡(luò)可以用任意精度去逼近任意映射關(guān)系,而且經(jīng)過(guò)實(shí)驗(yàn)發(fā)現(xiàn),與一個(gè)隱層相比,用兩個(gè)隱層的網(wǎng)絡(luò)訓(xùn)練并無(wú)助于提高預(yù)測(cè)的準(zhǔn)確。因此在本研究中采用單隱層的BP網(wǎng)絡(luò)。各隱含層節(jié)點(diǎn)數(shù)的選擇并無(wú)確定的法則,只能結(jié)合實(shí)驗(yàn)并根據(jù)一些經(jīng)驗(yàn)法則:隱層節(jié)點(diǎn)數(shù)不能是各層中節(jié)點(diǎn)數(shù)最少的,也不是最多的;較好的隱層節(jié)點(diǎn)數(shù)介于輸入節(jié)點(diǎn)和輸出節(jié)點(diǎn)數(shù)之和的50%~75%之間;隱層節(jié)點(diǎn)數(shù)的理論上限由其訓(xùn)練樣本數(shù)據(jù)所限定。
三、實(shí)證結(jié)果分析
(一)logistic模型的參數(shù)估計(jì)及結(jié)果常規(guī)的線性判別模型計(jì)算得到的Z值只是個(gè)抽象的概念,無(wú)法從經(jīng)濟(jì)學(xué)上進(jìn)行解釋,Logistic回歸分析解決了這個(gè)問(wèn)題,其前提假設(shè)符合經(jīng)濟(jì)現(xiàn)實(shí)和金融數(shù)據(jù)的分布規(guī)律,殘差項(xiàng)小要求服從止態(tài)分布。本文運(yùn)用SPSS自帶的Wald向后逐步選擇法篩選變量,提高模型的判別性能,從全變量模型開(kāi)始,逐步提出對(duì)殘差平方和貢獻(xiàn)最小的變量,具體的回歸結(jié)果見(jiàn)(表2)。以2005年為例,根據(jù)SPSS計(jì)算結(jié)果中的參數(shù)表,估計(jì)Logistics模型的判別方程,(表3)反映了最大似然迭代記錄(顯示最后的迭代過(guò)程),(表4)反映了參數(shù)估計(jì)結(jié)果。步驟9是經(jīng)過(guò)9步變量篩選后最后保留在模型中的變量。從各個(gè)系數(shù)的Wald值及伴隨概率p來(lái)看,最終選定的5個(gè)指標(biāo)變量具有最高的解釋能力。綜上,2005年公司分類的logistic模型為:p=。從(表5)步驟1及步驟9的分類結(jié)果看出,剔除不顯著變量之后,分類準(zhǔn)確率并未大幅下降,可以認(rèn)為最終的模型能通過(guò)檢驗(yàn)。(表6)顯示了最終的Logistic模型參數(shù)估計(jì)結(jié)果。(表7)顯示了模型分類準(zhǔn)確率。
(二)BP神經(jīng)網(wǎng)絡(luò)的參數(shù)估計(jì)及結(jié)果首先對(duì)輸入輸出樣本進(jìn)行數(shù)據(jù)處理,消除影響預(yù)測(cè)結(jié)果的噪聲,神經(jīng)網(wǎng)絡(luò)輸入的變量要求規(guī)范在[-1,1](若使用tanh函數(shù))或[0,1](若使用logistic函數(shù))之間。本文對(duì)輸入數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,采用以下方法:X=。X為規(guī)范后的變量,x為每個(gè)變量的實(shí)際值,x1為每個(gè)變量的最小值,x2為每個(gè)變量的最大值。Matlab中相應(yīng)的函數(shù)為[output_X,PS]=mapminmax(X,output_min,outpt_max)由于實(shí)際財(cái)務(wù)困境評(píng)價(jià)往往非常復(fù)雜,企業(yè)財(cái)務(wù)狀況的好壞與財(cái)務(wù)比率的關(guān)系常常是非線性的,而神經(jīng)網(wǎng)絡(luò)作為一種非線形建模過(guò)程,并不依賴判別模型的假設(shè),能找出輸入與輸出的內(nèi)在聯(lián)系,因此本文決定嘗試使用神經(jīng)網(wǎng)絡(luò)技術(shù)進(jìn)行信用狀況的分類研究,分為訓(xùn)練集和測(cè)試集兩組對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,過(guò)程如下:第一,輸入層和輸出層神經(jīng)元數(shù)目的確定。第一層為輸入層,采用判別分析得出的模型變量為輸入變量,共有12個(gè)結(jié)點(diǎn),每個(gè)結(jié)點(diǎn)代表相應(yīng)的財(cái)務(wù)比率。第三層為輸出層,用一個(gè)結(jié)點(diǎn)表示,訓(xùn)練導(dǎo)師值為0代表信用級(jí)別“差”的公司,1代表信用級(jí)別“好”的公司。第二,隱含層數(shù)和隱結(jié)點(diǎn)個(gè)數(shù)的確定。本文選擇單隱層的前饋BP網(wǎng)絡(luò);通過(guò)學(xué)習(xí)逐步增加隱神經(jīng)元數(shù),訓(xùn)練反復(fù)調(diào)整。最后定為10個(gè)隱結(jié)點(diǎn)。第三,用訓(xùn)練集的數(shù)據(jù)訓(xùn)練這個(gè)神經(jīng)網(wǎng)絡(luò),使不同的輸入向量得到相應(yīng)的輸出值,當(dāng)誤差降到一個(gè)指定的范圍內(nèi)時(shí),神經(jīng)網(wǎng)絡(luò)所持有的那組權(quán)數(shù)值就是網(wǎng)絡(luò)通過(guò)自學(xué)習(xí)得到的權(quán)數(shù)值,即完成了神經(jīng)網(wǎng)絡(luò)的自學(xué)習(xí)過(guò)程。第四,輸入待評(píng)價(jià)的樣本(本文直接在輸入矩陣中劃分為訓(xùn)練),讓訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)輸出企業(yè)財(cái)務(wù)狀況的標(biāo)志(0或1),即實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)的模式分類。神經(jīng)網(wǎng)絡(luò)的初始權(quán)重由Matlab隨機(jī)產(chǎn)生的。訓(xùn)練算法采用專用于模式分類的trainscg方法,各種訓(xùn)練參數(shù)見(jiàn)(表8)。由此看出,算法逐步收斂,最終達(dá)到誤差標(biāo)準(zhǔn)見(jiàn)(表9)。
(三)兩種模型比較分析 本文對(duì)Logistic和BP神經(jīng)網(wǎng)絡(luò)分別對(duì)我國(guó)上市公司的信用狀況給予兩類模式的評(píng)級(jí),最終發(fā)現(xiàn),Logistic和BP神經(jīng)網(wǎng)絡(luò)在我國(guó)市場(chǎng)上的分類效果相當(dāng)(見(jiàn)表10)。主流觀點(diǎn)認(rèn)為,人工神經(jīng)網(wǎng)絡(luò)具有良好的模式識(shí)別能力,可以克服統(tǒng)計(jì)等方法的限制,因?yàn)樗哂辛己玫娜蒎e(cuò)能力,對(duì)數(shù)據(jù)的分布要求不嚴(yán)格,具備處理資料遺漏或是錯(cuò)誤的能力。最為可貴的一點(diǎn)是人工神經(jīng)網(wǎng)絡(luò)具有學(xué)習(xí)能力,可以隨時(shí)依據(jù)新準(zhǔn)備的數(shù)據(jù)資料進(jìn)行自我學(xué)習(xí)、訓(xùn)練、調(diào)整其內(nèi)部的儲(chǔ)存權(quán)重參數(shù)以應(yīng)對(duì)多變的企業(yè)運(yùn)作環(huán)境。但是本文得出的結(jié)果是:傳統(tǒng)的Logistic方法和神經(jīng)網(wǎng)絡(luò)方法的分類效果相當(dāng)。現(xiàn)代人工智能方法并未表現(xiàn)出理論上的優(yōu)勢(shì)??赡艿脑蚴牵壕W(wǎng)絡(luò)不穩(wěn)定,訓(xùn)練樣本的仿真準(zhǔn)確率很高,但對(duì)測(cè)試樣本的仿真準(zhǔn)確率會(huì)降低;解釋性差,網(wǎng)絡(luò)最終確定后,每個(gè)神經(jīng)元的權(quán)值和閾值雖然已知,但不能很好地分析各個(gè)指標(biāo)對(duì)結(jié)果的影響程度,對(duì)現(xiàn)實(shí)問(wèn)題中的經(jīng)營(yíng)管理也就不能起到很好的借鑒作用;網(wǎng)絡(luò)的輸入個(gè)數(shù)與隱層節(jié)點(diǎn)個(gè)數(shù)的確定沒(méi)有理論指導(dǎo),只能通過(guò)經(jīng)驗(yàn)確定。
四、結(jié)論
本文選取2005年至2007年部分被進(jìn)行特別處理的118家ST公司和126家非ST公司,以其財(cái)務(wù)指標(biāo)為樣本,進(jìn)行Logistic回歸和BP神經(jīng)網(wǎng)絡(luò)分類,對(duì)這兩種信用風(fēng)險(xiǎn)評(píng)判模型在中國(guó)市場(chǎng)做了實(shí)證研究。結(jié)果發(fā)現(xiàn):兩種模型均適用于中國(guó)上市公司兩模式分類(ST和非ST公司),而BP神經(jīng)網(wǎng)絡(luò)在我國(guó)市場(chǎng)上并未體現(xiàn)其分類的優(yōu)勢(shì),分類準(zhǔn)確度和Logistic相當(dāng)。即使如此,本文證實(shí)了Logistic和BP神經(jīng)網(wǎng)絡(luò)模型對(duì)于我國(guó)上市公司的評(píng)級(jí)還是有效的,能夠?yàn)橥顿Y者的科學(xué)決策提供建設(shè)性的指導(dǎo)意見(jiàn),使投資者理智地回避風(fēng)險(xiǎn)和獲取收益。同時(shí),該判別模型也有利于準(zhǔn)確評(píng)價(jià)一個(gè)企業(yè)的信用狀況,從而為銀行等放貸機(jī)構(gòu)提供決策依據(jù)。
參考文獻(xiàn):
[1]吳世農(nóng)、盧賢義:《我國(guó)上市公司財(cái)務(wù)困境的預(yù)測(cè)模型研究》,《經(jīng)濟(jì)研究》2001年第6期。
[2]齊治平、余妙志:《Logistic模型在上市公司財(cái)務(wù)狀況評(píng)價(jià)中的應(yīng)用》,《東北財(cái)經(jīng)大學(xué)學(xué)報(bào)》2002年第1期。
[3]龐素琳、王燕鳴、羅育中:《多層感知器信用評(píng)價(jià)模型及預(yù)警研究》,《數(shù)學(xué)實(shí)踐與認(rèn)識(shí)》2003年第9期。
雖然我國(guó)目前還沒(méi)有對(duì)房地產(chǎn)保有環(huán)節(jié)進(jìn)行普遍的稅收征管,但是在房地產(chǎn)存量交易的稅收核價(jià)環(huán)節(jié)以及金融機(jī)構(gòu)的風(fēng)險(xiǎn)控制部門等都已經(jīng)存在了房地產(chǎn)批量評(píng)估的需求。市場(chǎng)上出現(xiàn)了一些批量評(píng)估的系統(tǒng)或產(chǎn)品,在批量評(píng)估技術(shù)方面已經(jīng)具有了一定的社會(huì)實(shí)踐基礎(chǔ),就目前幾個(gè)主流的房地產(chǎn)批量評(píng)估技術(shù)做一簡(jiǎn)要匯總和分析,希望有助于房地產(chǎn)批量評(píng)估技術(shù)的深入探討和研究。
關(guān)鍵詞:
房地產(chǎn)批量評(píng)估,標(biāo)準(zhǔn)價(jià)調(diào)整法,多元線性回歸模型,數(shù)據(jù)挖掘
根據(jù)房地產(chǎn)批量評(píng)估技術(shù)中人工參與程度的多少,現(xiàn)行批量評(píng)估技術(shù)方法可分為:以人工為主、以計(jì)算機(jī)技術(shù)為主和以人工與計(jì)算機(jī)技術(shù)相結(jié)合三類。本文將對(duì)此進(jìn)行討論,對(duì)如何選用房地產(chǎn)批量評(píng)估技術(shù)方法進(jìn)行研究。
1以人工為主的技術(shù)方法之標(biāo)準(zhǔn)價(jià)調(diào)整法
1.1標(biāo)準(zhǔn)價(jià)調(diào)整法的概念標(biāo)準(zhǔn)價(jià)調(diào)整法,作為市場(chǎng)比較法派生出來(lái)的一種方法,類似于城市動(dòng)拆遷評(píng)估中的基準(zhǔn)價(jià)格修正法和香港的指標(biāo)估價(jià)法,但又有其自身的特點(diǎn)。標(biāo)準(zhǔn)價(jià)調(diào)整法可定義為:一種批量估價(jià)方法,在一定區(qū)域范圍內(nèi)進(jìn)行估價(jià)分區(qū),在每個(gè)估價(jià)分區(qū)內(nèi)設(shè)定標(biāo)準(zhǔn)房地產(chǎn)并求其價(jià)值,利用房地產(chǎn)價(jià)格調(diào)整系數(shù)將標(biāo)準(zhǔn)房地產(chǎn)價(jià)格調(diào)整為各宗房地產(chǎn)的價(jià)值。標(biāo)準(zhǔn)價(jià)調(diào)整法適用于估價(jià)對(duì)象物業(yè)屬性和估價(jià)特性較為近似的物業(yè),尤其適用于小范圍且價(jià)格影響因素少的樓棟批量評(píng)估。
1.2標(biāo)準(zhǔn)價(jià)調(diào)整法在不同物業(yè)類型中的應(yīng)用標(biāo)準(zhǔn)價(jià)調(diào)整法的實(shí)施涉及到:估價(jià)分區(qū)的劃分、標(biāo)準(zhǔn)房的設(shè)定、價(jià)格修正系數(shù)的設(shè)定以及標(biāo)準(zhǔn)房?jī)r(jià)格的評(píng)估。無(wú)論應(yīng)用于哪種物業(yè)類型,這四個(gè)步驟必不可少,差異在于各步驟的具體實(shí)施方法不盡相同。在住宅物業(yè)的評(píng)估中,往往以小區(qū)作為估價(jià)分區(qū)的劃分,在一個(gè)小區(qū)內(nèi)根據(jù)一定規(guī)則設(shè)定一個(gè)標(biāo)準(zhǔn)房,再由有經(jīng)驗(yàn)的估價(jià)師根據(jù)實(shí)地調(diào)研情況設(shè)置標(biāo)準(zhǔn)房與其他房屋之間的價(jià)格差異系數(shù)。最后仍由估價(jià)師定期對(duì)標(biāo)準(zhǔn)房進(jìn)行估價(jià),并通過(guò)已設(shè)定的系數(shù)求得所有物業(yè)的價(jià)格。在辦公物業(yè)的評(píng)估中,差異在于分區(qū)是以樓棟或項(xiàng)目來(lái)劃分,后續(xù)步驟和住宅一致。在集中型商業(yè)物業(yè)或工業(yè)物業(yè)中,都可以借鑒上述方法來(lái)進(jìn)行操作。但在沿街零售型物業(yè)中,由于沿街零售性物業(yè)分布廣泛,沒(méi)有明顯的集中趨勢(shì),并且價(jià)格影響因素的差異較大,導(dǎo)致標(biāo)準(zhǔn)價(jià)調(diào)整法的應(yīng)用也與其他物業(yè)類型有較大不同,主要表現(xiàn)在估價(jià)分區(qū)的劃分和價(jià)格修正系數(shù)的設(shè)定這兩個(gè)環(huán)節(jié)?,F(xiàn)有的技術(shù)方案一般采集兩級(jí)調(diào)整的方案。按商圈(或類似因素)將城市區(qū)域劃分成諸多估價(jià)分區(qū),在每個(gè)分區(qū)中設(shè)定一個(gè)標(biāo)準(zhǔn)商鋪,稱為區(qū)域基準(zhǔn)商鋪。之后在分區(qū)內(nèi)再進(jìn)行一次估價(jià)分區(qū)的劃分,這一劃分以路段為分區(qū),在每個(gè)路段中設(shè)定一個(gè)標(biāo)準(zhǔn)商鋪,稱為路段基準(zhǔn)商鋪。估價(jià)人員經(jīng)過(guò)現(xiàn)場(chǎng)調(diào)研后,需設(shè)置兩級(jí)修正系數(shù),即區(qū)域基準(zhǔn)商鋪與路段基準(zhǔn)商鋪的價(jià)格調(diào)整系數(shù),以及路段基準(zhǔn)商鋪與路段內(nèi)其他商鋪的價(jià)格修正系數(shù)。最后經(jīng)估價(jià)師定期對(duì)區(qū)域基準(zhǔn)商鋪進(jìn)行估價(jià),并通過(guò)兩級(jí)系數(shù)的修正求得所有商鋪的價(jià)格。
1.3標(biāo)準(zhǔn)價(jià)調(diào)整法的優(yōu)點(diǎn)①在規(guī)模較小的城市中,可以實(shí)現(xiàn)絕大部分物業(yè)的批量評(píng)估需求,具有較強(qiáng)的實(shí)用性。②可以達(dá)到較高的批量評(píng)估覆蓋率。③估價(jià)準(zhǔn)確性較好,并具有較好的質(zhì)量可控性。④除建設(shè)初期投入的人員成本和時(shí)間成本較大,后續(xù)維護(hù)的成本適中。
1.4標(biāo)準(zhǔn)價(jià)調(diào)整法的缺點(diǎn)①由于人工作業(yè)的工作量太大,不適用大、中型城市。②對(duì)估價(jià)人員的經(jīng)驗(yàn)要求較高,尤其是系數(shù)設(shè)置與標(biāo)準(zhǔn)房的價(jià)格評(píng)估等環(huán)節(jié)對(duì)質(zhì)量的要求很高。團(tuán)隊(duì)運(yùn)作時(shí),需要具備較高的質(zhì)量管理能力。③不同物業(yè)間的系數(shù)關(guān)系可能受到市場(chǎng)、規(guī)劃等因素的影響而改變,需要定期進(jìn)行監(jiān)控和維護(hù),有一定的難度或容易疏忽和遺漏。
2以人工為主的技術(shù)方法之多元線性回歸模型
2.1多元線性回歸模型簡(jiǎn)述多元回歸分析是目前在國(guó)外批量評(píng)估中占主流的校準(zhǔn)技術(shù),包括線性回歸分析和非線性回歸分析。其基本原理是:在大量樣本的基礎(chǔ)上,通過(guò)對(duì)變量、誤差的假定,依靠最小二乘法來(lái)擬合因變量與自變量關(guān)系,從而建立數(shù)學(xué)模型。多元回歸是統(tǒng)計(jì)學(xué)方法,運(yùn)用時(shí)要和經(jīng)濟(jì)學(xué)理論結(jié)合,實(shí)踐中對(duì)多元回歸模型的應(yīng)用是基于特征價(jià)格理論。國(guó)內(nèi)關(guān)于運(yùn)用特征價(jià)格理論來(lái)進(jìn)行房地產(chǎn)價(jià)格批量評(píng)估也有較多的研究和學(xué)術(shù)論文,但絕大多數(shù)還處于理論研究階段。
2.2多元回歸分析的主要步驟多元回歸既可以用來(lái)預(yù)測(cè)售價(jià),也可以用來(lái)預(yù)測(cè)租金,甚至可以用來(lái)統(tǒng)計(jì)其他中間參數(shù)。在步驟上不同類型的物業(yè)沒(méi)有明顯區(qū)別,只是在變量的選擇與量化上有所不同。為便于表述,下面以預(yù)測(cè)辦公物業(yè)價(jià)格為例來(lái)進(jìn)行闡述。①選取樣本:為了訓(xùn)練預(yù)測(cè)辦公物業(yè)價(jià)格的模型方程,在目標(biāo)范圍內(nèi)選取一定數(shù)量的樣本,調(diào)研其價(jià)格信息和基礎(chǔ)信息。這里的重點(diǎn)是樣本對(duì)總體的代表性以及樣本數(shù)據(jù)采集的準(zhǔn)確性。②構(gòu)建辦公物業(yè)價(jià)格影響因素體系:通過(guò)調(diào)研分析以及房產(chǎn)專家意見(jiàn)調(diào)查,歸納出可能影響辦公物業(yè)價(jià)格的特征變量,并進(jìn)行賦值量化。③模型擬合:觀察、分析特征變量的變動(dòng)規(guī)律,采用統(tǒng)計(jì)分析軟件進(jìn)行分析,對(duì)模型和特征變量賦值不斷地嘗試和修正,找出合理的價(jià)格和各特征變量之間的定量關(guān)系。④模型檢驗(yàn):最終得到的模型是否成功,取決于經(jīng)濟(jì)意義檢驗(yàn)、統(tǒng)計(jì)檢驗(yàn)、計(jì)量經(jīng)濟(jì)學(xué)檢驗(yàn)以及模型預(yù)測(cè)檢驗(yàn)。其中統(tǒng)計(jì)檢驗(yàn)包括了擬合優(yōu)度檢驗(yàn)和顯著性檢驗(yàn);計(jì)量經(jīng)濟(jì)學(xué)檢驗(yàn)包括多重共線性檢驗(yàn)及異方差檢驗(yàn)等。但凡通過(guò)上述所有的檢驗(yàn),即可認(rèn)為模型已成功建立。⑤模型應(yīng)用:對(duì)辦公物業(yè)的特征變量進(jìn)行賦值,代入最終的模型進(jìn)行自動(dòng)計(jì)算,即可評(píng)估辦公物業(yè)的價(jià)格。
2.3多元線性回歸模型的優(yōu)點(diǎn)①多元回歸方法所涉及的工作量主要在于特征變量的數(shù)量以及特征變量的賦值容易程度,受城市規(guī)模的影響較小,因此可以適用于大中型及以上城市。②多元回歸方法通過(guò)擬合因變量與自變量關(guān)系從而建立數(shù)學(xué)模型,這個(gè)過(guò)程與何種物業(yè)類型無(wú)關(guān),因此理論上多元回歸方法適合各類型物業(yè)的批量評(píng)估建模。③通過(guò)“調(diào)整R方”和“標(biāo)準(zhǔn)誤差”兩項(xiàng)指標(biāo),基本可以判斷和掌握模型價(jià)格估計(jì)的準(zhǔn)確度,并且可以對(duì)模型進(jìn)行持續(xù)改進(jìn),從而保證批量評(píng)估的準(zhǔn)確性。④在市場(chǎng)穩(wěn)定時(shí)期,由于自變量與因變量的關(guān)系也較為穩(wěn)定,因此模型更新維護(hù)的成本較低,從而價(jià)格更新的成本也較低。
2.4多元線性回歸模型的缺點(diǎn)①在不同區(qū)域或不同市場(chǎng),價(jià)格的影響因素不盡相同,建立的回歸模型也不相同。因此對(duì)每個(gè)城市每個(gè)物業(yè)類型的市場(chǎng)需要分別建立回歸模型。②多元回歸的建模研究過(guò)程中,在理論假設(shè)、建模方法、數(shù)據(jù)采集等各環(huán)節(jié)中,需要綜合的知識(shí)、經(jīng)驗(yàn)和技能要求。除了房地產(chǎn)估價(jià)師所需具備的估價(jià)理論知識(shí)、實(shí)務(wù)經(jīng)驗(yàn)、調(diào)研及價(jià)格判斷能力外,還需要統(tǒng)計(jì)學(xué)、經(jīng)濟(jì)學(xué)等多學(xué)科知識(shí)。對(duì)人員和團(tuán)隊(duì)的綜合能力要求很高,而這往往是傳統(tǒng)估價(jià)機(jī)構(gòu)所欠缺的。③對(duì)樣本數(shù)據(jù)的準(zhǔn)確性要求較高。如果沒(méi)有準(zhǔn)確的樣本數(shù)據(jù),建立科學(xué)的經(jīng)濟(jì)學(xué)模型則為空中樓閣。而要獲得準(zhǔn)確的樣本數(shù)據(jù),長(zhǎng)久以來(lái)一直是一個(gè)難題,其中有人為的因素(如交易避稅),也有客觀的因素(如商業(yè)物業(yè)的交易活躍度低)。④在市場(chǎng)波動(dòng)大的時(shí)候,原有模型可能失效或者預(yù)測(cè)能力大幅下降,而模型的迭代或維護(hù)周期較長(zhǎng),可能無(wú)法及時(shí)調(diào)整。
3以計(jì)算機(jī)技術(shù)為主的技術(shù)方法
房地產(chǎn)批量評(píng)估領(lǐng)域中以計(jì)算機(jī)技術(shù)為主的技術(shù)方法主要是基于大數(shù)據(jù)的數(shù)據(jù)挖掘。這一技術(shù)的應(yīng)用最早開(kāi)始于房地產(chǎn)互聯(lián)網(wǎng)企業(yè),如搜房、安居客等房地產(chǎn)房源網(wǎng)站,后來(lái)逐步被引入到房地產(chǎn)批量評(píng)估的技術(shù)或產(chǎn)品研發(fā)中來(lái)。
3.1數(shù)據(jù)挖掘的方法和原理首先,數(shù)據(jù)挖掘的前提需要有大量的數(shù)據(jù)可供挖掘。隨著互聯(lián)網(wǎng)在各行各業(yè)的不斷滲透,房地產(chǎn)中介行業(yè)中出現(xiàn)了大量房源網(wǎng)站,并逐步成為了房地產(chǎn)經(jīng)紀(jì)人房源招攬客戶的主要渠道。一個(gè)房源網(wǎng)站中可以搜索的房源數(shù)量多達(dá)數(shù)十萬(wàn)甚至上百萬(wàn)條,并且每天都有數(shù)萬(wàn)條以上的數(shù)據(jù)更新。這樣的網(wǎng)站有好幾家,為房地產(chǎn)的數(shù)據(jù)挖掘提供了可行的前提。其次,結(jié)構(gòu)化的數(shù)據(jù)為數(shù)據(jù)的采集提供了便利。在房源網(wǎng)站中,房源已經(jīng)按小區(qū)進(jìn)行了分類,經(jīng)紀(jì)人哪個(gè)小區(qū)的房源,則該房源將展現(xiàn)在該小區(qū)的搜索項(xiàng)下。至于面積、房型、價(jià)格、樓層以及裝修等參數(shù),也都以格式化的方式來(lái)展現(xiàn)。因此,利用互聯(lián)網(wǎng)爬蟲等抓取技術(shù),可以方便的將這些網(wǎng)站的房源抓取下來(lái),并建立房源案例數(shù)據(jù)庫(kù)。最后,是數(shù)據(jù)挖掘工作。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過(guò)算法搜索隱藏于其中信息的過(guò)程。數(shù)據(jù)挖掘通常與計(jì)算機(jī)科學(xué)有關(guān),并通過(guò)統(tǒng)計(jì)、在線分析處理、情報(bào)檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)(依靠過(guò)去的經(jīng)驗(yàn)法則)和模式識(shí)別等諸多方法來(lái)實(shí)現(xiàn)上述目標(biāo)。根據(jù)上述定義和描述可以發(fā)現(xiàn),數(shù)據(jù)挖掘的核心是算法,而這個(gè)算法在不同的批量評(píng)估系數(shù)或產(chǎn)品中都不相同,算法的優(yōu)劣也決定了不同系統(tǒng)或產(chǎn)品的優(yōu)劣。
3.2數(shù)據(jù)挖掘方法的優(yōu)點(diǎn)①高效無(wú)疑是數(shù)據(jù)挖掘方法的最大優(yōu)點(diǎn)。一旦完成對(duì)算法的研究,價(jià)格估算的工作都可以交由計(jì)算機(jī)來(lái)完成。②對(duì)整體市場(chǎng)價(jià)格運(yùn)行的反映具有較高的準(zhǔn)確度。
3.3數(shù)據(jù)挖掘方法的缺點(diǎn)①對(duì)微觀市場(chǎng)價(jià)格運(yùn)行的反映可能存在較大偏差。微觀市場(chǎng)中,例如一個(gè)住宅小區(qū),其掛牌房源的數(shù)量就很有限了,即使規(guī)模最大的小區(qū),也就是幾百的數(shù)量級(jí)。這樣大數(shù)據(jù)挖掘的數(shù)據(jù)數(shù)量前提已不滿足,從而影響了對(duì)微觀市場(chǎng)的價(jià)格估計(jì)。②批量評(píng)估的覆蓋面不完整?;ヂ?lián)網(wǎng)數(shù)據(jù)雖然總量巨大,但并非面面俱到。以住宅小區(qū)為例,一些體量較小的小區(qū),或者一些遠(yuǎn)郊區(qū)域,可能無(wú)法在互聯(lián)網(wǎng)上被搜索到。因此,基于互聯(lián)網(wǎng)數(shù)據(jù)挖掘的批量評(píng)估勢(shì)必在覆蓋面上存在缺陷。
4以人工與計(jì)算機(jī)技術(shù)相結(jié)合的技術(shù)方法
房地產(chǎn)批量評(píng)估,尤其是涉稅的批量評(píng)估對(duì)評(píng)估系統(tǒng)的要求主要有:全面覆蓋所有物業(yè)、估價(jià)結(jié)果準(zhǔn)確以及系統(tǒng)維護(hù)成本適中。根據(jù)前文對(duì)各方法的論述,單一方法很難實(shí)現(xiàn)上述要求。如標(biāo)準(zhǔn)價(jià)調(diào)整法若在大型或超大型城市中應(yīng)用,將面臨很高的運(yùn)營(yíng)成本;多元回歸建模的更新維護(hù)周期較長(zhǎng),當(dāng)市場(chǎng)出現(xiàn)快速波動(dòng)時(shí)可能無(wú)法及時(shí)調(diào)整;基于大數(shù)據(jù)的數(shù)據(jù)挖掘在估價(jià)精度與覆蓋面上都有所欠缺??傊?,無(wú)論從技術(shù)上論證還是從實(shí)施效果來(lái)看,多種方法的有效結(jié)合是較為理想的,也是房地產(chǎn)批量評(píng)估技術(shù)的發(fā)展趨勢(shì)。實(shí)踐中各方法的結(jié)合已有普遍應(yīng)用,并且各有巧妙,方法不盡相同。下面就幾種簡(jiǎn)單的組合方式進(jìn)行討論。
4.1標(biāo)準(zhǔn)價(jià)調(diào)整法與大數(shù)據(jù)挖掘技術(shù)的組合大數(shù)據(jù)挖掘可以滿足一些活躍小區(qū)的價(jià)格估算,因?yàn)榛钴S小區(qū)的掛牌房源較多,能滿足算法所要求的數(shù)據(jù)量前提,而不活躍的小區(qū)則無(wú)法為算法提供足夠的“原材料”,因此不適用數(shù)據(jù)挖掘的方法。這時(shí)就可以運(yùn)用標(biāo)準(zhǔn)價(jià)調(diào)整法來(lái)彌補(bǔ)。按照標(biāo)準(zhǔn)價(jià)調(diào)整法的原理,在不活躍小區(qū)的臨近或相似區(qū)域內(nèi)設(shè)置一個(gè)標(biāo)準(zhǔn)房,經(jīng)人工調(diào)研后設(shè)置標(biāo)準(zhǔn)房與不活躍小區(qū)價(jià)格的調(diào)整系數(shù)。這樣在算法得出活躍小區(qū)價(jià)格的同時(shí),可以利用預(yù)先設(shè)置好的系數(shù)一并計(jì)算不活躍小區(qū)的價(jià)格。此外,在算法可以計(jì)算的活躍小區(qū)的價(jià)格中,也有可能存在價(jià)格偏差。這時(shí)也可以應(yīng)用標(biāo)準(zhǔn)價(jià)調(diào)整法的思路,設(shè)置活躍小區(qū)間的價(jià)格調(diào)整系數(shù),來(lái)檢驗(yàn)算法所得結(jié)果的合理性。這一組合的應(yīng)用前提主要是看大數(shù)據(jù)挖掘的應(yīng)用前提是否存在,即是否存在大量數(shù)據(jù)可供挖掘,因此適合房地產(chǎn)市場(chǎng)規(guī)模較大,“互聯(lián)網(wǎng)+”比較發(fā)達(dá)的城市和地區(qū)。此外,在結(jié)合了大數(shù)據(jù)挖掘技術(shù)后,標(biāo)準(zhǔn)價(jià)調(diào)整法可以應(yīng)用到大中型及以上城市,克服了其原有的一大弊端。
4.2多元回歸模型與大數(shù)據(jù)挖掘技術(shù)的組合除了對(duì)人員的能力要求以及對(duì)樣本數(shù)據(jù)的質(zhì)量要求較高以外,多元回歸模型最大的弱點(diǎn)在于迭代問(wèn)題。市場(chǎng)不斷變化,模型不可能一成不變,當(dāng)市場(chǎng)發(fā)生變化并導(dǎo)致變量之間的關(guān)系也發(fā)生改變時(shí),原有模型的價(jià)格預(yù)計(jì)精度必然下降,此時(shí)必須對(duì)模型進(jìn)行重新構(gòu)建。問(wèn)題在于市場(chǎng)價(jià)格變化未必會(huì)導(dǎo)致變量間的關(guān)系也發(fā)生變化(或變化很?。?,或者當(dāng)變量間關(guān)系發(fā)生變化時(shí),人員主觀上可能無(wú)法及時(shí)發(fā)現(xiàn)。當(dāng)主觀能夠感受到變量間的關(guān)系出現(xiàn)變化時(shí),往往已經(jīng)有了很大的變化。此時(shí)再進(jìn)行模型的迭代就已近晚了,之前的價(jià)格估算可能已經(jīng)出現(xiàn)了錯(cuò)誤。大數(shù)據(jù)挖掘技術(shù)可以很好地彌補(bǔ)上述的缺陷。大數(shù)據(jù)挖掘不僅可以直接計(jì)算某些具體變量,任何數(shù)據(jù)內(nèi)在的規(guī)律和關(guān)聯(lián)都可能應(yīng)用大數(shù)據(jù)挖掘的方式進(jìn)行探索和發(fā)現(xiàn),并且能對(duì)極為細(xì)小的數(shù)值波動(dòng)進(jìn)行反應(yīng)。利用數(shù)據(jù)挖掘的這一特性,可以建立對(duì)變量的波動(dòng)監(jiān)控,當(dāng)波動(dòng)超過(guò)一定的預(yù)設(shè)閥值即可啟動(dòng)模型的迭代更新。這一組合的應(yīng)用前提同樣取決于大數(shù)據(jù)挖掘的應(yīng)用前提,除了城市規(guī)模等情況限制外,如商業(yè)物業(yè)、工業(yè)廠房等物業(yè)市場(chǎng)也不適用。
4.3標(biāo)準(zhǔn)價(jià)調(diào)整法與多元回歸模型的組合標(biāo)準(zhǔn)價(jià)調(diào)整法往往適用于特性相近的物業(yè),如在一個(gè)小區(qū)中設(shè)定一個(gè)標(biāo)準(zhǔn)房,再設(shè)定標(biāo)準(zhǔn)房與其他房屋的價(jià)格修正系數(shù)。在價(jià)格更新時(shí),求取標(biāo)準(zhǔn)房?jī)r(jià)格后,即可得到小區(qū)內(nèi)所有房屋的價(jià)格。但當(dāng)城市規(guī)模很大時(shí),也就是有很多小區(qū)時(shí),必須要求取所有小區(qū)的標(biāo)準(zhǔn)房?jī)r(jià)格,如僅以人工來(lái)評(píng)估得出的話,成本非常高。此時(shí)在求取小區(qū)標(biāo)準(zhǔn)房?jī)r(jià)格方面,采用多元回歸模型的方法可以極大地減少人工和時(shí)間成本。由于標(biāo)準(zhǔn)價(jià)調(diào)整法和多元回歸模型都屬于以人工為主的技術(shù)方法,因此理論上的應(yīng)用幾乎不受限制。在結(jié)合多元回歸模型后,標(biāo)準(zhǔn)價(jià)調(diào)整法也可擴(kuò)展應(yīng)用到大中及以上城市。從上述三個(gè)組合中可以看到,原單一技術(shù)的某些弊端可以被克服,整體技術(shù)方案的適用范圍和效果可獲得較大提升和改進(jìn)。實(shí)際研究和應(yīng)用中可能有更多種的技術(shù)組合,且并不限于本文論述的主流技術(shù)方法。多種技術(shù)組合應(yīng)用是房地產(chǎn)批量評(píng)估技術(shù)探索和創(chuàng)新的主要方向。
5房地產(chǎn)批量評(píng)估技術(shù)的選用
無(wú)論是單一技術(shù)還是多種技術(shù)方法的結(jié)合應(yīng)用,房地產(chǎn)批量評(píng)估技術(shù)的選用依據(jù)主要是數(shù)據(jù)狀況、結(jié)果的質(zhì)量狀況以及運(yùn)行成本。數(shù)據(jù)狀況主要指數(shù)據(jù)的數(shù)量和質(zhì)量。就技術(shù)方案來(lái)說(shuō),側(cè)重點(diǎn)有所不同。例如在多元回歸模型中,對(duì)于樣本案例的參數(shù)質(zhì)量要求是所有技術(shù)方案中最高的;而大數(shù)據(jù)挖掘技術(shù)則對(duì)數(shù)據(jù)的數(shù)量要求最高?,F(xiàn)實(shí)中不太會(huì)碰到數(shù)量又多質(zhì)量又好的數(shù)據(jù)狀況,因此在技術(shù)選用時(shí)首先需要考慮是否可以穩(wěn)定獲得所需要的數(shù)據(jù)。至于結(jié)果的質(zhì)量狀況和運(yùn)行成本,很難設(shè)定一個(gè)標(biāo)準(zhǔn)線。只能根據(jù)不同的需求目的來(lái)設(shè)定質(zhì)量目標(biāo),以及根據(jù)組織的投入產(chǎn)出效益來(lái)選擇可行的技術(shù)方案。以上海城市房地產(chǎn)估價(jià)有限公司開(kāi)發(fā)的VISS系統(tǒng)的運(yùn)行情況來(lái)看,其在住宅物業(yè)批量評(píng)估方案中采用了標(biāo)準(zhǔn)價(jià)調(diào)整法與大數(shù)據(jù)挖掘相結(jié)合的方法,使其系統(tǒng)的評(píng)估精度基本控制在正負(fù)6%的誤差范圍,極端誤差范圍為正負(fù)10%。對(duì)于上海12000多個(gè)住宅小區(qū),其價(jià)格更新周期為每月,其數(shù)據(jù)維護(hù)人員僅8-10人,每次價(jià)格更新的工作周期僅為兩周。在其新研發(fā)的辦公物業(yè)批量評(píng)估方案中,更是結(jié)合了標(biāo)準(zhǔn)價(jià)調(diào)整法、多元回歸模型以及大數(shù)據(jù)挖掘三種方法,使其系統(tǒng)的評(píng)估精度可以控制在正負(fù)10%的誤差范圍,極端誤差范圍為正負(fù)15%。對(duì)于上海3000多棟寫字樓物業(yè),可以實(shí)現(xiàn)3個(gè)月的價(jià)格更新周期,而數(shù)據(jù)維護(hù)人員僅3人。因此,在選用何種技術(shù)方案時(shí),主要有四個(gè)評(píng)價(jià)因素。一是技術(shù)方案所需的數(shù)據(jù)是否可以穩(wěn)定獲得;二是批量評(píng)估的價(jià)格精度是否滿足目標(biāo)需求;三是批量評(píng)估的物業(yè)覆蓋面是否完整;四是批量評(píng)估的運(yùn)行維護(hù)成本企業(yè)(或組織)是否可以承受。以此為標(biāo)準(zhǔn),運(yùn)用多方法結(jié)合的思路進(jìn)行技術(shù)的研發(fā)和創(chuàng)新才是房地產(chǎn)批量評(píng)估技術(shù)發(fā)展的正確道路。
6結(jié)語(yǔ)