网站首页
教育杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
医学杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
经济杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
金融杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
管理杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
科技杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
工业杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
SCI杂志
中科院1区 中科院2区 中科院3区 中科院4区
全部期刊
公務員期刊網(wǎng) 論文中心 正文

本科生角度談生物醫(yī)學數(shù)據(jù)的建模心得

前言:想要寫出一篇引人入勝的文章?我們特意為您整理了本科生角度談生物醫(yī)學數(shù)據(jù)的建模心得范文,希望能給你帶來靈感和參考,敬請閱讀。

本科生角度談生物醫(yī)學數(shù)據(jù)的建模心得

摘要:由于生物醫(yī)學研究領域數(shù)據(jù)的復雜性,高效的統(tǒng)計建模尤為重要。筆者以肺癌全基因組關(guān)聯(lián)研究為例,結(jié)合建立肺癌風險預測模型的切身體會,建議研究者需要重視數(shù)據(jù)質(zhì)量控制體系、反復推敲建模方法和策略、培養(yǎng)熟練的軟件操作技能。

關(guān)鍵詞:生物醫(yī)學數(shù)據(jù);統(tǒng)計建模;預測模型;心得體會

隨著生物信息技術(shù)的飛速發(fā)展,生物醫(yī)學研究領域的數(shù)據(jù)呈幾何級增長。近年來,生物醫(yī)學大數(shù)據(jù)受到學者們的廣泛關(guān)注。生物醫(yī)學大數(shù)據(jù)具有典型的“4V”特征:體量巨大(volume)、種類繁多(variety)、實時更新(velocity)、價值隱藏(value)[1];“3H”特點:高維(highdimension)、高度計算復雜性(highcomplexity)、高度不確定性(highuncertainty)[2]。因此,綜合利用生物學、醫(yī)學、數(shù)學、流行病學、統(tǒng)計學、計算機學等多個學科的方法和手段,從中挖掘“有價值”的信息,為生物醫(yī)學研究提供確鑿有效的證據(jù),顯得尤為重要。筆者以肺癌全基因組關(guān)聯(lián)研究(genome-wideas-sociationstudy,GWAS)為例,結(jié)合理論學習和案例實踐的切身體會,淺談利用GWAS數(shù)據(jù)建立肺癌風險預測模型的心得體會。

一、嚴謹?shù)臄?shù)據(jù)質(zhì)量控制體系不容忽視

由于存在檢測、觀察、填寫或錄入錯誤,未經(jīng)數(shù)據(jù)質(zhì)控的原始數(shù)據(jù)極可能含有一些異常,甚至錯誤的觀測值。在研究設計之初,便要盡可能考慮規(guī)避產(chǎn)生錯誤數(shù)據(jù)。另外,統(tǒng)計建模之前,仍然必須對原始數(shù)據(jù)再次進行質(zhì)量控制。在GWAS中,要同時對行(樣本)、列(位點)進行質(zhì)量評價。例如,刪除次等位基因頻率低于5%、缺失率超過5%或哈代不平衡的位點;刪除分型失敗率超過5%、問卷性別與遺傳性別不一致、存在血緣關(guān)系、屬于離群值的樣本[3]。另外,同時需要對流行病學問卷及臨床數(shù)據(jù)進行核查。只有對數(shù)據(jù)進行清理后,才能用于后續(xù)關(guān)聯(lián)分析、統(tǒng)計建模。

二、合理的建模方法和策略值得精雕細琢

對于GWAS高維數(shù)據(jù),合理的方法和策略不僅要考慮統(tǒng)計學性能(一類錯誤、檢驗效能、預測精度),還需要考慮分析效率(計算速度)。因此,研究者應該要深入思考,為研究項目量身定制一套“合理”的方法和策略。然而,現(xiàn)有的統(tǒng)計學模型和方法往往都有相應的應用條件。實際數(shù)據(jù)由于其變量結(jié)構(gòu)的復雜性,不一定完全滿足所有的應用條件。并且,簡單的算法速度快,但統(tǒng)計性能相對低;復雜算法需要犧牲計算速度來提升統(tǒng)計性能。因此,研究者可能需要制定多個備選方案。結(jié)合建模步驟,筆者將從以下幾個方面,淺談個人心得體會。1.初始模型:一般擬合logistic回歸模型評價肺癌風險。模型中往往需要納入一些協(xié)變量,例如:年齡、性別、吸煙、人群分層等。一般參考以下納入原則:(a)在模型中有統(tǒng)計學意義(P≤0.05);(b)即便在模型中無統(tǒng)計學意義,但絕大多數(shù)同類研究顯示其是公認的影響因素。某些協(xié)變量可能是位點的混雜因素,例如人群分層。如果GWAS中忽視調(diào)整混雜因素的影響,則有可能導致誤報噪音位點的一類錯誤膨脹,或識別致病位點的檢驗效能降低[4]。此外,研究者還需要考察協(xié)變量進入模型的形式。一般而言,無序分類變量以啞變量形式進入模型。當某些類別樣本量特別小,需要進行類別合并。有序分類變量、連續(xù)性變量則需要考慮是否以非線性的形式進入模型。一種最簡單的方式是,將連續(xù)性變量轉(zhuǎn)化為有序分類變量,并以啞變量形式進入模型。如果啞變量各組的系數(shù)呈現(xiàn)線性遞增的趨勢,則提示原始變量與結(jié)局變量間存在線性關(guān)系。否則,可采用啞變量、樣條函數(shù)等方法處理非線性關(guān)系。2.因素篩選:研究者需要從GWAS數(shù)據(jù)50萬位點中篩選出肺癌相關(guān)位點,加入初始模型,以提高模型的預測精度。常規(guī)做法是,在初始模型中逐個納入位點,對位點的主效應進行假設檢驗。因檢驗次數(shù)達50萬次,研究者必須要考慮多重比較所致的一類錯誤膨脹。常見一類錯誤控制方法有Bonferroni法和FDR法。前者較為嚴格,后者較為寬松。GWAS識別位點一般采用“寧缺毋濫”的原則,傾向于采用嚴格的校正方法。除此之外,研究者還要在多個獨立的人群中驗證初篩的位點。如果位點在多個人群中都顯示與結(jié)局存在統(tǒng)計學關(guān)聯(lián),則認為該位點是潛在的影響因素。除基因位點主效應外,研究者還需要關(guān)注基因-基因、基因-環(huán)境交互作用。復雜疾病往由環(huán)境、基因相互影響,共同導致。因此,有必要在模型中對交互作用進行評估。例如,基因-環(huán)境交互作用可以顯著提高肺癌風險預測模型的預測精度[5]。有效的降維策略能夠提高因素篩選的效率。筆者曾采用“信息熵初篩→對數(shù)線性模型再篩→多因素lo-gistic回歸模型確認”的降維策略進行全基因組基因-基因交互作用分析[6]。信息熵方法計算速度快,且其統(tǒng)計量總是不小于對數(shù)線性模型,不會出現(xiàn)漏檢的情況。前兩步可以檢驗次數(shù)將1011次縮減至105次。檢驗次數(shù)降低6個數(shù)量級。最后一步,利用調(diào)整協(xié)變量的logistic回歸模型對關(guān)聯(lián)結(jié)果加以確認,防止出現(xiàn)假陽性。當然,研究者也可以根據(jù)項目“量體裁衣”,選擇其他降維方法,例如:隨機森林(randomforest)、多因子降維(multifactordimensionalityreduction,MDR)等。3.預測模型:經(jīng)過遺傳因素篩選步驟后,研究者可通逐步回歸、LASSO等方法,建立含有與協(xié)變量、遺傳位點的主效應項、交互作用項的風險預測模型。根據(jù)受試者工作特征曲線(receiveroperatingcharacteristiccurve,ROC)確定一個風險閾值,使得風險預測的靈敏度、特異度同時達到最優(yōu)。若樣本的預測概率≥閾值,則預測該樣本為肺癌。4.模型評價:從統(tǒng)計學的角度,可采用ROC曲線下面積(areaunderROC,AUC)來評價模型的優(yōu)劣[7]。此外,還可以采用交叉驗證的方式評價模型,即:訓練集擬合的預測模型對測試集的樣本進行風險估計,并計算AUC。然而,AUC并非衡量模型的唯一標準。如果預測模型形式簡單,應用便捷,即便AUC稍有遜色,也是優(yōu)秀的模型之一。所以,筆者認為需要綜合考慮,權(quán)衡利弊。

三、熟練的軟件操作和編程技能令人事半功倍

扎實的理論基礎固然重要,熟練的軟件操作亦不可或缺。筆者建議研究者不要拘泥于某一軟件,本著“方便原則”利用多個軟件進行數(shù)據(jù)處理、統(tǒng)計建模。根據(jù)筆者的經(jīng)驗,一般不太可能一次性完成建模工作,往往需要不斷調(diào)整分析策略和分析方法。因此,筆者建議研究者適當撰寫一些項目相關(guān)的通用程序。如果需要重新建模,只需要修改程序參數(shù),微調(diào)代碼就可以建立新的預測模型。因此,這就要求研究者“功在平時”以培養(yǎng)編程能力?;诜伟〨WAS風險預測模型的建模體會,筆者建議研究者需要重視數(shù)據(jù)質(zhì)量控制體系、推敲建模方法和策略、培養(yǎng)熟練軟件操作技能。

參考文獻:

[1]王波,呂筠,李立明.生物醫(yī)學數(shù)據(jù):現(xiàn)狀與展望[J].中華流行病學雜志,2014,35(6):617-620.

[2]寧康,陳挺.生物醫(yī)學大數(shù)據(jù)的現(xiàn)狀與展望[J].科學通報,2015,(z1):534-546.

[3]陳峰,柏建嶺,趙楊,荀鵬程.全基因組關(guān)聯(lián)研究中的統(tǒng)計分析方法[J].中華流行病學雜志,2011,32(4):400-404.

[4]ZhaoY,ChenF,ZhaiR,LinX,WangZ,SuL,ChristianiDC.Correctionforpopulationstratificationinrandomforestanalysis[J].InternationalJournalofEpidemiology,2012,41(6):1798-1806.

[5]ZhangR,ChuM,ZhaoY,WuC,GuoH,ShiY,DaiJ,WeiY,JinG,MaH,DongJ,YiH,BaiJ,GongJ,SunC,ZhuM,WuT,HuZ,LinD,ShenH,ChenF.Agenome-widegene-environmentinteractionanalysisfortobaccosmokeandlungcancersusceptibility[J].Carcinogenesis,2014,35(7):1528-1535.

[6]ChuM,ZhangR,ZhaoY,WuC,GuoH,ZhouB,LuJ,ShiY,DaiJ,JinG,MaH,DongJ,WeiY,WangC,GongJ,SunC,ZhuM,QiuY,WuT,HuZ,LinD,ShenH,ChenF.Agenome-widegene-geneinteractionanalysisidentifiesanepistaticgenepairforlungcancersusceptibilityinHanChinese[J].Carcinogenesis,2014,35(3):572-577.

[7]陳峰.醫(yī)用多元統(tǒng)計分析方法[M].北京:中國統(tǒng)計出版社,2000.

作者:陳欣 郁可沁 魯涵 魏永越 趙楊 于浩 陳峰 張汝陽 單位:南京醫(yī)科大學公共衛(wèi)生學院

免责声明

本站为第三方开放式学习交流平台,所有内容均为用户上传,仅供参考,不代表本站立场。若内容不实请联系在线客服删除,服务时间:8:00~21:00。

AI写作,高效原创

在线指导,快速准确,满意为止

立即体验
文秘服务 AI帮写作 润色服务 论文发表