前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的生物信息學的概念主題范文,僅供參考,歡迎閱讀并收藏。
一、正視學生的學習錯誤,是新課改以人為本理念的體現(xiàn)
我們知道,課堂是學生學習中犯錯誤的地方,課堂教學也應該大膽暴露學生的學習錯誤。每一個學生都是有思想、有情感、有需求、有尊嚴的生命個體,他們都有個性,而且存在個性差異。學生的學習是一個自主的認知建構過程,是從不懂到懂,從不會到會,從無到有的完善過程。由于學生的客觀差異性,學生的學習有快有慢,有好有差,有對有錯??梢哉f,學生在學習上犯錯誤是正常的。在新一輪課程改革的進程中,老師不斷要有課程意識、學生意識、資源意識等,其中資源意識涵蓋很多內容,學生是資源,學生的學習狀況也是資源。老師面對學生時不僅要有成功學生的范例,有學生正確學習的資源,也要正視學生的學習錯誤這一資源,剖析并用好學習錯誤這一資源。應當說,正視學生的學習錯誤,是對學生人格的尊重;正視學生的學習錯誤,是堅持新課改核心理念“一切為了學生的發(fā)展”的具體體現(xiàn)。同時,正視學生的學習錯誤,也有利于教師反思教學。面對學生的學習錯誤,首先老師要捫心自問自己的教學哪里出了紕漏,反思自己的教學行為是不是有教材沒吃透,教法不符合學法,因材施教方面有哪些不足,教學機智欠佳,預設教學與生成教學在哪里沒融合好等。然后,老師及時調整自己的教學行為來更好地服務學生的學習行為。
二、正視學生的學習錯誤,有利于學生改善學習和成長
學生面對學習錯誤,老師指導學生認識到錯誤的說法、做法可以用來啟發(fā)其他同學和自己想到正確的說法、做法,找到正確的方法、路徑來解決問題,從中讓學生明白在學習上犯錯誤是自然的、正常的事,錯誤中暗示著正確。學生面對學習錯誤,老師或同學應該幫助他分析錯誤的原因,并讓學生自己學會回顧產(chǎn)生錯誤的歷程,找到錯誤的原因,分析是認知基礎差,還是學習能力弱,是思維定勢所致,還是學習品質、學習習慣諸因素所致,找到癥結才好下藥改正。學生面對學習錯誤,老師要讓其明確改正學習上的錯誤是每位學生應盡的學習責任,做到隨時有了學習上的錯誤就能及時改正,明白每改正一次錯誤就是一個進步。這樣學生在學習過程中才能減少學習錯誤,提高解題正確率,使學生從錯誤中想到正確所在,從失敗走向成功。
學習是一個不斷解決問題的過程,也是不斷改正學習錯誤的過程。老師不歧視犯了學習錯誤的學生,反而正視學生的學習錯誤,把學習錯誤當作一種資源,經(jīng)常匯集學生的學習錯誤例子,有利于因材施教,優(yōu)化教學。同時,老師應該充分利用這些學習錯誤,對學生因勢利導,讓學生正視學習錯誤,多鼓勵學生,使學生站在另一角度看待學習錯誤,從錯誤中有意義地學習,正如一些高考狀元介紹學習心得時,特地指出他們自己重視分析錯題,甚至把錯題匯編成冊,經(jīng)常反思,不斷突破,高效學習。正視學生的學習錯誤,可以幫助學生樹立學習的信心,培養(yǎng)學習責任,不斷減少錯誤,學會正確學習,從而使學生得到自主、和諧、全面、持續(xù)發(fā)展。
三、正視學生的學習錯誤,教師要擁有一顆寬容的心
我們知道,每個學生都有自己的生活背景、家庭環(huán)境、特定的生活與社會文化氛圍,這就導致了不同的學生有著不同的經(jīng)歷,不同的思維方式、不同的興趣愛好、不同的發(fā)展?jié)撃?。就我所任教的?shù)學學科而言,教學實踐證明不同學生之間的差異是永遠存在的,在數(shù)學方面往往更為明顯。因此,在學習同一數(shù)學內容時,學生既有在復雜處出錯的可能,也有在簡單處出錯的可能,既有一次出錯的可能,也有多次出錯的可能。一個學生在此可能出錯,另一個學生可能在此不出錯;多數(shù)人在此可能出錯,少數(shù)人可能在此不出錯。要允許不同的學生用不同的速度,不同的方式學習數(shù)學,允許不同的學生在數(shù)學方面得到不同的發(fā)展,新課程要求最大限度地滿足每一個學生的潛能,其中很重要的一點就是要特別關注數(shù)學學習上能力不足或暫時有困難的學生。所以,要實現(xiàn)這一點教師就要寬容學生的錯誤。
關鍵詞:生物信息學;實踐教學;教學模式
中圖分類號 G642.0 文獻標識碼 A 文章編號 1007-7731(2017)06-0179-03
Innovative Teaching Pattern of Bioinformatics
Zhu Liucun et al.
(School of Life Sciences,Shanghai University,Shanghai 200444,China)
Abstract:As a newly-developing interdiscipline,bioinformatics has received incessant attention on the research of teaching models.Traditional teaching methods focus on the pattern of direct instruction and demonstration from the lecturer which students were used to learning in China.However,this straight teaching pattern usually lacks of capacity of arousing students' interest in learning,let alone achieves the aim of making them complete their work with the knowledge they learned in class.Recently,case-based learning,problem-based learning and program-based learning are known as successfully innovative teaching models.In this paper,by combining these three models and considering the background of students and characteristic of bioinformatics,we propose a new teaching pattern to be geared to the needs of the undergraduates learning bioinformatics.We look forward to the innovation and development this teaching pattern may achieve so as to enhance the students' capacity of independent study and thinking.
Key words:Bioinformatics;Practice teaching;Teaching pattern
1 前言
生物信息學是生命科學的重要前沿交叉學科之一,綜合計算機科學、數(shù)學、生物學等學科的技術和方法,以計算機為主要的工具,對生物原始數(shù)據(jù)進行研究、存檔、分析和處理,以闡明其具有的生物學意義[1,2]。隨著人類基因組計劃的成功完成,測序技術的不斷發(fā)展,越來越多的生物基因序列數(shù)據(jù)被載入到數(shù)據(jù)庫中。而大數(shù)據(jù)時代的到來要求我們能大規(guī)模的分析處理這些數(shù)據(jù),因此生物信息學進入高速發(fā)展的黃金期。
目前生物信息學在許多高校本科生物專業(yè)中開設,目的是讓學生掌握生物信息學的相關技術及分析數(shù)據(jù)能力,并具有查找、跟蹤生物信息學前沿性技術的能力。然而,在與學生的交流過程中,筆者發(fā)現(xiàn)幾個普遍存在的問題:有的學生反映,聽完課很快就忘了;有的學生感覺很多概念太難懂;而更為關鍵的是,很多學生學完這門課之后,仍然不知道遇到具體的問題應當如何去做,甚至根本想不到用生物信息學課上學到的方法去解決他們的實際問題。究其原因,主要是由于國內的生物信息學教學基本以教師講授為主,缺少與學科本身交叉前沿性特點相結合的教學方法[3],導致學生學習積極性不高,變成簡單的重復老師的實驗操作,失去獨立思考的能力,這就違背了開設這門課的初衷。為此,本文就目前流行的3種創(chuàng)新教學模式的特點進行分析,結合生物信息學特點,歸納出一套適合本科生物信息學教學的方法。
2 幾種創(chuàng)新教學模式介紹
2.1 案例式教學法 案例式教學法(Case-Based Learning)是指教師根據(jù)教學內容設計案例,利用案例材料指導學生參與教學活動,充分發(fā)揮學生主導地位的方法[3,4]。不同于傳統(tǒng)教學灌輸?shù)姆绞?,案例式教學更加注重學生能力的培養(yǎng),不直接提供解決問題的標準答案,而是通過結合具體案例討論得到解決問題的方法。
2.2 問題式教學法 問題式教學法(Problem-Based Learning)是以問題為導向的開放式教學模式[5],主張讓學生自主學習去解決問題,培養(yǎng)學生的學習主動性,加深學生對理論知識的理解和應用。其特點是將教材的知識點以問題的形式呈現(xiàn)在學生的面前,讓學生在探索解決問題的過程中展開探索,教師和學生一起協(xié)作尋找解決問題的方法,從而掌握課本中的知識。在研究活動中,學生可以充分利用身邊的資源,比如圖書館的文獻檢索系統(tǒng)、網(wǎng)絡學習軟件以及多媒w等多種形式進行自主學習。問題式教學模式營造了一種輕松快樂的學習氛圍,提高了學生相互合作的團隊意識,為以后步入社會工作打下堅實的基礎。比如,在BLAST軟件使用教學中,可以先給學生提出如何對兩條DNA序列進行比對的問題,讓他們通過自學與相互討論的方式掌握BLAST的使用方法并將2條DNA序列利用BLAST進行比對并對比對結果加以闡述。
2.3 項目式教學法 項目式教學法(Program-Based Learning)是以項目為主線,在老師的指導下,將一個相對獨立的項目交由學生處理,包括對信息的收集、方案的設計、項目的實施及最終評價[6]。學生通過對該項目的進行,了解并把握整個程及每一個環(huán)節(jié)中的基本要求,以此來培養(yǎng)學生獨立分析解決問題的能力,讓學生提高自己的動手能力、組織協(xié)作能力和綜合概括的能力,拓展學生思考問題的深度和廣度。這種教學法應用非常廣泛,尤其是在職業(yè)教育中。
3 應用于生物信息W課程的創(chuàng)新教學模式
那么采取哪種教學方式才能夠讓學生順利掌握知識點,并且能應用到實際當中去呢?一般的生物學課程,只要在理論課后加入實踐課的內容,就可以解決這個問題,例如細胞生物學,只要再加入細胞生物學實驗,那么學生對這門課的理解就會加深很多,對這門課的應用也會有一定的了解。然而筆者在實際的教學過程中卻發(fā)現(xiàn),這樣的方式并不適合生物信息學這門課程,這是由于多數(shù)學生在上機實踐之后,仍然不是太理解課上講的一些概念,也不知道如何將這些方法運用到實際中。造成這種情況的原因主要有兩點,一個是生物信息學這門課程所要求的數(shù)學和計算機方面基礎,絕大多數(shù)學生物的學生都比較薄弱,甚至有部分同學在計算機編程方面是零基礎。這使得他們在理論課上,對一些概念只是強行記住,并沒有真正理解。而在上機實踐環(huán)節(jié)中,他們又只是走馬觀花地將整個流程給過了一遍,并不知道這些操作是用來做什么的。另一個原因則是生物信息學與其他生物學的課程之間有脫節(jié),這使得生物信息學的知識點很難融入到學生的現(xiàn)有知識體系當中去,這樣就導致了學生不知道這些知識點的用途。因此,必須在激發(fā)學生學習興趣的基礎上,深入剖析生物信息學的基本概念,并且結合生物學中的實際問題,引導學生對其進行解決,才能讓學生真正掌握這門課。而傳統(tǒng)的老師講、學生聽的授課方式顯然是不能滿足這一要求的。
案例式教學法起源于美國哈佛商學院,最早應用于商業(yè)管理課程。其重點在于對一些熱門且有爭議的問題進行反復討論,加深學生對知識點的理解。而生物信息學課程的內容大多比較確定,比較前沿有爭議的話題又離日常生活較遠,極少出現(xiàn)熱門話題。因此,筆者認為案例式教學法目前可以偶爾用作課堂教學穿插,不適合全面應用于本科生物信息學課程。
問題式教學模式與項目式教學模式在本質上是相同的,均是以學生為主體,讓學生帶著問題或者有明確的目標的去主動利用身邊資源查找相關知識解決問題完成目標,使學生在探索過程不僅掌握了知識,同時萌生自主學習的動機和欲望,提高了自主學習能力。兩種教學模式的區(qū)別在于問題式教學法是將書本中的知識點凝練為問題再分析問題并解決問題,而項目式教學法則是根據(jù)老師提出的項目要求,以收集信息、設計方案、實施項目、最終評價為線索進行教學。問題式教學提出的問題與書本知識更為接近且較為零散,學生在針對問題進行分析和解決的過程中,容易對教學內容缺乏整體認識,即難以將知識點連成線,也很難結合實際問題。而項目式教學法是目前最適合提高學生能力的教學方法。然而在實際教學過程中,筆者發(fā)現(xiàn)大多數(shù)學生對項目式教學并不適應,很多學生在理解項目時就遇到了困難,在項目設計時感到無從下手。
因此,筆者在對兩種教學方法進行研究歸納之后,將問題式教學法與項目式教學法相結合,總結出一套適合本科生物信息學教學的方法。具體為:首先教師根據(jù)課程安排制定一個可擴展的課題,明確課題要求,并根據(jù)課題內容將知識點拆分,以問題形式展現(xiàn)給學生,教師先就這些問題講一些例子,學生查找資料。在此基礎上,學生既對課題內容有整體認識,又在分析、解決一系列小問題時學習到知識點、收集了項目信息。隨后通過參與定期分組討論,與老師進行溝通的方式,學生最終可以擬定項目的方案并付諸實施。這種教學模式讓學生了解實際工作的流程,培養(yǎng)基本的工作能力。在與教師的交流討論中收獲更多的專業(yè)知識,與同學之間的合作交流中查漏補缺,完善自己的不足,達到相互提高的作用。例如,在教學中,教師可以設計一個題為“構建一個可以預測乳腺癌患者生存時間的基因模型”的項目,并將項目拆解為:如何查找潛在包含乳腺癌患者信息的數(shù)據(jù)庫?如何篩選與生存時間相關的基因?如何構建模型?如何評價模型的好壞四個問題?同時,為了讓學生在實踐中更好下手,可以依次為各個問題舉例加以說明。如查找數(shù)據(jù)庫環(huán)節(jié),可以列舉NCBI中的GEO數(shù)據(jù)庫與美國政府發(fā)起的癌癥和腫瘤基因圖譜計劃涉及的TCGA數(shù)據(jù)庫兩個例子,讓學生先從這兩個數(shù)據(jù)庫獲取相關的數(shù)據(jù),對數(shù)據(jù)本身有所認識,再利用校園網(wǎng)資源查找更多的數(shù)據(jù)庫。在此過程中,學生全程參與項目實現(xiàn)的各個流程,不僅學會了自主查找資料與學習,還提高了同學間的優(yōu)勢互補與團隊協(xié)作的能力,提高學生學習的積極性,獲得獨立思考的能力。
參考文獻
[1]龔樂君,楊榮根.淺談計算機交叉學科――生物信息學教學中的探討[J].新教育時代電子雜志(教師版),2014(19):123-124.
[2]徐培杰.生物信息學研究現(xiàn)狀[J].科技信息,2013(10):268-269.
[3]劉念.案例教學法在《生物信息學》本科教學中的應用[J].考試周刊,2016(78):152,191.
[4]張俊河,董衛(wèi)華,王芳,等.案例教學法在醫(yī)學生物化學教學中的應用[J].山西醫(yī)科大學學報(基礎醫(yī)學教育版),2010(02):139-142.
一、整合生物信息學的研究領域
盡管目前一般意義上的生物信息學還局限在分子生物學層次,但廣義上的生物信息學是可以研究生物學的任何方面的。生命現(xiàn)象是在信息控制下不同層次上的物質、能量與信息的交換,不同層次是指核酸、蛋白質、細胞、器官、個體、群體和生態(tài)系統(tǒng)等。這些層次的系統(tǒng)生物學研究將成為后基因組時代的生物信息學研究和應用的對象。隨著在完整基因組、功能基因組、生物大分子相互作用及基因調控網(wǎng)絡等方面大量數(shù)據(jù)的積累和基本研究規(guī)律的深入,生命科學正處在用統(tǒng)一的理論框架和先進的實驗方法來探討數(shù)據(jù)間的復雜關系,向定量生命科學發(fā)展的重要階段。采用物理、數(shù)學、化學、力學、生物等學科的方法從多層次、多水平、多途徑開展交叉綜合研究,在分子水平上揭示生物信息及其傳遞的機理與過程,描述和解釋生命活動規(guī)律,已成生命科學中的前沿科學問題(摘自:國家“十一五”生命科學發(fā)展規(guī)劃),為整合生物信息學的發(fā)展提供了數(shù)據(jù)資源和技術支撐。
當前,由各種Omics組學技術,如基因組學(DNA測序),轉錄組學(基因表達系列分析、基因芯片),蛋白質組學(質譜、二維凝膠電泳、蛋白質芯片、X光衍射、核磁共振),代謝組學(核磁共振、X光衍射、毛細管電泳)等技術,積累了大量的實驗數(shù)據(jù)。約有800多個公共數(shù)據(jù)庫系統(tǒng)和許多分析工具可利用通過互聯(lián)網(wǎng)來解決各種各樣的生物任務。生物數(shù)據(jù)的計算分析基本上依賴于計算機科學的方法和概念,最終由生物學家來系統(tǒng)解決具體的生物問題。我們面臨的挑戰(zhàn)是如何從這些組學數(shù)據(jù)中,利用已有的生物信息學的技術手段,在新的系統(tǒng)層次、多水平、多途徑來了解生命過程。整合生物信息學便承擔了這一任務。
圖1簡單描述了生物信息學、系統(tǒng)生物學與信息學、生物學以及基因組計劃各個研究領域的相關性。可以看出基因組計劃將生物學與信息學前所未有地結合到了一起,而生物信息學的興起是與人類基因組的測序計劃分不開的,生物信息學自始至終提供了所需的技術與方法,系統(tǒng)生物學強調了生物信息學的生物反應模型和機理研究,也是多學科高度交叉,促使理論生物學、生物信息學、計算生物學與生物學走得更近,也使我們研究基因型到表型的過程機理更加接近。虛線范圍代表整合生物信息學的研究領域,它包括了基因組計劃的序列、結構、功能、應用的整合,也涵蓋了生物信息學、系統(tǒng)生物學技術與方法的有機整合。
整合生物信息學的最大特點就是整合,不僅整合了生物信息學的研究方法和技術,也是在更大的層次上整合生命科學、計算機科學、數(shù)學、物理學、化學、醫(yī)學,以及工程學等各學科。其生物數(shù)據(jù)整合從微觀到宏觀,應用領域整合涉及工、農(nóng)、林、漁、牧、醫(yī)、藥。本文將就整合生物信息學的生物數(shù)據(jù)整合、學科技術整合及其他方面進行初步的介紹和探討。
二、生物數(shù)據(jù)挖掘與整合
生物系統(tǒng)的不同性質的組分數(shù)據(jù),從基因到細胞、到組織、到個體的各個層次。大量組分數(shù)據(jù)的收集來自實驗室(濕數(shù)據(jù))和公共數(shù)據(jù)資源(干數(shù)據(jù))。但這些數(shù)據(jù)存在很多不利于處理分析的因素,如數(shù)據(jù)的類型差異,數(shù)據(jù)庫中存在大量數(shù)據(jù)冗余以及數(shù)據(jù)錯誤;存儲信息的數(shù)據(jù)結構也存在很大的差異,包括文本文件、關系數(shù)據(jù)庫、面向對象數(shù)據(jù)庫等;缺乏統(tǒng)一的數(shù)據(jù)描述標準,信息查詢方面大相徑庭;許多數(shù)據(jù)信息是描述性的信息,而不是結構化的信息標示。如何快速地在這些大量的包括錯誤數(shù)據(jù)的數(shù)據(jù)量中獲取正確數(shù)據(jù)模式和關系是數(shù)據(jù)挖掘與整合的主要任務。
數(shù)據(jù)挖掘是知識發(fā)現(xiàn)的一個過程,其他各個環(huán)節(jié),如數(shù)據(jù)庫的選擇和取樣,數(shù)據(jù)的預處理和去冗余,錯誤和沖突,數(shù)據(jù)形式的轉換,挖掘數(shù)據(jù)的評估和評估的可視化等。數(shù)據(jù)挖掘的過程主要是從數(shù)據(jù)中提取模式,即模式識別。如DNA序列的特征核苷堿基,蛋白質的功能域及相應蛋白質的三維結構的自動化分類等。從信息處理的角度來說,模式識別可以被看作是根據(jù)一分類標準對外來數(shù)據(jù)進行篩選的數(shù)據(jù)簡化過程。其主要步驟是:特征選擇,度量,處理,特征提取,分類和標識?,F(xiàn)有的數(shù)據(jù)挖掘技術常用的有:聚類、概念描述、連接分析、關聯(lián)分析、偏差檢測和預測模型等。生物信息學中用得比較多的數(shù)據(jù)挖掘的技術方法有:機器學習,文本挖掘,網(wǎng)絡挖掘等。
機器學習通常用于數(shù)據(jù)挖掘中有關模式匹配和模式發(fā)現(xiàn)。機器學習包含了一系列用于統(tǒng)計、生物模擬、適應控制理論、心理學和人工智能的方法。應用于生物信息學中的機器學習技術有歸納邏輯程序,遺傳算法,神經(jīng)網(wǎng)絡,統(tǒng)計方法,貝葉斯方法,決策樹和隱馬爾可夫模型等。值得一提的是,大多數(shù)數(shù)據(jù)挖掘產(chǎn)品使用的算法都是在計算機科學或統(tǒng)計數(shù)學雜志上發(fā)表過的成熟算法,所不同的是算法的實現(xiàn)和對性能的優(yōu)化。當然也有一些人采用的是自己研發(fā)的未公開的算法,效果可能也不錯。
大量的生物學數(shù)據(jù)是以結構化的形式存在于數(shù)據(jù)庫中的,例如基因序列、基因微陣列實驗數(shù)據(jù)和分子三維結構數(shù)據(jù)等,而大量的生物學數(shù)據(jù)更是以非結構化的形式被記載在各種文本中,其中大量文獻以電子出版物形式存在,如PubMed Central中收集了大量的生物醫(yī)學文獻摘要。
文本挖掘就是利用數(shù)據(jù)挖掘技術在大量的文本集合中發(fā)現(xiàn)隱含的知識的過程。其任務包括在大量文本中進行信息抽取、語詞識別、發(fā)現(xiàn)知識間的關聯(lián)等,以及利用文本挖掘技術提高數(shù)據(jù)分析的效率。近年來,文本挖掘技術在生物學領域中的應用多是通過挖掘文本發(fā)現(xiàn)生物學規(guī)律,例如基因、蛋白及其相互作用,進而對大型生物學數(shù)據(jù)庫進行自動注釋。但是要自動地從大量非結構性的文本中提取知識,并非易事。目前較為有效的方法是利用自然語言處理技術NLP,該技術包括一系列計算方法,從簡單的關鍵詞提取到語義學分析。最簡單的NLP系統(tǒng)工作通過確定的關鍵詞來解析和識別文檔。標注后的文檔內容將被拷貝到本地數(shù)據(jù)庫以備分析。復雜些的NLP系統(tǒng)則利用統(tǒng)計方法來識別不僅僅相關的關鍵詞,以及它們在文本中的分布情況,從而可以進行上下文的推斷。其結果是獲得相關文檔簇,可以推斷特定文本內容的特定主題。最先進的NLP系統(tǒng)是可以進行語義分析的,主要是通過分析句子中的字、詞和句段及其相關性來斷定其含義。
生物信息學離不開Internet網(wǎng)絡,大量的生物學數(shù)據(jù)都儲存到了網(wǎng)絡的各個角落。網(wǎng)絡挖掘指使用數(shù)據(jù)挖掘技術在網(wǎng)絡數(shù)據(jù)中發(fā)現(xiàn)潛在的、有用的模式或信息。網(wǎng)絡挖掘研究覆蓋了多個研究領域,包括數(shù)據(jù)庫技術、信息獲取技術、統(tǒng)計學、人工智能中的機器學習和神經(jīng)網(wǎng)絡等。根據(jù)對網(wǎng)絡數(shù)據(jù)的感興趣程度不同,網(wǎng)絡挖掘一般還可以分為三類:網(wǎng)絡內容挖掘、網(wǎng)絡結構挖掘、網(wǎng)絡用法挖掘。網(wǎng)絡內容挖掘指從網(wǎng)絡內容/數(shù)據(jù)/文檔中發(fā)現(xiàn)有用信息,網(wǎng)絡內容挖掘的對象包括文本、圖像、音頻、視頻、多媒體和其他各種類型的數(shù)據(jù)。網(wǎng)絡結構挖掘的對象是網(wǎng)絡本身的超連接,即對網(wǎng)絡文檔的結構進行挖掘,發(fā)現(xiàn)他們之間連接情況的有用信息(文檔之間的包含、引用或者從屬關系)。在網(wǎng)絡結構挖掘領域最著名的算法是HITS算法和PageRank算法(如Google搜索引擎)。網(wǎng)絡用法挖掘通過挖掘相關的網(wǎng)絡日志記錄,來發(fā)現(xiàn)用戶訪問網(wǎng)絡頁面的模式,通過分析日志記錄中的規(guī)律。通常來講,經(jīng)典的數(shù)據(jù)挖掘算法都可以直接用到網(wǎng)絡用法挖掘上來,但為了提高挖掘質量,研究人員在擴展算法上進行了努力,包括復合關聯(lián)規(guī)則算法、改進的序列發(fā)現(xiàn)算法等。
網(wǎng)絡數(shù)據(jù)挖掘比單個數(shù)據(jù)倉庫的挖掘要復雜得多,是一項復雜的技術,一個難以解決的問題。而XML的出現(xiàn)為解決網(wǎng)絡數(shù)據(jù)挖掘的難題帶來了機會。由于XML能夠使不同來源的結構化的數(shù)據(jù)很容易地結合在一起,因而使搜索多個異質數(shù)據(jù)庫成為可能,從而為解決網(wǎng)絡數(shù)據(jù)挖掘難題帶來了希望。隨著XML作為在網(wǎng)絡上交換數(shù)據(jù)的一種標準方式,目前主要的生物信息學數(shù)據(jù)庫都已經(jīng)提供了支持XML的技術,面向網(wǎng)絡的數(shù)據(jù)挖掘將會變得非常輕松。如使用XQuery 標準查詢工具,完全可以將 Internet看作是一個大型的分布式XML數(shù)據(jù)庫進行數(shù)據(jù)瀏覽獲取、結構化操作等。
此外,數(shù)據(jù)挖掘還要考慮到的問題有:實時數(shù)據(jù)挖掘、人為因素的參與、硬件設施的支持、數(shù)據(jù)庫的誤差問題等。
一般的數(shù)據(jù)(庫)整合的方法有:聯(lián)合數(shù)據(jù)庫系統(tǒng)(如ISYS和DiscoveryLink), 多數(shù)據(jù)庫系統(tǒng)(如TAMBIS)和數(shù)據(jù)倉庫(如SRS和Entrez)。這些方法因為在整合的程度,實體化,查詢語言,應用程序接口標準及其支持的數(shù)據(jù)輸出格式等方面存在各自的特性而各有優(yōu)缺點。同時,指數(shù)增長的生物數(shù)據(jù)和日益進步的信息技術給數(shù)據(jù)庫的整合也帶來了新的思路和解決方案。如傳統(tǒng)的數(shù)據(jù)庫主要是提供長期的實驗數(shù)據(jù)存儲和簡便的數(shù)據(jù)訪問,重在數(shù)據(jù)管理,而系統(tǒng)生物學的數(shù)據(jù)庫則同時對這些實驗數(shù)據(jù)進行分析,提供預測信息模型。數(shù)據(jù)庫的整合也將更趨向數(shù)據(jù)資源廣、異質程度高、多種數(shù)據(jù)格式、多途徑驗證(如本體學Ontology的功能對照)、多種挖掘技術、高度智能化等。
三、生命科學與生物信息學技術的整合
生物信息學的研究當前還主要集中在分子水平,如基因組學/蛋白質組學的分析,在亞細胞、細胞、生物組織、器官、生物體及生態(tài)上的研究才剛剛開始。從事這些新領域的研究,理解從基因型到表型的生命機理,整合生物信息學將起到關鍵性的作用。整合生物信息學將從系統(tǒng)的層次多角度地利用已有的生物、信息技術來研究生命現(xiàn)象。另外,由其發(fā)展出的新方法、新技術,其應用潛力也是巨大的。圖2顯示了生命科學與生物信息學技術的整合關系。
目前生命科學技術如基因測序、QTL定位、基因芯片、蛋白質芯片、凝膠電泳、蛋白雙雜交、核磁共振、質譜等實驗技術,可以從多方面,多角度來分析研究某一生命現(xiàn)象,從而針對單一的實驗可能就產(chǎn)生大量的不同層次的生物數(shù)據(jù)。對于每個技術的數(shù)據(jù)分析,都有了大量的生物信息學技術,如序列分析、motif尋找、基因預測、基因注解、RNA分析、基因芯片的數(shù)據(jù)分析、基因表達分析、基因調控網(wǎng)絡分析、蛋白質表達分析、蛋白質結構預測和分子模擬、比較基因組學研究、分子進化和系統(tǒng)發(fā)育分析、生物學系統(tǒng)建模、群體遺傳學分析等。整合生物信息學就是以整合的理論方法,通過整合生物數(shù)據(jù),整合信息技術來推動生命科學干實驗室與濕實驗室的組合研究。其實踐應用涉及到生物數(shù)據(jù)庫的整合、功能基因的發(fā)現(xiàn)、單核苷酸多態(tài)性/單體型的了解、代謝疾病的機理研究、藥物設計與對接、軟件工具以及其他應用。
在整合過程中,還應該注意以下幾方面內容:整合數(shù)據(jù)和文本數(shù)據(jù)挖掘方法,數(shù)據(jù)倉庫的設計管理,生物數(shù)據(jù)庫的錯誤與矛盾,生物本體學及其質量控制,整合模型和模擬框架,生物技術的計算設施,生物信息學技術流程優(yōu)化管理,以及工程應用所涉及的范圍。
四、學科、人才的整合
整合生物信息學也是學科、教育、人才的整合。對于綜合性高等院校,計算機科學/信息學、生物學等學科為生物信息學的發(fā)展提供了學科基礎和保障。如何充分利用高校雄厚的學科資源,合理搭建生物信息學專業(yè)結構,培養(yǎng)一流的生物信息學人才,是我們的任務和目標。
計算機科學/信息學是利用傳統(tǒng)的計算機科學,數(shù)學,物理學等計算、數(shù)學方法,如數(shù)據(jù)庫、數(shù)據(jù)發(fā)掘、人工智能、算法、圖形計算、軟件工程、平行計算、網(wǎng)絡技術進行數(shù)據(jù)分析處理,模擬預測等。生物信息學的快速發(fā)展給計算機科學也帶來了巨大的挑戰(zhàn)和機遇,如高通量的數(shù)據(jù)處理、儲存、檢索、查詢,高效率的算法研究,人工智能的全新應用,復雜系統(tǒng)的有效模擬和預測。整合生物信息學的課程設計可以提供以下課程:Windows/Unix/Linux操作系統(tǒng)、C++/Perl/Java程序設計、數(shù)據(jù)庫技術、網(wǎng)絡技術、網(wǎng)絡編程、SQL、XML相關技術、數(shù)據(jù)挖掘,機器學習、可視化技術、軟件工程、計算機與網(wǎng)絡安全、計算機硬件、嵌入式系統(tǒng)、控制論、計算智能,微積幾何、概率論、數(shù)理統(tǒng)計、線性代數(shù)、離散數(shù)學、組合數(shù)學、計算方法、隨機過程、常微分方程、模擬和仿真、非線性分析等等。
生物學是研究生命現(xiàn)象、過程及其規(guī)律的科學,主要包括植物學等十幾個一級分支學科。整合生物信息學的課程設計可以提供以下課程:普通生物學、生物化學、分子生物學、細胞生物學、遺傳學、分子生物學、發(fā)育生物學、病毒學、免疫學、流行病學、保護生物學、生態(tài)學、進化生物學、神經(jīng)生物學、基礎醫(yī)學、生物物理學、細胞工程、基因工程、分子動力學、生物儀器分析及技術、植物學、動物學、微生物學及其他生物科學、生物技術專業(yè)的技能課程。
作為獨立學科的生物信息學,其基本的新算法,新技術,新模型,新應用的研究是根本。課程涉及到生物信息學基礎、生物學數(shù)據(jù)庫、生物序列與基因組分析、生物統(tǒng)計學、生物芯片數(shù)據(jù)分析、蛋白質組學分析、系統(tǒng)生物學、生物數(shù)據(jù)挖掘與知識發(fā)現(xiàn)、計算生物學、藥物設計、生物網(wǎng)絡分析等。另外,整合生物信息學的工程應用,也需要了解以下學科,如生物工程、生物技術、醫(yī)學影像、信號處理、生化反應控制、生物醫(yī)學工程、數(shù)學模型、試驗設計、農(nóng)業(yè)系統(tǒng)與生產(chǎn)等。
此外,整合生物信息學的人才培養(yǎng)具有很大的國際競爭壓力,培養(yǎng)優(yōu)秀的專業(yè)人才,必須使其具備優(yōu)良的生物信息科學素養(yǎng),具有國際視野,知識能力、科研創(chuàng)新潛力俱佳的現(xiàn)代化一流人才。所以要始終緊跟最新的學術動態(tài)和發(fā)展方向,整合學科優(yōu)勢和強化師資力量,促進國際交流。
五、總結及展望
二十一世紀是生命科學的世紀,也是生物信息學快速不斷整合發(fā)展的時代,整合生物學的研究和應用將對人類正確認識生命規(guī)律并合理利用產(chǎn)生巨大的作用。比如進行虛擬細胞的研究,整合生物信息學提供了從基因序列,蛋白結構到代謝功能各方面的生物數(shù)據(jù),也提供了從序列分析,蛋白質拓撲到系統(tǒng)生物學建模等方面的信息技術,從多層次、多水平、多途徑進行科學研究。
整合生物信息學是基于現(xiàn)有生物信息學的計算技術框架對生命科學領域的新一輪更系統(tǒng)全面的研究。它依賴于生物學,計算機學,生物信息學/系統(tǒng)生物學的研究成果(包括新數(shù)據(jù)、新理論、新技術和新方法等),但同時也給這些學科提供了更廣闊的研究和應用空間,并推動整個人類科學的進程。
我國的生物信息學教育在近幾年已經(jīng)有了長足的進步和發(fā)展。未來整合生物信息學人才的培養(yǎng)還需要加強各學科有效交叉,尤其是計算機科學,要更緊密地與生命科學結合起來,共同發(fā)展,讓我們的生命科學、計算機科學和生物信息學的教育和科研走得更高更前沿。
作者簡介:
關鍵詞:個性化習題;生物信息學;QQ群
中圖分類號:G811.4 文獻標志碼:A 文章編號:1674-9324(2016)48-0171-02
生物信息學是生物學、計算機科學和信息技術等支持的,包括存儲、組織和生物數(shù)據(jù)檢索的一個現(xiàn)代交叉學科。隨著分子生物學和信息技術的不斷突破,各種生物數(shù)據(jù)的獲得變得非常容易,但是如何對這些數(shù)據(jù)進行組織、分析和處理,并從中發(fā)掘出能用于解決生物科學問題的信息,成為目前生命科學的難點和熱點。生物信息學因此應運而生,其本身不僅是研究現(xiàn)代生物學,也是研究其對工業(yè)、醫(yī)療等重要領域影響的一門實踐性學科(Bloom,2001)。
一般認為,生物信息學主要滲透到統(tǒng)計數(shù)學、計算機和生命科學,尤其是生命科學的組學領域(郭麗等,2014),因此在教學中,生物信息學的教學內容往往因學生背景不同而會有不同的側重。這就需要教師根據(jù)學生的背景及知識結構的需求來合理安排教學。本文根據(jù)近年來對生物信息學教學的經(jīng)驗,從教學方法、個性化練習題對學生上機的促進及QQ群投票功能在教學中的應用等方面進行了總結,對如何能夠提高生命科學學院的學生學習此門課程的興趣進行了探討。
一、現(xiàn)代教學方法的利與弊
隨著計算機科技的不斷進步,教學已經(jīng)從傳統(tǒng)的板書模式進入到現(xiàn)代多媒體教學模式中。多媒體技術應用的初衷是提高學生的參與度,滿足教學手段更民主、多元化及個性化的教學目標,其優(yōu)點為表現(xiàn)力豐富,可以通過動畫、視頻、圖像、音頻等效果將抽象難懂的問題直觀化。其次,節(jié)省了大量的板書時間,同時教師可將教學的重點、難點鏈接,以益于學生直觀地了解并進行思維拓展(張林,2011)。多媒體最明顯的一個特點就是教學容量加大,但正是這些優(yōu)勢也伴隨相應的問題:(1)重形式而忽視教學內容。很多學校在進行教學管理及評價時,過分關注多媒體課件的形式以及學生的感受,導致有些教師過分注重多媒體的表現(xiàn)形式而忽視了教學的主要內容。(2)教學容量和學生的吸收量之間反差較大。由于教學內容和容量的增大,教師并沒有根據(jù)授課對象的具體情況合理安排和講授學科內容,而被動的成了多媒體的播放員和解說員??傊嗝襟w教學利大于弊,因而成為教學改革和發(fā)展的必然產(chǎn)物,雖有缺點,但不能因噎廢食,需通過其他方法來克服弊端才能達到完美的教學效果。
二、個性化習題是學生實踐提高的強力推動器
生物信息學是一門實踐性非常強的學科,為了加強學生的實踐能力,教師要綜合應用啟發(fā)式、運用式及討論式等多種教學方法來激發(fā)學生的興趣。筆者在課堂實踐中,充分發(fā)揮個性化習題的作用,將教師的科研滲入到課堂,注重理論與實踐相結合,努力提高學生解決實際問題的綜合能力。比如,在講授第五章內容電子克隆部分,此章節(jié)目的是通過一段表達序列標簽(EST),綜合應用Blast、序列比對、步查法等方法查找各種數(shù)據(jù)庫,通過軟件的應用進行拼接、預測、去除內含子等方法,最終獲得可能的全長cDNA序列并加以注釋。在以往的教學練習中,全班同學的任務一樣,難以知道學生是否真正掌握所教授的內容,為此,筆者將學生分組,每組自行通過閱讀文獻獲得一條其感興趣的EST序列,或者利用他們的畢業(yè)論文中涉及的EST序列去進行電子克隆練習,通過這種個性化習題的隨堂練習,能顯著強化學生的計算機應用能力和實踐能力,同時也能提高學生在教學中的積極性、主動性和創(chuàng)新性。
三、發(fā)揮QQ群的投票功能在教學練習中的作用
生物信息學是一門交叉學科,對于非生物信息學專業(yè)的生命學院的學生而言,雖然教學大綱只要求學生掌握一些基本軟件的原理及數(shù)據(jù)庫的熟練使用。但是,這需要學生具有扎實的生物化學、遺傳學、細胞學及分子生物學的基礎知識。比如,在講授第三章“核酸序列的分析”時,會要求學生利用已知的EST序列去Blast查找與之有同源性的基因組序列,進行序列比對,預測并利用Bioedit軟件找出此基因的啟動子、終止子和剪接點。這首先要求學生必須明確這些分子生物學的概念,否則在有限的生物信息學課堂上,會變成分子生物學或遺傳學的復習課。而課外QQ群就起到了非常重要的交流促進作用。筆者在將QQ群的功能應用到課外教學輔助平臺的基礎上,充分發(fā)掘QQ群的投票及評論功能為教學所用,例如教授第三章前,將課件放到QQ群的文件中,讓學生去預習。為激發(fā)學生預習的主動性,要求學生在評論中列出對本章的主要知識點或難點,并對課件中涉及的名詞進行解釋。為進一步加強理解,對投票功能進行設置,相應的對投票選項1、2、3、4分別設置成A、B、C、D,這樣教師可根據(jù)需要將知識點轉化成練習題,以加強學生的學習。同時,也可鼓勵學生將一些新的感興趣的話題或問題置于QQ群??傊?,QQ群的投票功能可以成為教師與學生課下交流的一扇窗口,成為生物信息學的一種及時且重要的學習工具。
四、建議與展望
生物信息學是一門新興學科,但我國無論是在對學科的重視還是發(fā)展程度上,與國外都存在一定的差距。在美國,計算生物學國際協(xié)會教育委員會一直致力于將生物信息學整合到高中生物教材中,學生在高中即接觸生物信息學,而且高校對高中生物信息學的教學提供相應的培訓課程和網(wǎng)上資源,生物信息學和其他分子生物學、植物學等一樣較早的深入到學生的知識體系中。而我國由于該學科產(chǎn)生的歷史較短,課程的開設集中在“985”、“211”重點院校的生物信息學專業(yè),盡管近十年來,各大高校也意識到此學科的重要性,且課程也在逐步在開設,但由于學時短,很多教學僅限于學生掌握基本的數(shù)據(jù)庫的查詢。為使生物信息學能在普通院校的生命科學學院能很好的開展,各個高校應建立合適的課程教學內容。雖然近年“生物信息學”課程在各高校紛紛開設,但由于生物信息學是一門發(fā)展中的學科,它的理論及內容尚在不斷完善與更新中(郭麗等,2014)。因此,對于教材的選擇,不能只追逐信息量充足、內容新穎、知識選材前瞻性好的教材(楊娥等,2014)。作為普通院校的非生物信息學專業(yè)的本科生,想在較短的時間內(36課時)很好掌握如此大信息量的知識較為困難(劉宏生等,2010)。因此,需要依據(jù)學生基礎及院校的人才培養(yǎng)目標和現(xiàn)今生物信息學發(fā)展的現(xiàn)狀建立合理的課程內容體系。另外,由于缺乏合適的專業(yè)人才,生物專業(yè)的生物信息學的師資力量薄弱,無法建成高水平的教學隊伍。因此,加大生物信息學教師的培養(yǎng)力度,建成一支專業(yè)的、年齡和知識結構合理的師資隊伍,是提高本科院校生物信息學教學的關鍵問題之一。
參考文獻:
[1]Bloom,M. Biology in silico:The bioinformatics revolution[J]. The American Biology Teacher,2001,63(6):397-403.
[2]郭麗,趙楊,婁冬華,等.生物信息學實踐課教學改革探索[J].南京醫(yī)科大學學報(社會科學版),2014,(2):165-167.
[3]張林,柴惠.現(xiàn)代教學手段在生物信息學教學中的應用[J].新課程研究,2011,(219):156-157.
21世紀是生命科學的時代,也是信息時代。隨著分子生物學、測序技術以及人類基因組計劃的深入展開,各種生物醫(yī)學數(shù)據(jù)已達到海量級別。在后基因組時代,一方面是巨量的數(shù)據(jù),另一方面是我們在醫(yī)學、藥物、農(nóng)業(yè)和環(huán)保等方面對新知識的渴求,這些新知識將幫助人們改善其生存環(huán)境和提高生活質量。這就構成了一個極大的矛盾。如何從海量生物醫(yī)學數(shù)據(jù)中獲取新的知識呢?1956年,在美國田納西州蓋特林堡召開的首次“生物學中的信息理論研討會”上學者們提出了生物信息學的概念。1987年,林華安博士正式為這一領域定下生物信息學( Bioinformatics)這個稱謂,一門新興學科——生物信息學應運而生。
一生物信息學的學科特點
生物信息學是用數(shù)理和信息科學的觀點、理論和方法去研究生命現(xiàn)象、組織和分析呈現(xiàn)指數(shù)增長的生物醫(yī)學數(shù)據(jù)的一門學科。它主要包括兩重含義:一是對海量數(shù)據(jù)的收集、整理與服務,即管理好這些數(shù)據(jù);二是從中發(fā)現(xiàn)新的規(guī)律,即利用好這些數(shù)據(jù)。生物信息學的實質就是利用計算機科學和網(wǎng)絡技術來解決生物學問題。它的出現(xiàn)極大地推動了分子生物學等相關學科的發(fā)展。它不僅是一門新學科,更是一種重要的研究開發(fā)工具。生物信息學幾乎是今后所有生物(醫(yī)藥)研究開發(fā)所必需的工具。
生物信息學與其他的生物醫(yī)學學科相比,有很大的不同,主要有以下三大特點:
第一,以生物醫(yī)學數(shù)據(jù)庫為基礎,數(shù)據(jù)極其龐大復雜。隨著組學時代的來臨與深入,生物醫(yī)學數(shù)據(jù)正呈現(xiàn)指數(shù)級別的增長。根據(jù)權威的《Nucleic Acids Research》統(tǒng)計,截止2014年,全球共有約2100個主要的生物醫(yī)學數(shù)據(jù)庫,涵蓋了生物醫(yī)學研究的諸多領域。從研究層次上看,包括核酸、蛋白質、結構、基因組、蛋白質組、人類基因和疾病、細胞器官、免疫學等14類數(shù)據(jù)庫。從研究種類上說,包括動物、植物、真菌、原核生物、病毒等30余萬種生物。僅登錄在美國GenBank數(shù)據(jù)庫中的核酸序列就超過1億條,DNA序列總量超過1000億堿基對;在UniProt中,共收錄蛋白質序列約1000萬條;在PDB中,共收錄蛋白質結構數(shù)據(jù)超過8萬個。
第二,生物信息的操作分析主要以計算機為工具,在互聯(lián)網(wǎng)環(huán)境中運行,通過網(wǎng)絡強大的搜索功能完成數(shù)據(jù)收集、儲存、管理與提供。
第三,生物信息學是一門生物醫(yī)學、數(shù)學、信息科學以及計算機科學等諸多學科綜合交叉的前沿產(chǎn)物,與其他學科相比,綜合交叉性強、難度大、發(fā)展時間短、還在不斷完善與更新中。因而目前還沒有成熟的生物信息學教學模式,各高校,尤其是醫(yī)學院校,尚處于摸索探討的階段。 二生物信息學現(xiàn)有教學模式的不足之處 目前,國內的生物信息學教學基本沿用以“教師講授為主”的傳統(tǒng)教學模式。以課堂為中心、以理論教學為主,進行“滿堂灌”式教育,“照本宣讀”的方式也比較常見。缺乏與生物信息學交叉前沿性特點相適應的新型教學模式。同時,實驗教學方式比較單一,常以驗證性為目的,有些甚至成為了“文獻檢索”課程,缺乏和專業(yè)相適應的綜合性、設計性實驗,結果出現(xiàn)了理論和實踐相脫節(jié)的現(xiàn)象。 三關于PBL應用于生物信息學教學的探索 1PBL教學法的優(yōu)勢 “基于問題的學習(Problem based leaming)”,簡稱PBL,是美國廣泛采用的一種探究性、任務驅動式學習模式。此方法與傳統(tǒng)以學科為基礎的教學法有很大的不同,強調以學生的主動學習為主,而不是傳統(tǒng)教學中強調的以教師講授為主,比如將學習與更大的任務或問題掛鉤、使學習者投入于問題中、設計真實性任務、鼓勵自主探究、激發(fā)和支持學習者的高水平思維、鼓勵爭論、鼓勵對學習內容和過程的反思等。在醫(yī)學教育中,PBL教學強調以設置問題的方式為學生創(chuàng)造一種特定的疾病發(fā)生的情境和診治的氛圍,通過學生的相互協(xié)作來共同解決實際問題,最終實現(xiàn)培養(yǎng)學生獨立處理和解決實際問題的能力的目標。這種教學模式很好地解決了理論與實際脫節(jié)的矛盾。
2 PBL教學法在生物信息學教學中的實際應用
(1)分組。根據(jù)能力和興趣分組,選擇能力互補且有共同興趣的學生組成不同學習小組,一般以3—4人為一組,對于總體能力特別強的小組可以適當減少人數(shù)。
(2)提出教學目標,布置真實性任務。首先,布置基礎性教學任務,這類教學任務的目的是為了鞏固學生的基礎知識,培養(yǎng)學生的基礎能力。例如,該類任務可由四個子科目組成:“生物醫(yī)學數(shù)據(jù)庫識別與理解”、“通過Entrez和SRS系統(tǒng)進行生物醫(yī)學數(shù)據(jù)的檢索利用”、“blast序列比對”、“clustalw多序列比對”。這是必選任務,每個個組都必須完成,為下一步實行探究性任務打下基礎。
然后,根據(jù)不同小組的興趣和特點,分配不同的探究性任務。例如,“新基因的發(fā)現(xiàn)與鑒定”、“某某疾病基因的分析與鑒定”等。這類問題并無現(xiàn)成答案,學生必須自己查閱資料、進行歸納分析、確定實驗步驟、完成任務。例如,對于“新基因的發(fā)現(xiàn)與鑒定”這項任務,最終可由如下步驟組成:①利用EST數(shù)據(jù)庫獲得基因重疊群;②新基因的拼接獲得;③所得基因的性質分析;④啟動子分析;⑤編碼區(qū)分析;⑥新基因的人工翻譯;⑦所得蛋白質的功能分析。這些步驟和每一步的實現(xiàn)方法都將由學生在已有的知識基礎上,通過查找文獻、互相討論、探索獲得,最終完成該項任務,寫出任務報告。
(3)定期討論。定期安排學生集中討論。每次討論主要完成兩方面工作:一是對任務進展進行報告,二是對所遇到的問題進行互相交流。教師全程參與,對疑難問題作出提示和建議。
(4)成果匯報。任務完成后,進行集中匯報。讓學生對任務期間所做工作、獲得的結果進行匯報。
(5)教師評價、反饋。由指導教師對任務完成過程及結果進行點評,對學生掌握知識的程度及學生的科研、應用能力進行評價,并提出進一步的提高方向。
(6)延伸階段。鑒于生物信息學都是在臨近畢業(yè)時進行教學,對于有興趣的學生,可以將探究性任務擴展成畢業(yè)設計,進行模塊化分流教學。
3在生物信息學中運用PBL教學法的優(yōu)勢
(1)生物信息學的學習是一個運用生物醫(yī)學、數(shù)學、信息科學以及計算機科學等諸多學科知識進行分析、判斷、推理、綜合的實踐過程,PBL教學法的應用可充分調動和發(fā)揮學生的主觀能動性,著重培養(yǎng)學生解決實際問題的綜合分析、判斷及實踐動手能力。
(2)在保證教學質量的前提下,可明顯減少傳統(tǒng)的灌輸式教學工作和學習的負擔,同時能讓學生在短時間內熟悉多種生物醫(yī)學數(shù)據(jù)庫、掌握多種生物信息軟件的使用方法、了解生物信息手段在生物醫(yī)學中的各種應用。
(3)在相互合作的過程中,學生不僅學到了獲取知識的方式,更重要的是提高了學生的興趣、交流意識和團隊責任感等科研必備素質和能力。
(4)在完成真實性任務的過程中,可讓學生熟悉完成科研工作的方法步驟,培養(yǎng)學生完成科研任務的能力。
【關鍵詞】生物技術;計算機;應用
【中圖分類號】Q50 【文獻標識碼】A 【文章編號】1672-5158(2013)01―0046-01
進入二十一世紀以來,由于研究的深入,對知識的進一步認識和了解,許多學科之間都有了一些交叉,尤其是一些新興學科之間的相互交叉,廣泛滲透更是對科學的發(fā)展起了很大的促進作用,人們進一步提升對自然界的認識,對人類本身也有了進一步的了解。隨著科學技術的不斷發(fā)展,尤其是計算機技術的飛速發(fā)展,計算機在其中的應用范圍也日益擴大,計算機和藥學兩者互相影響、互相滲透、互相結合,密不可分。
1、生物技術與信息技術的關系
信息技術和生物技術都是高新技術,二者在新經(jīng)濟中并非此消彼長的關系,而是相輔相成,共同推進21世紀經(jīng)濟的快速發(fā)展。信息技術為生物技術的發(fā)展提供強有力的計算工具。在現(xiàn)代生物技術發(fā)展過程中,計算機與高性能的計算技術發(fā)揮了巨大的推動作用。如今,人們越來越清醒地認識到,超級計算機在創(chuàng)造新品種的藥物、治愈疾病以及最終使我們能夠修復人類基因缺陷等方面是至關重要的,高性能計算可以為人類作出更大的貢獻。生物技術推動超級計算機產(chǎn)業(yè)的發(fā)展。隨著人類基因組計劃各項任務的完成,有關核酸、蛋白質的序列和結構數(shù)據(jù)呈指數(shù)增長。面對如此巨大而復雜的數(shù)據(jù),只有運用計算機進行數(shù)據(jù)管理、控制誤差、加速分析過程,使得人類最終能夠從中受益。然而要完成這些過程,并非一般的計算機力所能及,而需要具有超級計算能力的計算機。因此,生物技術的發(fā)展將對信息技術提出更高的需求,從而推動信息產(chǎn)業(yè)的發(fā)展。生物技術將從根本上突破計算機的物理極限。運用數(shù)學、計算機科學和生物學的各種工具,來闡明和理解大量基因組研究獲得數(shù)據(jù)中所包含的生物學意義,生物學和信息學交叉、結合,從而形成了一個新的學科。生物信息學或信息生物學,它的進步所帶來的效益是不可估量的。
2、計算機在生物技術中的應用分析
生物醫(yī)學工程運用現(xiàn)代自然科學和技術科學的原理和方法,從工程學的角度研究人體的結構、功能及其相互關系以及其他生命現(xiàn)象。其目的是解決醫(yī)學問題,即研究和開發(fā)為防病、治病以及人體功能輔助等醫(yī)學應用的裝置和系統(tǒng)。用技術科學的概念和方法來解釋和描述人體各層次的成份、結構和功能,以及人體各種正常生理功能和病理狀態(tài)之問的差異,這些內容形成了這個學科的基礎部分。而防病、診斷、治療及功能輔助的具體技術和設備則形成這個學科的應用部分。
2.1 計算機技術在生物信息學中的應用
生物信息學在今后的無論是生物醫(yī)藥科研還是開發(fā)中都具有廣泛而關鍵的應用價值;而且,由于生物信息學是生物科學與計算科學、物理學、化學和計算機網(wǎng)絡技術等密切結合的交叉性學科,使其具有非常強的專業(yè)性,這就使得專業(yè)的生物醫(yī)藥科研或開發(fā)機構自身難以勝任它們所必需的生物信息學業(yè)務,殘酷的市場競爭及其所帶來的市場高度專業(yè)化分工的趨勢,使得專業(yè)的生物醫(yī)藥開發(fā)機構不可能在自身內部解決對生物信息學服務的迫切需求,學術界內的生物醫(yī)藥科研機構也是如此,而這種需求,僅靠那些高度分支化和學術化的分散的生物信息學科研機構是遠遠不能滿足的??梢?,在生命科學的新世紀,生物信息學綜合服務將是一個非常重要的也是一個極具挑戰(zhàn)性的領域。
2.2 計算機在微生物學中細菌生化反應上的應用
細菌學的計量檢驗是醫(yī)學檢驗現(xiàn)代化的種重要手段。此檢驗技術是通過收集已確證的統(tǒng)計資料,并將系列生化反應試驗的反應結果數(shù)值化,按照一定的數(shù)學模型進行多元分析,利計算機的運算速度和記憶能力,檢驗標本作出規(guī)范化的定量鑒定。實現(xiàn)這一計量鑒定,我采用了計算機輔助編碼撿索系統(tǒng)(CAIS)菌科細菌系列生化反應機輔檢索程序(CAE-15)、(eAE-I)輸入微機。通過各項生化反應結果及增補試驗結果所得的編碼數(shù)經(jīng)過人工查詢,從計算機編程的“縮碼檢索手冊”中直接查找指定編碼的細菌概率分布和相應的補充試驗。計算機在微生物中的應用,不僅節(jié)約了時間和人力,而且鑒定結果準確可靠,避免主觀誤。
2.3 計算機在破譯遺傳密碼和管理基因數(shù)據(jù)方面的應用
計算機在破譯遺傳密碼和管理基因數(shù)據(jù)方面的潛力,在加利福尼亞大學圣迭分校的生物化學教授杜利特爾及其同事的工作中得以體現(xiàn)。他們在年進行的工作中只通過分析計算機打印輸出的數(shù)據(jù)就獲得了一個重要的生物學發(fā)現(xiàn)。杜利特爾教授的研究小組比較了兩個由計算機打印輸出的蛋白質序列,發(fā)現(xiàn)一種與癌癥發(fā)生有關的序列和一種與細胞生長有關的序列完全一樣,揭示出癌基因引起了細胞的不正常生長。這一發(fā)現(xiàn)在沒有進行過任何一實驗的情況下就獲得了。
2.4 計算機在創(chuàng)造生物的虛擬環(huán)境方面的應用
計算機還正被用于創(chuàng)造一個虛擬的生物環(huán)境,以便對復雜的生物網(wǎng)絡和生態(tài)系統(tǒng)進行模擬。這種虛擬環(huán)境創(chuàng)造不同的情境,幫助研究人員產(chǎn)生新的假說,并在實驗室里被用于檢測新的農(nóng)業(yè)和制藥產(chǎn)品以及醫(yī)學活體實驗。在虛擬世界里,生物學家敲敲鍵盤就可以產(chǎn)生新的合成分,而在實驗室經(jīng)常需要幾年時間才可能合成一個真正的分子。有了三維的計算機模型,研究人員可以在屏幕上將各種基因和分子進行組合,然后觀察它們的相互作用情況。年,賓夕法尼亞州立大學和位于加利福尼亞拉霍亞的斯克里普斯臨床研究所的研究人員,通過使用最先進的計算機首次設計了一種極有價值的合成分子。這種被命名為的化合物是在計算機屏幕上構想出來的,幾家生物技術實驗室正在進行該化合物的批量生產(chǎn)??茖W家們打算通過使用新的信息時代的計算技術造出多種多樣的新分子。
2.5 計算機在生物醫(yī)學工程中的具體應用
生物醫(yī)學工程運用現(xiàn)代自然科學和技術科學的原理和方法,從工程學的角度研究人體的結構、功能及其相互關系以及其他生命現(xiàn)象。其目的是解決醫(yī)學問題,即研究和開發(fā)為防病、治病以及人體功能輔助等醫(yī)學應用的裝置和系統(tǒng)。用技術科學的概念和方法來解釋和描述人體各層次的成份、結構和功能,以及人體各種正常生理功能和病理狀態(tài)之間的差異,這些內容形成了這個學科的基礎部分。而防病、診斷、治療及功能輔助的具體技術和設備則形成這個學科的應用部分。
3、發(fā)展前景
計算機在生物醫(yī)學工程中應用的例子還很多,并且發(fā)揮著越來越重要的作用,同時對計算機技術水平的要求也越來越高。比如在生物醫(yī)學信號處理方面,普通的計算機已經(jīng)很難勝任實時處理的能力,使人們轉向研究處理速度更快的專門處理器件DSP芯片。在人工智能方面,往往還需要功耗更低、存儲更大的微計算機。因此,生物醫(yī)學工程在利用計算機的同時也促進了計算機的發(fā)展。二十一世紀是生物技術的世紀,信息生物學是自然科學中發(fā)展最迅速、最具活力和生氣的領域,并且為人類帶來了很大的便利與貢獻。不難看出,生物計算機研制成功以后,又會帶來一次革命,它將會給人類帶來更多的福祉,世人將以期盼的心情等待它的出現(xiàn)。隨著科技的發(fā)展,隨著生物技術的發(fā)展,它將越來越離不開計算機。不但如此,計算機和生物技術更越來越緊密結合。將更快地促進兩者的發(fā)展。
參考文獻
[1]張宜,湯韌.計算機單機及局域網(wǎng)在藥學領域應用發(fā)展回顧及現(xiàn)狀[J].武漢總醫(yī)院雜志,2005,13(4):12
【關鍵詞】計算機應用;人工智能;生物信息學;數(shù)據(jù)挖掘技術
【中圖分類號】TP391
【文獻標識碼】A
【文章編號】1672—5158(2012)10-0078-01
一、生物信息數(shù)據(jù)庫的現(xiàn)狀及問題
在生物信息學的發(fā)展過程中,逐步建立起了大量基于網(wǎng)絡的生物數(shù)據(jù)庫,而且開發(fā)了眾多檢索工具,從而實現(xiàn)了生物信息數(shù)據(jù)的智能處理和綜合分析。生物信息數(shù)據(jù)在具有增長迅猛、更新及時、種類繁多等特點的同時,更表現(xiàn)出高度的復雜性、多樣性和不一致性。
隨著生物信息數(shù)據(jù)量的激增以及數(shù)據(jù)處理能力的復雜程度不斷提高,現(xiàn)有的生物信息數(shù)據(jù)庫已經(jīng)逐漸暴露出許多問題。三大核酸數(shù)據(jù)庫依靠傳統(tǒng)方式交換數(shù)據(jù),無法及時反應出其他專用生物信息數(shù)據(jù)庫的變化情況以及非核酸類數(shù)據(jù)信息。網(wǎng)上所提供的大部分數(shù)據(jù)分析工具采用面向問題的搜索方法,搜索效率隨著問題規(guī)模的擴大而降低,并且無法智能地對數(shù)據(jù)中存在的未知知識進行發(fā)掘。為此,在后基因組時代,需要將數(shù)據(jù)倉庫思想及智能數(shù)據(jù)挖掘技術運用到生物信息學領域中。
二、基于生物信息數(shù)據(jù)倉庫的數(shù)據(jù)挖掘技術
(一) 生物信息數(shù)據(jù)庫中的算法工具
在生物信息學中,基因比對是最常用和最經(jīng)典的研究手段。在核酸序列或蛋白質序列之間進行兩兩比對,比較兩個序列之間的相似區(qū)域和保守性位點,尋找二者的相似形、同源性,進而探尋可能的分子進化關系,揭示序列中蘊涵的結構、功能等信息。數(shù)據(jù)挖掘主要存在以下幾種經(jīng)典分析模式:關聯(lián)模式分析、序列模式分析、分類分析、聚類分析,其中關聯(lián)模式分析應用最為廣泛。
(二) OLAP和數(shù)據(jù)挖掘技術
傳統(tǒng)的針對數(shù)據(jù)庫的開發(fā)工具多為聯(lián)機事物處理模式,它主要是面向具體的查詢和統(tǒng)計,有著較為具體的應用目的。然而隨著越來越多數(shù)據(jù)庫的出現(xiàn),數(shù)據(jù)量的迅猛增長,OLTP在數(shù)據(jù)資源的充分利用、為用戶提供有效支持和幫助等方面,則顯得力不從心。因此,基于數(shù)據(jù)倉庫的聯(lián)機分析處理以及數(shù)據(jù)挖掘引起了日益廣泛的關注和應用。OLAP是一種自上而下、不斷深入的分析工具。用戶提出問題或假設,OLAP則負責從上而下深入地提取出關于該問題的詳細信息,并以可視化的方式呈現(xiàn)給用戶。DM是一種決策支持過程和挖掘性工具,它主要基于人工智能、機器學習、統(tǒng)計學等技術,高度自動化地對原始數(shù)據(jù)進行分析,發(fā)現(xiàn)隱藏在數(shù)據(jù)中的模式,做出歸納性和預測性的推理。
(三) 基于生物信息數(shù)據(jù)倉庫的數(shù)據(jù)挖掘技術
實現(xiàn)數(shù)據(jù)挖掘的前提條件是必須具有海量數(shù)據(jù),而這恰恰是數(shù)據(jù)倉庫的基本特點之一,二者緊密結合可以有效解決大量應用中出現(xiàn)的問題。在生物信息學領域,使用數(shù)據(jù)挖掘技術可以大幅提高研究人員的工作效率,改變原有的預測法;數(shù)據(jù)挖掘算法還可以結合生物信息專業(yè)領域的公式算法,根據(jù)研究人員的設想,對數(shù)據(jù)進行全面高效的分析。
基于數(shù)據(jù)挖掘等技術發(fā)展起來的智能決策技術具備了在生物信息學領域中大展身手的天賦,特別是基于海量數(shù)據(jù)的數(shù)據(jù)挖掘和開采技術更具有廣泛的需求和應用背景。另一方面,目前生物信息學的研究方法和發(fā)展情況,已經(jīng)形成了較為完善的智能決策系統(tǒng),成為數(shù)據(jù)倉庫和數(shù)據(jù)開采較為成功的應用案例。另外,現(xiàn)有各種生物信息應用分析軟件從一定程度上講,已經(jīng)反映并且實現(xiàn)了數(shù)據(jù)倉庫及數(shù)據(jù)挖掘的思想和技術。
三、實現(xiàn)生物信息異地多源數(shù)據(jù)庫的綜合利用
(一) 建立基于Web的生物信息數(shù)據(jù)倉庫
基于現(xiàn)有的生物信息數(shù)據(jù)庫,運用數(shù)據(jù)倉庫思想,利用OLAP和數(shù)據(jù)挖掘技術,建立生物信息數(shù)據(jù)倉庫,是一種不需要大幅增加硬件設備以及物理裝置的前提下,實現(xiàn)基于Web平臺的生物信息集成與處理平臺的可行方案。設計一個基于Web的生物信息數(shù)據(jù)倉庫,其主要結構由五部分組成:外部數(shù)據(jù)源;基于Web的數(shù)據(jù)調度、傳輸;數(shù)據(jù)的變形整合;元數(shù)據(jù)規(guī)則、元數(shù)據(jù)管理;基于Web的綜合管理平臺。
DWBW以DDBJ/EMBI/GeneBank作為主要數(shù)據(jù)源,同時以其他主要的生物信息數(shù)據(jù)庫作為整個數(shù)據(jù)倉庫的基本數(shù)據(jù)源。通過分析數(shù)據(jù)庫結構和數(shù)據(jù)結構類型,建立DWBW的元數(shù)據(jù)規(guī)則。這樣,基于上述各種數(shù)據(jù)庫就可以建立起一個基于Web的虛擬數(shù)據(jù)倉庫,由于不存在一個物理上位于某地的存儲中心來保存這些數(shù)據(jù),用戶面對的只是基于網(wǎng)絡的分布式虛擬的數(shù)據(jù)倉庫。其模型、算法的運行由專用的分析工具服務器來完成,而對于數(shù)據(jù)的調用和整理都是在源數(shù)據(jù)庫上進行的,根據(jù)不同用戶提交問題的不同,具體分析過程則由分配服務器交給服務器去完成分析,只是最終將結果返回請求分類服務器,顯示給用戶。
DWBW將通過統(tǒng)一的基于Web的頁面與用戶進行交互,在后臺則主要由請求分類服務器、Web服務器及專用分析工具服務器共同完成對問題的提交和分析,實現(xiàn)對數(shù)據(jù)倉庫元數(shù)據(jù)規(guī)則的理解,然后根據(jù)分類的結果,與相關分析工具進行匹配,將問題提交到相應的分析工具服務器進行處理。處理完成后返回給請求分類服務器,進而返回給提交問題的用戶。
(二) DWBW的關鍵技術
生物信息學元數(shù)據(jù)的抽取。數(shù)據(jù)的整理和抽取,是開發(fā)所有數(shù)據(jù)倉庫時所遇到的最難解決也是最具挑戰(zhàn)性的問題之一。將不同時期生成的大量歷史數(shù)據(jù)中的數(shù)據(jù)結構、字段的定義以及對象之間的關系等一系列的描述信息整理出來,并制定一套通用可行的規(guī)范,本身就是一個工作量巨大、難度極高的問題。因此,數(shù)據(jù)倉庫元數(shù)據(jù)的抽取整理,成為建立DWBW的關鍵問題。數(shù)據(jù)抽取、清洗、轉換和裝載過程與一般數(shù)據(jù)倉庫建立過程中的數(shù)據(jù)整理不完全相同,其數(shù)據(jù)具有規(guī)范性強,存儲結構相對簡單,轉換、裝載容易等特點。
虛擬生物信息數(shù)據(jù)倉庫的建立。虛擬生物信息數(shù)據(jù)倉庫實現(xiàn)對生物信息平臺相關數(shù)據(jù)的組織和集成,并且將不同主題的數(shù)據(jù)對象分別存儲到各個數(shù)據(jù)集市中,同時還將建立起部分有價值數(shù)據(jù)的在線OLAP數(shù)據(jù)庫。虛擬數(shù)據(jù)倉庫采用中間件充當數(shù)據(jù)中心,提供信息的訪問接口,對存貯在不同數(shù)據(jù)源的生物信息數(shù)據(jù)進行存取操作。由于虛擬生物信息數(shù)據(jù)倉庫一般不是針對實時數(shù)據(jù)進行分析統(tǒng)計,所以對于時間效率的要求不如一般查詢統(tǒng)計那么高,這就確保了開發(fā)處于不同物理位置數(shù)據(jù)源的虛擬DWBW具有可行性。同時,對于一般性的查詢比對等基本操作,不會影響其工作效率和準確性。
基于Web面向用戶的綜合平臺的開發(fā)設計。此平臺主要提供一個用戶操作的平臺,除了集成基因比對、功能預測、序列分析、基因提交等傳統(tǒng)的操作以外,還允許用戶對虛擬數(shù)據(jù)倉庫中的數(shù)據(jù)運用數(shù)據(jù)挖掘技術,提供更多的分析支持工具。
本書共有38章:1.G.N.Ramachandran的學術遺產(chǎn)與印度結構生物學的發(fā)展;2.膠原三螺旋結構研究綜述;3.Ramachandran先生豐厚的學術遺產(chǎn);4.“相圖”擴充:更多數(shù)據(jù)、更多維度、更多用途;5.拉氏圖和蛋白質結構驗證;6.拉氏圖的非參數(shù)統(tǒng)計分析;7.拉氏圖封閉區(qū)的非甘氨酸殘基及其鄰位偏好性;8.蛋白質相似結構的二面角變異性分析;9.α碳原子示蹤與扭矩角分析α螺旋幾何量:一個比較;10.拉氏圖不同區(qū)域對蛋白質中氨基酸殘基的傾向性;11.多肽構象粗晶分析的立體化學;12.多蛋白組裝:靶向蛋白-蛋白相互作用以調控細胞生化活性;13.蛋白-蛋白復合物結構的預測;14.抗體特異性研究的新范式:種系抗體識別的結構生物學;15.蛋白質組,蛋白折疊盒自關聯(lián):NMR技術最新進展;16.用計算方法研究蛋白質復合物識別機制;17.蛋白質三級結構的普遍性:一些新概念;18 冷休克結構域――單鏈RNA結合和重塑與分子模塊的多變性;19.DNA蛋白質復合物中的DNA螺旋轉換;20.D氨基酸:產(chǎn)生、立體化學和翻譯機制規(guī)避;21.多肽設計中用構象性限制殘基誘發(fā)折疊結構;22.環(huán)β-氨基酸作為構象限制劑;23.蛋白質二硫鍵分析與設計;24.強扭曲和卷曲β-發(fā)卡結構及其在蛋白質折疊中的作用;25.負責結構域交換的蛋白質鉸鏈區(qū)的鑒定和構象分析;26.內生性異常蛋白:結構-功能范式的重讀;27.內生性異常蛋白:調控與疾??;28.T細胞賴氨酸激酶ZAP-70調控的結構基礎;29.模擬蛋白功能調控的構象動力學控制;30.σ因子-抗σ因子復合物的構象特征;31.Ⅱ型 5-磷酸吡哆醛依賴的酶:結構、底物識別與催化;32.分子內同構多肽鍵:菌毛和細胞表面粘附中新的翻譯后修飾;33.結構生物信息學解析次生代謝物的生物合成密碼;34.加速化分子動力學:生物分子模擬的效應提高取樣法;35.E.coli膽色素原去氨基酶四聚體化時的結構動態(tài);36.抗凋亡MCL1和A1蛋白憎水溝的可塑性;37.用不規(guī)則維度法研究蛋白質結構的有效性;38.MOLS技術檢測甲硫氨酸-腦啡肽景觀結構的內生性。
作者Manju Bansal是位于班加羅爾的印度科學理工學院的教授,N Srinivasan是此校的副教授。Manju Bansal研究領域是核酸結構、原核和真核生物啟動子結構,DNA結構穩(wěn)定性,DNA構象柔性,DNA配體結合動力學,蛋白質二級結構。N Srinivasan的研究主要用計算方法研究蛋白質結構、功能及相互作用,細胞信號傳導和生物通路。
本書適合結構生物學、計算生物學、分子生物學和生物化學、生物信息學、藥物化學領域的專家、學者和研究生閱讀。
關鍵詞:生物學;信息;支持向量機
中圖分類號:R392
在免疫學[1]中認為,表位才是抗原刺激機體免疫系統(tǒng)產(chǎn)生特異性免疫應答的真正部位。B細胞表位預測是表位預測的一個重要組成部分,大多數(shù)的研究是針對線性B細胞表位預測,通過組合抗原蛋白物理化學性質、結構性質、統(tǒng)計顯著性度量等特征屬性進行表位預測,并取得一定的研究成果。
1 抗原表位[6]的大小與相應抗體的抗原結合部位相適合
一般情況下,一個多肽表位含5~6個氨基酸殘基;一個多糖表位含5~7個單糖;一個核酸半抗原的表位含6~8個核苷酸。一個抗原表位的特異性由組成它的所有殘基共同決定,但其中有些殘基在與抗體結合時比其它殘基起更大作用,這些殘基被稱為免疫顯性基團。免疫應答過程中,T細胞的TCR和B細胞的BCR所識別的表位具有不同特點,分別被稱為T細胞表位和B細胞表位。
2 基于SVM的線性B細胞表位預測采用貝葉斯特征提取方法[2]
B細胞表位的抗原-抗體之間的相互作用機制,在疾病的預防和診治中發(fā)揮了極大的推動作用。實驗方法通常是費力和耗時的,在硅片方法進行預測這些免疫原性的區(qū)域是關鍵的。這樣的努力,已經(jīng)顯著以高阻礙可變性的抗原表位序列的長度和組成,使得初治建模方法難以適用。結果:分析了兩個標準數(shù)據(jù)集,發(fā)現(xiàn)線性B細胞表位具有鮮明的殘基保守性和特定位置的殘留物傾向性這可能被利用在硅片表位識別中。開發(fā)了一種支持向量機(SVM)預測模型,采用貝葉斯特征提取預測多種不同的長度的線性B細胞表位。最好的SVM分類器實現(xiàn)了準確度為74.50%和AROC為0.84在一個獨立的測試集中,并證明優(yōu)于現(xiàn)有的線性B細胞表位預測算法。
3 UniProt[3]
全球蛋白質資源(Universal Protein Resource,UniProt)這個數(shù)據(jù)庫是全球有關蛋白質方面信息最全面的資源庫,是蛋白質序列以及功能信息的集中資源,且其具有最小的冗余。UniProt是對PIR、TrEMBL以及SwissProt的信息進行組合而構成的。UniProt提供了完全分類的、有豐富且準確注釋信息的基于知識的蛋白質序列信息,且有廣泛的交叉引用以及多種查詢界向。出于方便序列查詢,UniProt同樣提供了多個非冗余序列數(shù)據(jù)庫。
UniProt由三部分內容組成,分別是UniProtKB、UniRef和UniParc,每個部分偏向于不同的用途。
3.1 UniProtKB(the UniProt knowledgebase)是基于知識的UniProt,通常也簡稱為UniProt[7],它匯聚了蛋白質的主要信息,包括蛋白質功能、分類以及交叉引用。UniProtKB包含兩個部分:一部分是人工注釋的記錄,這部分注釋信息是來自于文獻信息和在專家監(jiān)督下進行計算機分析而得到的(記為UniProt,SwissProt);另外一部分是直接利用計算機程序獲得的記錄信息。
3.2 UniRef即UniProt非冗余參考數(shù)據(jù)庫,它把緊密相關的序列信息進行組合并記錄到一個記錄條目中去,這樣一來便于加速序列搜索。前面提到的UniProtKB中的數(shù)據(jù)是嚴格根據(jù)某一物種的可靠而又穩(wěn)定的序列信息資料而得到的,而UniRef100則是將UniProtKB中不同物種的序列信息進行交叉合并處理后的條目,它包含了UniProtKB中的所有記錄信息。UniRefl00還包含了UniParc的記錄,UniParc中的序列被認為是過度表達的以及不包含在一些已知數(shù)據(jù)庫中的序列信息,比如說DDBJ/EMBI,/GenBank中的全基因組短槍法數(shù)據(jù)(WGS)編碼蛋白的翻譯產(chǎn)物,Ensembl中從不同生物體內翻譯得到的蛋白質以及國際蛋白質索引(International Protein index,IPI)數(shù)據(jù)。
3.3 UniParc即UniProt檔案庫(UniProt Archive),它廣泛存儲所有公開發(fā)表過的蛋白質序列,只包含唯一的標識符和序列。大多數(shù)蛋白質序列數(shù)據(jù)是從DDBJ/EMBL/Geni3ank中的核酸序列翻譯過來的,而大量由蛋白質測序實驗直接得到的初級蛋白質序列數(shù)據(jù)又直接上傳到其他資源庫中去。
4 機器學習方法簡介
4.1 決策樹。實際上是將空間用超平面進行劃分的一種方法,每次分割的時候,都將當前的空間一分為二,這樣使得每一個葉子節(jié)點都是在空間中的一個不相交的區(qū)域,在進行決策的時候,會根據(jù)輸入樣本每一維特征值,一步一步往下,最后使得樣本落入N個區(qū)域中的一個(假設有N個葉子節(jié)點)。
4.2 隨機森林。用隨機的方式建立一個森林,森林里面有很多的決策樹組成,隨機森林的每一棵決策樹之間是沒有關聯(lián)的。在得到森林之后,當有一個新的輸入樣本進入的時候,就讓森林中的每一棵決策樹分別進行一下判斷,看看這個樣本應該屬于哪一類(對于分類算法),然后看看哪一類被選擇最多,就預測這個樣本為哪一類。每一棵決策樹就是一個精通于某一個窄領域的專家,這樣在隨機森林中就有了很多個精通不同領域的專家,對一個新的問題(新的輸入數(shù)據(jù)),可以用不同的角度去看待它,最終由各個專家,投票得到結果。
4.3 支持向量機。一種有堅實數(shù)學理論基礎的小樣本學習方法,支持向量機被廣泛應用在統(tǒng)計分類和回歸分析領域中,最終的決策函數(shù)只由少數(shù)的支持向量所確定,而不是樣本空間的維數(shù),避免了訓練樣本數(shù)量對分類速度的影響。但是經(jīng)典的支持向量機給出的只是二類分類問題的解決方法,而在實際應用中,這種情況非常好,大多數(shù)都是多分類問題。
4.4 隱馬爾可夫。我們知道,馬爾可夫模型中每個狀態(tài)對應一個可觀察的輸出符號,它們的關系是一一對應的,但是很多實際問題往往是復雜的,每個狀態(tài)可觀察到多個觀察符號之一。因此,這時的馬爾可夫模型的可觀察的輸出符號序列是狀態(tài)的一個函數(shù),也就是說該模型是由兩個隨機序列組成,一條是隱藏起來的狀態(tài)序列,簡稱為隱狀態(tài)序列,另一條是由該隱狀態(tài)序列產(chǎn)生的可觀察的輸出符號序列。HMM在20世紀60年代末70年代初提出,是一種典型的統(tǒng)計方法,是一種用參數(shù)表示的、用于描述隨機過程統(tǒng)計特征的概率模型。1970年左右,Baum等人建立起HMM的理論基礎。Rabiner詳細地對HMM做出了介紹,才使得各國的學者漸漸了解并熟悉該模型,進而成為了公認的研究熱點。
5 線性B細胞表位的應用
5.1 豬帶絳蟲六鉤蚴 TSO45-4B 抗原 FnⅢ結構域相應的線性 B 細胞表位肽免疫原性研究[4]。其目的是觀察載體蛋白偶聯(lián)的TSO45-4B抗原FnⅢ結構域相應的線性B細胞表位肽誘導的體液免疫反應。方法:人工合成TSO45-4B抗原FnⅢ結構域2條預測表位肽,偶聯(lián)鑰孔血藍蛋白免疫小鼠,采用 ELISA 法檢測小鼠血清中預測表位肽特異性抗體滴度。結果:免疫小鼠血清中檢測到1條預測表位肽特異性抗體,其效價達到1∶1280。結論:設計的1條TSO45-4B抗原FnⅢ結構域線性B細胞表位肽可誘導小鼠產(chǎn)生體液免疫反應。
5.2 HBeAg 的 B 細胞線性表位預測及鑒定[5]。預測并鑒定乙型肝炎病毒e抗原(HBeAg)的B細胞線性表位,為乙型肝炎的診斷和治療提供新的依據(jù)。方法采用生物信息學分析技術,利用NCBI數(shù)據(jù)庫和免疫表位數(shù)據(jù)庫提供的相應軟件預測HBeAg的B細胞線性表位,采用人工合成法合成相應表位肽并分別將與血藍蛋白(KLH)偶聯(lián),作為免疫原,免疫大白兔制備抗HBeAg抗原表位抗體,ELISA法鑒定抗體的特異性。結果發(fā)現(xiàn)了1MDIDPYKEFG10、37LYREALESPEHCSP50、74SNLEDPAS81、127RTPPAYRPPNAPIL140等4條新的HBeAg蛋白B細胞線性表位肽,其與KLH的偶聯(lián)物作為免疫原免疫大白兔,獲得特異性高效價抗體,抗體滴度大于1∶512000,ELISA 實驗證實上述抗體均可與HBeAg發(fā)生特異性免疫反應。結論采用生物信息學技術成功確認了4個HBeAg蛋白B細胞線性表位肽,為深入研究HBeAg的功能和作用以及乙型肝炎的治療提供了新依據(jù)。
6 結束語
線性B細胞表位的預測是用于疫苗設計的重要,開發(fā)診斷試劑,以及解釋抗原-抗體相互作用在分子水平上。在近年來,隨著各種組學的發(fā)展和構象的生物信息學,相關的實驗數(shù)據(jù)線性B細胞表位已經(jīng)被迅速地提出。建全相關數(shù)據(jù)庫促進線性B細胞表位的預測發(fā)展,在這項研究中,我們總結了生物信息資源和機器學習方法的線性B細胞表位的預測?;跈C器學習方法的線性B細胞表位的預測極大地降低線性B細胞表位定位的時間成本和人工成本,提高工作效率,智能搜索算法可以提高的方法的有效性,以及預測性能。
參考文獻:
[1]馮新港.免疫信息學原理及其應用[M].上海:上??茖W技術出版社,2009,6:1-5.
[2]Alix,A. (1999) Vaccine,18,311314(314).
[3]http:///[DB].
[4]王媛媛,陶志勇.豬帶絳蟲六鉤蚴TSO45-4B抗原FnⅢ結構域相應的線性B細胞表位肽免疫原性研究[J].蚌埠醫(yī)學院學報,2013,05.
[5]Jun Yang,Ni Liu.Prediction and identification of B-cell linear epitopes of hepatitis B e antigen.J South Med Univ,2013,33(2):253-257.
[6]黃艷新,鮑永利,李玉新.抗原表位預測的免疫信息學方法研究進展[J].中國免疫學雜志,2008,09-20.
[7] http://ncbi.nlm.nih.gov/genbank/[DB].
[8]Fattovich G,Bortolotti F, Donato F. Natural history of chronic hepatitis B: Special emphasis on disease progression and prognostic factor[J].JHepatology,2008,48(2):335-52.
[9]Liaw YF.HBeAg seroconversion as an important end point in the treatment of chronic hepatitis B[J]. Hepatol Int,2009,3(3):425-33.
[10]Lau GK, Wang FS. Uncover the immune biomarkers underlying hepatitis Beantigen (HBeAg) seroconversion:a need for more translational study[J]. JHepatol,2012,56(4):753-5.
[11]Roseman AM,Berriman JA., Wynne SA., et al. A structural model for maturation of the hepatitis B virus core[J]. Proc Natl Acad Sci USA, 2005,102(44):15821-6.
[12]Yasser EL-Manzalawy, Vasant Honavar.Recent advances in B-cell epitope prediction methods[J]. Immunome Res,2010,6(Suppl 2):S2.
本站为第三方开放式学习交流平台,所有内容均为用户上传,仅供参考,不代表本站立场。若内容不实请联系在线客服删除,服务时间:8:00~21:00。