亚洲欧洲日产国码高潮av,亚洲一本之道高清乱码

前言：想要寫出一篇引人入勝的文章？我們特意為您整理了生物醫(yī)學(xué)事件觸發(fā)詞識(shí)別研究范文，希望能給你帶來(lái)靈感和參考，敬請(qǐng)閱讀。

生物醫(yī)學(xué)事件觸發(fā)詞識(shí)別研究

0引言

為了提高對(duì)海量文本信息管理的自動(dòng)化程度，許多研究學(xué)者在事件抽取領(lǐng)域投入了大量的精力．在生物醫(yī)學(xué)領(lǐng)域內(nèi)，做好事件觸發(fā)詞的識(shí)別是事件抽取中比較關(guān)鍵的一步，有必要對(duì)生物醫(yī)學(xué)事件觸發(fā)詞的識(shí)別進(jìn)行深入研究．在進(jìn)行生物醫(yī)學(xué)事件抽取研究中，針對(duì)通用的特征很難找到，且對(duì)語(yǔ)料的要求和依賴性對(duì)總體識(shí)別準(zhǔn)確率的影響．本文通過(guò)對(duì)生物醫(yī)學(xué)的領(lǐng)域知識(shí)進(jìn)行學(xué)習(xí)，把事件抽取的過(guò)程簡(jiǎn)化為分類問(wèn)題，經(jīng)過(guò)文本信息的預(yù)處理、事件觸發(fā)詞的識(shí)別、事件元素識(shí)別、后處理，其中在事件觸發(fā)詞識(shí)別的過(guò)程中，采用支持向量機(jī)(SVM)多分類任務(wù)來(lái)處理．通過(guò)實(shí)驗(yàn)，該方法有效地實(shí)現(xiàn)了觸發(fā)詞的識(shí)別與抽取．

1生物醫(yī)學(xué)事件抽取的相關(guān)知識(shí)

1．1信息抽取

面對(duì)海量的信息，能夠?qū)π畔⑦M(jìn)行自動(dòng)分類、提取和重構(gòu)，使人們快速?gòu)闹蝎@得有價(jià)值的信息，這就稱為信息抽取技術(shù)，傳統(tǒng)的信息抽取系統(tǒng)在實(shí)現(xiàn)方法上與其他自然語(yǔ)言處理問(wèn)題的研究方法類似，并且籠統(tǒng)地劃分為基于機(jī)器學(xué)習(xí)的統(tǒng)計(jì)方法和基于分析的方法．

1．2機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)是人工智能領(lǐng)域的一個(gè)重要研究方向，它能夠讓我們從數(shù)據(jù)集中受到啟發(fā)，利用計(jì)算機(jī)來(lái)彰顯數(shù)據(jù)背后的真實(shí)含義，是機(jī)器學(xué)習(xí)的目的．分類是機(jī)器學(xué)習(xí)的主要任務(wù)．

1．3生物醫(yī)學(xué)事件抽取

事件抽取實(shí)質(zhì)上是指基于實(shí)體層面的信息抽取，它既抽取指定的一些動(dòng)作，還抽取動(dòng)作與實(shí)體之間的關(guān)系．

1．4SVM

SVM是建立在統(tǒng)計(jì)學(xué)習(xí)理論(STL)的VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理的基礎(chǔ)上的，它是根據(jù)有限的樣本信息在模型的復(fù)雜性之間尋求一個(gè)最佳的折中，來(lái)獲得好的推廣能力．SVM的基本思想主要是在向量空間中找到一個(gè)決策平面，找到的平面能“最好”地分割兩個(gè)分類中的數(shù)據(jù)點(diǎn)．而SVM分類方法就是在訓(xùn)練集中找到具有最大類間界限的決策平面．假設(shè)給定ωTχnew+b，標(biāo)準(zhǔn)支持向量機(jī)使用線性決策邊界來(lái)給新的對(duì)象進(jìn)行分類．將落在這條線一邊的對(duì)象分類為tnew=1，另一邊對(duì)象分為tnew=－1(特別注意類別標(biāo)記為{1，－1})．由此可知支持向量機(jī)對(duì)一個(gè)新測(cè)試點(diǎn)χnew的判定函數(shù)定義為tnew=sign(ωTχnew+b)．學(xué)習(xí)的任務(wù)包括基于訓(xùn)練數(shù)據(jù)選擇ω和b，這里我們主要是通過(guò)尋求最大化間隔的參數(shù)來(lái)實(shí)現(xiàn)的．

1．5句法分析

句子是由詞通過(guò)特定的形式組織起來(lái)的，如果能夠從句子中發(fā)現(xiàn)不同詞語(yǔ)間的句法關(guān)聯(lián)，那么我們就能夠更好的理解句子的含義．經(jīng)過(guò)句法分析，我們就可以從字符串中去找到語(yǔ)義結(jié)構(gòu)，那么如何找到一個(gè)合適的分類決策成為句子分析的主要挑戰(zhàn)．Gdep(GENIADependencyparser)是由日本東京大學(xué)的KenjiSagae開發(fā)的專門針對(duì)生物醫(yī)學(xué)文本的依存分析器，它是在GENIA語(yǔ)料庫(kù)下訓(xùn)練的．

1．6評(píng)測(cè)方法

準(zhǔn)確率(P)和召回率(R)是衡量評(píng)測(cè)效率的兩個(gè)重要指標(biāo)．其中準(zhǔn)確率衡量的是系統(tǒng)尋找到真正相關(guān)事件的可靠程度，而召回率衡量的則是系統(tǒng)尋找到相關(guān)事件的能力，二者緊密相關(guān)，缺一不可．要尋找的事件的集合用A表示，系統(tǒng)找到的事件的集合用B表示，則準(zhǔn)確率P=A∩BA，召回率R=A∩BB，其中:|•|表示集合的大小;F表示準(zhǔn)確率和召回率的調(diào)和平均數(shù)，用公式表示為:F=2PRP+R．由于調(diào)和平均數(shù)強(qiáng)調(diào)的是較小的那個(gè)值，所以F更容易被較小的值影響，偏向較小值的方向，所以F值更適合對(duì)準(zhǔn)確率P和召回率R來(lái)評(píng)價(jià)．

1．7語(yǔ)料

本文采用的是標(biāo)注的語(yǔ)料集，是BioNLP’13中GE(GeniaEvent)任務(wù)的語(yǔ)料集.GE語(yǔ)料中有“全文”和“摘要”兩個(gè)集合，全文是指新標(biāo)注的全文論文，通過(guò)這種方法來(lái)增加語(yǔ)料的多樣性，這樣可以使訓(xùn)練后的系統(tǒng)具有更強(qiáng)的泛化能力．全文主要由標(biāo)題、摘要、方法和結(jié)果等部分組成，不同的部分所具有的目的也完全不同，從而造成獲取到不同的信息類型．摘要中的數(shù)據(jù)與BioNLP’09中的評(píng)測(cè)數(shù)據(jù)相同．

2基于SVM方法的生物醫(yī)學(xué)事件觸發(fā)詞識(shí)別

事件是指關(guān)于某一主題的一組相關(guān)描述．事件抽取的任務(wù)主要分為元事件抽取和主題事件抽?。疚慕梃b了基于HMM的生物醫(yī)學(xué)命名實(shí)體的識(shí)別與分類、基于多類型特征的生物醫(yī)學(xué)事件觸發(fā)詞識(shí)別中介紹的方法來(lái)對(duì)生物醫(yī)學(xué)事件的觸發(fā)詞進(jìn)行識(shí)別．當(dāng)前觸發(fā)詞的識(shí)別方法主要有三類:基于規(guī)則的方法、基于字典的方法和機(jī)器學(xué)習(xí)的方法．本文利用豐富的上下文信息、語(yǔ)義信息，首先通過(guò)組織各種不同類型的信息，然后把它們統(tǒng)一表示為SVM下的特征，最后利用多分類方法解決觸發(fā)詞識(shí)別的問(wèn)題．

2．1語(yǔ)料預(yù)處理

BioNLP’13中的GE語(yǔ)料是以全文的一部分或每個(gè)摘要作為一組，每一組中都包含:“．txt”、“．a(chǎn)2”和“．a(chǎn)1”三個(gè)文件．例如:在文檔號(hào)為“PMC-1310901-00-TIAB．txt”、“PMC-1310901-00-TIAB．a(chǎn)1”、“PMC-1310901-00-TIAB．a(chǎn)2”文件中．這三個(gè)文件中，txt、a2和a1分別表示摘要原文本的內(nèi)容、摘要文檔中觸發(fā)詞和摘要文檔中已標(biāo)記的蛋白質(zhì)．

2．1．1語(yǔ)料格式BioNLP共享任務(wù)(ST)數(shù)據(jù)使用格式類似于2009和2011年的BioNLP共享文件格式．在語(yǔ)料格式表示中，文本文件是分開注釋的．所有注釋文件格式遵循的相同基本結(jié)構(gòu)，每一行包含一個(gè)注釋，每個(gè)注釋ID出現(xiàn)在第一行，其余的注釋隨類型的不同而變化．

2．1．2語(yǔ)料預(yù)處理流程由于在總體事件中，跨句事件低于1%比例的事實(shí)情況，而同時(shí)在尋找跨句事件的過(guò)程中，通常也會(huì)引起過(guò)多的噪音．鑒于這些情況，我們?cè)诒疚闹兄粚?duì)一個(gè)句子中的事件進(jìn)行詳細(xì)研究．所以需要預(yù)處理GE語(yǔ)料．

(1)首先對(duì)GE語(yǔ)料中各文檔的txt文件進(jìn)行分句處理．

(2)由于在GE語(yǔ)料中，a2及a1文件中的觸發(fā)詞、蛋白質(zhì)都是標(biāo)明的位置，如T84Binding28452850binds表示觸發(fā)詞“binds”在這個(gè)文檔中某種事件的標(biāo)識(shí)為T84，類型為“Binding”，所處理的對(duì)象是以文檔中起始位置開始記錄的第2845個(gè)字符一直到其后面的5個(gè)字符之間的所有字符串．所以通過(guò)對(duì)文檔分句后，就要重新計(jì)算這些觸發(fā)詞、蛋白質(zhì)的位置，并讓它們轉(zhuǎn)化為分句處理后在各自句子的位置．

(3)由于按詞語(yǔ)進(jìn)行分析是Gdep分析器的主要功能，并且部分蛋白質(zhì)是由兩個(gè)或更多的詞構(gòu)成，因此在進(jìn)行句法分析前，我們需要先替換蛋白質(zhì)，統(tǒng)一以“protein+序號(hào)”的形式將語(yǔ)料中給出的蛋白質(zhì)替換掉，然后再對(duì)分句處理后的語(yǔ)料進(jìn)行分析．

(4)用Gdep句法分析器進(jìn)行句子的分析處理后，每個(gè)句子中的每個(gè)詞的依有關(guān)系及依有關(guān)系子節(jié)點(diǎn)，另外還有詞干化結(jié)果、詞性等相關(guān)信息就會(huì)清晰呈現(xiàn)出來(lái)．

(5)分析Gdep得出的結(jié)果，弄懂每行的基本信息，可以看出句子中的每一個(gè)詞分別占一行．每個(gè)詞的基本信息都在對(duì)應(yīng)行清晰顯現(xiàn)．通過(guò)觀察分析可知:該詞的依存關(guān)系中父節(jié)點(diǎn)的位置是每行倒數(shù)第二個(gè)位置上的數(shù)字，該詞在句子中所處的位置則是該行最前面的數(shù)字．

(6)建立候選詞詞典．候選詞詞典在建立的過(guò)程中通常會(huì)引入大量噪音，進(jìn)而特征的可用性就會(huì)隨之降低.鑒于此種情況，候選詞詞典中只放入訓(xùn)練集中出現(xiàn)的觸發(fā)詞，即將所有a2文件的觸發(fā)詞抽取到一個(gè)文件中，這樣就建立了候選詞的詞典．而對(duì)于候選詞，則必須要先在觸發(fā)詞詞典中進(jìn)行匹配，然后才能進(jìn)行提取特征．

2．2提取上下文特征

提取上下文特征主要是從處理后的語(yǔ)料中得到的．其原理是根據(jù)候選詞本身以及其所在的位置、詞干化和詞性等特征進(jìn)行提取．其具體的特征主要有:

(1)詞特征．它主要包括候選詞詞干化的結(jié)果、候選詞本身和候選詞詞性以及詞袋特征．其中N窗口表示與候選詞左側(cè)和右側(cè)相距最遠(yuǎn)為N個(gè)詞的距離．由經(jīng)驗(yàn)得知，N=5時(shí)效果最佳．所以實(shí)驗(yàn)中窗口的大小我們也采用N=5．

(2)特定位置特征．對(duì)觸發(fā)詞的識(shí)別有重要影響的還有判斷候選詞周圍特殊位置的詞．如果候選詞“transcription”左邊的第一個(gè)為“T-box”，右邊的第一個(gè)詞為“factor”．我們就會(huì)把該特征記錄為“Candicate_left=T-box”“Candicate_right=factor”．同樣也會(huì)考慮左右第二個(gè)詞．由經(jīng)驗(yàn)可知，如果考慮太多位置，則會(huì)引入更多噪音，同時(shí)還會(huì)出現(xiàn)數(shù)據(jù)稀疏問(wèn)題．

(3)N-gram特征．N-gram特征更多的是考慮周圍詞與候選詞的關(guān)系．由于這個(gè)特征，從而使得特征的可辨識(shí)度得到了進(jìn)一步提高，同樣是由經(jīng)驗(yàn)可知，2-gram和3-gram時(shí)效果最好．如對(duì)于“Down-regulationofinterferonregulatorfact4geneexpressioninleukemiccellsduetohypermethylationofCpGnotifsinthepromoterregion．”的候選詞expression來(lái)表示，它的3-gram特征則表示為“3-gram-left=4geneexpression”，它還可以表示為“3-gram=geneexpressionin”或“3-gram-right=expressioninleukemic”．

(4)與給定蛋白質(zhì)的距離特征．已標(biāo)識(shí)的蛋白質(zhì)對(duì)于判斷是否為觸發(fā)詞能起很大作用．因此我們可以利用蛋白質(zhì)及候選詞之間的單詞個(gè)數(shù)(距離信息)，通過(guò)下邊的公式將兩者間的距離特征變?yōu)樘卣髦担趕core(d)=iemax(d，β)－β+0．01公式中的d表示的是候選詞與蛋白質(zhì)之間的距離，β作為閥值進(jìn)行調(diào)節(jié)，從而確定出β取什么值時(shí)F的效果最好．

2．3提取語(yǔ)義特征

在語(yǔ)料預(yù)處理過(guò)程中，我們已經(jīng)通過(guò)Gdep句法分析器進(jìn)行了分析，分析結(jié)果可以用語(yǔ)義上下層關(guān)系表示出來(lái)，從而得到一個(gè)樹形結(jié)構(gòu)，即依存分析樹，因而可以利用語(yǔ)義信息進(jìn)行特征的提取。

2．3．1語(yǔ)義特定位置特征由于父節(jié)點(diǎn)只有一個(gè)，而子節(jié)點(diǎn)可能有多個(gè)，考慮到語(yǔ)義特定位置的特殊性，需要提取子節(jié)點(diǎn)和父節(jié)點(diǎn)兩種特征.對(duì)子節(jié)點(diǎn)只提取子節(jié)點(diǎn)特征，而對(duì)父節(jié)點(diǎn)則需要提取父節(jié)點(diǎn)和父節(jié)點(diǎn)的父節(jié)點(diǎn)特征．

2．3．2語(yǔ)義N-gram特征為避免出現(xiàn)數(shù)據(jù)稀疏的現(xiàn)象，只取N=2時(shí)的特征，這里不僅需要考慮詞，還需要考慮是否有依存關(guān)系．比如對(duì)于候選詞“silencing”的2-gram特征表示為:

①不考慮依存關(guān)系的子節(jié)點(diǎn)方向的特征為:“semantic-2gram=silencingthe”和“semantic-2gram=silencingof”;

②不考慮依存關(guān)系的父節(jié)點(diǎn)方向的特征“semantic-2gram=ofsilencing”，考慮依存關(guān)系的父節(jié)點(diǎn)方向特征“semantic-2gram-dependency=ofPMODsilencing”;

③考慮依存關(guān)系的子節(jié)點(diǎn)方向的兩個(gè)特征分別為:“semantic-2gram-dependency=silencingNMODthe”和“semantic-2gram-dependency=silencingNMODof”．

2．3．3根路徑特征由上例的依存分析樹圖1可以看出，“rootremainedcauseofsilencingoflevelProtein206”是存在于root與指定蛋白質(zhì)“Protein206”之間的一條路徑，基于主要的節(jié)點(diǎn)都在這條路徑上，我們可以把它看作是句子中的一條關(guān)鍵路徑．我們之所以把該詞和其父節(jié)點(diǎn)是否在根路徑上作為一個(gè)特征，是因?yàn)橥ㄟ^(guò)在訓(xùn)練集中的統(tǒng)計(jì)發(fā)現(xiàn):觸發(fā)詞本身或其父節(jié)點(diǎn)出現(xiàn)在根路徑上對(duì)于觸發(fā)詞的判別有很大作用．例如“silencing”這一候選詞的根路徑特征可表示為:“semantic-in-rootpath=1”和“semantic-father-in-rootpath=1”．

3實(shí)驗(yàn)結(jié)果與分析

3．1實(shí)驗(yàn)

在BioNLP’13的GE語(yǔ)料中，我們發(fā)現(xiàn)有Geneexpression(基因表達(dá))、Transcription(轉(zhuǎn)錄)、Proteincatabolism(蛋白質(zhì)分解代謝)、Phosphorylation(磷酸化)、Localization(定位)、Binding(綁定事件)、Regulation(調(diào)控)、Positiveregulation(正向調(diào)控)、Negativeregulation(負(fù)向調(diào)控)這9種類型．如果我們把在候選詞中出現(xiàn)的每個(gè)詞都看作候選詞，然后對(duì)它的語(yǔ)義特征和上下文等特征進(jìn)行提取，將觸發(fā)詞的識(shí)別作為一個(gè)多分類的過(guò)程任務(wù)，則需要分成10類，因?yàn)檫@里還要考慮到判斷該候選詞是否為觸發(fā)詞這一任務(wù)，所以多了1類．我們用SVMlight工具進(jìn)行分類訓(xùn)練。為了便于比較與說(shuō)明，在這里我們將上文中提到的各種特征進(jìn)行重新劃分和分類:SF類特征、Base類特征和RP特征．其中Base類特征表示上下文特征，SF則表示除根路徑外的語(yǔ)義特征，RP表示的是根路徑特征．為了對(duì)本文方法的有效性進(jìn)行評(píng)估，對(duì)目前文獻(xiàn)中提出的主題詞抽取方法進(jìn)行了對(duì)比分析．不同算法下的性能對(duì)比Fig．2Performancecomparisonchartofdifferentalgorithms

3．2實(shí)驗(yàn)分析

中可以看出，我們的系統(tǒng)在簡(jiǎn)單事件上取得了很好的效果，在4種系統(tǒng)中F值最高．在所有事件的比較中，我們的準(zhǔn)確率很高，F(xiàn)值較最好的FAUST系統(tǒng)有一些差距，但與同樣基于分類方法的UTurku系統(tǒng)和MSP-NLP系統(tǒng)相比，本文的SVM-BASED系統(tǒng)的結(jié)果要好很多．

4結(jié)束語(yǔ)

本文在前人關(guān)于生物醫(yī)學(xué)文獻(xiàn)的事件抽取進(jìn)行研究的基礎(chǔ)上，提出了基于SVM的生物醫(yī)學(xué)事件觸發(fā)詞識(shí)別探索．在生物醫(yī)學(xué)信息領(lǐng)域，觸發(fā)詞表示的是實(shí)體間的復(fù)雜關(guān)系，大部分觸發(fā)詞的識(shí)別都將轉(zhuǎn)化為觸發(fā)詞分類問(wèn)題．基于SVM方法的生物醫(yī)學(xué)事件觸發(fā)詞的識(shí)別是能夠基于訓(xùn)練集自動(dòng)學(xué)習(xí)的．它主要是利用特征集訓(xùn)練出觸發(fā)詞識(shí)別的分類器，從而進(jìn)行觸發(fā)詞的識(shí)別．本文主要研究了目前生物醫(yī)學(xué)事件抽取的研究背景、主要方法，闡述了生物醫(yī)學(xué)事件抽取的相關(guān)理論，并對(duì)語(yǔ)料進(jìn)行處理，利用SVM方法訓(xùn)練出模型進(jìn)行觸發(fā)詞的識(shí)別，這種方法具有較強(qiáng)分類能力．由于本文主要是基于標(biāo)注數(shù)據(jù)進(jìn)行研究的，而在實(shí)際的生活中，標(biāo)注數(shù)據(jù)的代價(jià)很大，所以利用未標(biāo)注的數(shù)據(jù)進(jìn)行觸發(fā)詞的識(shí)別是以后工作研究的重點(diǎn)。

作者：魏培文段德全孫印杰毛文濤單位：河南師范大學(xué)

生物醫(yī)學(xué)事件觸發(fā)詞識(shí)別研究

免责声明

AI写作，高效原创

相關(guān)熱門標(biāo)簽

相關(guān)文章閱讀

相關(guān)期刊推薦

生物醫(yī)學(xué)轉(zhuǎn)化

口腔生物醫(yī)學(xué)

現(xiàn)代生物醫(yī)學(xué)進(jìn)展

生物醫(yī)學(xué)與環(huán)境科學(xué) · 英文版

生物醫(yī)學(xué)工程研究

精選范文推薦