网站首页
教育杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
医学杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
经济杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
金融杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
管理杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
科技杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
工业杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
SCI杂志
中科院1区 中科院2区 中科院3区 中科院4区
全部期刊
公務(wù)員期刊網(wǎng) 論文中心 正文

生物醫(yī)學(xué)事件觸發(fā)詞識(shí)別研究

前言:想要寫出一篇引人入勝的文章?我們特意為您整理了生物醫(yī)學(xué)事件觸發(fā)詞識(shí)別研究范文,希望能給你帶來(lái)靈感和參考,敬請(qǐng)閱讀。

生物醫(yī)學(xué)事件觸發(fā)詞識(shí)別研究

0引言

為了提高對(duì)海量文本信息管理的自動(dòng)化程度,許多研究學(xué)者在事件抽取領(lǐng)域投入了大量的精力.在生物醫(yī)學(xué)領(lǐng)域內(nèi),做好事件觸發(fā)詞的識(shí)別是事件抽取中比較關(guān)鍵的一步,有必要對(duì)生物醫(yī)學(xué)事件觸發(fā)詞的識(shí)別進(jìn)行深入研究.在進(jìn)行生物醫(yī)學(xué)事件抽取研究中,針對(duì)通用的特征很難找到,且對(duì)語(yǔ)料的要求和依賴性對(duì)總體識(shí)別準(zhǔn)確率的影響.本文通過(guò)對(duì)生物醫(yī)學(xué)的領(lǐng)域知識(shí)進(jìn)行學(xué)習(xí),把事件抽取的過(guò)程簡(jiǎn)化為分類問(wèn)題,經(jīng)過(guò)文本信息的預(yù)處理、事件觸發(fā)詞的識(shí)別、事件元素識(shí)別、后處理,其中在事件觸發(fā)詞識(shí)別的過(guò)程中,采用支持向量機(jī)(SVM)多分類任務(wù)來(lái)處理.通過(guò)實(shí)驗(yàn),該方法有效地實(shí)現(xiàn)了觸發(fā)詞的識(shí)別與抽取.

1生物醫(yī)學(xué)事件抽取的相關(guān)知識(shí)

1.1信息抽取

面對(duì)海量的信息,能夠?qū)π畔⑦M(jìn)行自動(dòng)分類、提取和重構(gòu),使人們快速?gòu)闹蝎@得有價(jià)值的信息,這就稱為信息抽取技術(shù),傳統(tǒng)的信息抽取系統(tǒng)在實(shí)現(xiàn)方法上與其他自然語(yǔ)言處理問(wèn)題的研究方法類似,并且籠統(tǒng)地劃分為基于機(jī)器學(xué)習(xí)的統(tǒng)計(jì)方法和基于分析的方法.

1.2機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)是人工智能領(lǐng)域的一個(gè)重要研究方向,它能夠讓我們從數(shù)據(jù)集中受到啟發(fā),利用計(jì)算機(jī)來(lái)彰顯數(shù)據(jù)背后的真實(shí)含義,是機(jī)器學(xué)習(xí)的目的.分類是機(jī)器學(xué)習(xí)的主要任務(wù).

1.3生物醫(yī)學(xué)事件抽取

事件抽取實(shí)質(zhì)上是指基于實(shí)體層面的信息抽取,它既抽取指定的一些動(dòng)作,還抽取動(dòng)作與實(shí)體之間的關(guān)系.

1.4SVM

SVM是建立在統(tǒng)計(jì)學(xué)習(xí)理論(STL)的VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理的基礎(chǔ)上的,它是根據(jù)有限的樣本信息在模型的復(fù)雜性之間尋求一個(gè)最佳的折中,來(lái)獲得好的推廣能力.SVM的基本思想主要是在向量空間中找到一個(gè)決策平面,找到的平面能“最好”地分割兩個(gè)分類中的數(shù)據(jù)點(diǎn).而SVM分類方法就是在訓(xùn)練集中找到具有最大類間界限的決策平面.假設(shè)給定ωTχnew+b,標(biāo)準(zhǔn)支持向量機(jī)使用線性決策邊界來(lái)給新的對(duì)象進(jìn)行分類.將落在這條線一邊的對(duì)象分類為tnew=1,另一邊對(duì)象分為tnew=-1(特別注意類別標(biāo)記為{1,-1}).由此可知支持向量機(jī)對(duì)一個(gè)新測(cè)試點(diǎn)χnew的判定函數(shù)定義為tnew=sign(ωTχnew+b).學(xué)習(xí)的任務(wù)包括基于訓(xùn)練數(shù)據(jù)選擇ω和b,這里我們主要是通過(guò)尋求最大化間隔的參數(shù)來(lái)實(shí)現(xiàn)的.

1.5句法分析

句子是由詞通過(guò)特定的形式組織起來(lái)的,如果能夠從句子中發(fā)現(xiàn)不同詞語(yǔ)間的句法關(guān)聯(lián),那么我們就能夠更好的理解句子的含義.經(jīng)過(guò)句法分析,我們就可以從字符串中去找到語(yǔ)義結(jié)構(gòu),那么如何找到一個(gè)合適的分類決策成為句子分析的主要挑戰(zhàn).Gdep(GENIADependencyparser)是由日本東京大學(xué)的KenjiSagae開發(fā)的專門針對(duì)生物醫(yī)學(xué)文本的依存分析器,它是在GENIA語(yǔ)料庫(kù)下訓(xùn)練的.

1.6評(píng)測(cè)方法

準(zhǔn)確率(P)和召回率(R)是衡量評(píng)測(cè)效率的兩個(gè)重要指標(biāo).其中準(zhǔn)確率衡量的是系統(tǒng)尋找到真正相關(guān)事件的可靠程度,而召回率衡量的則是系統(tǒng)尋找到相關(guān)事件的能力,二者緊密相關(guān),缺一不可.要尋找的事件的集合用A表示,系統(tǒng)找到的事件的集合用B表示,則準(zhǔn)確率P=A∩BA,召回率R=A∩BB,其中:|•|表示集合的大小;F表示準(zhǔn)確率和召回率的調(diào)和平均數(shù),用公式表示為:F=2PRP+R.由于調(diào)和平均數(shù)強(qiáng)調(diào)的是較小的那個(gè)值,所以F更容易被較小的值影響,偏向較小值的方向,所以F值更適合對(duì)準(zhǔn)確率P和召回率R來(lái)評(píng)價(jià).

1.7語(yǔ)料

本文采用的是標(biāo)注的語(yǔ)料集,是BioNLP’13中GE(GeniaEvent)任務(wù)的語(yǔ)料集.GE語(yǔ)料中有“全文”和“摘要”兩個(gè)集合,全文是指新標(biāo)注的全文論文,通過(guò)這種方法來(lái)增加語(yǔ)料的多樣性,這樣可以使訓(xùn)練后的系統(tǒng)具有更強(qiáng)的泛化能力.全文主要由標(biāo)題、摘要、方法和結(jié)果等部分組成,不同的部分所具有的目的也完全不同,從而造成獲取到不同的信息類型.摘要中的數(shù)據(jù)與BioNLP’09中的評(píng)測(cè)數(shù)據(jù)相同.

2基于SVM方法的生物醫(yī)學(xué)事件觸發(fā)詞識(shí)別

事件是指關(guān)于某一主題的一組相關(guān)描述.事件抽取的任務(wù)主要分為元事件抽取和主題事件抽?。疚慕梃b了基于HMM的生物醫(yī)學(xué)命名實(shí)體的識(shí)別與分類、基于多類型特征的生物醫(yī)學(xué)事件觸發(fā)詞識(shí)別中介紹的方法來(lái)對(duì)生物醫(yī)學(xué)事件的觸發(fā)詞進(jìn)行識(shí)別.當(dāng)前觸發(fā)詞的識(shí)別方法主要有三類:基于規(guī)則的方法、基于字典的方法和機(jī)器學(xué)習(xí)的方法.本文利用豐富的上下文信息、語(yǔ)義信息,首先通過(guò)組織各種不同類型的信息,然后把它們統(tǒng)一表示為SVM下的特征,最后利用多分類方法解決觸發(fā)詞識(shí)別的問(wèn)題.

2.1語(yǔ)料預(yù)處理

BioNLP’13中的GE語(yǔ)料是以全文的一部分或每個(gè)摘要作為一組,每一組中都包含:“.txt”、“.a(chǎn)2”和“.a(chǎn)1”三個(gè)文件.例如:在文檔號(hào)為“PMC-1310901-00-TIAB.txt”、“PMC-1310901-00-TIAB.a(chǎn)1”、“PMC-1310901-00-TIAB.a(chǎn)2”文件中.這三個(gè)文件中,txt、a2和a1分別表示摘要原文本的內(nèi)容、摘要文檔中觸發(fā)詞和摘要文檔中已標(biāo)記的蛋白質(zhì).

2.1.1語(yǔ)料格式BioNLP共享任務(wù)(ST)數(shù)據(jù)使用格式類似于2009和2011年的BioNLP共享文件格式.在語(yǔ)料格式表示中,文本文件是分開注釋的.所有注釋文件格式遵循的相同基本結(jié)構(gòu),每一行包含一個(gè)注釋,每個(gè)注釋ID出現(xiàn)在第一行,其余的注釋隨類型的不同而變化.

2.1.2語(yǔ)料預(yù)處理流程由于在總體事件中,跨句事件低于1%比例的事實(shí)情況,而同時(shí)在尋找跨句事件的過(guò)程中,通常也會(huì)引起過(guò)多的噪音.鑒于這些情況,我們?cè)诒疚闹兄粚?duì)一個(gè)句子中的事件進(jìn)行詳細(xì)研究.所以需要預(yù)處理GE語(yǔ)料.

(1)首先對(duì)GE語(yǔ)料中各文檔的txt文件進(jìn)行分句處理.

(2)由于在GE語(yǔ)料中,a2及a1文件中的觸發(fā)詞、蛋白質(zhì)都是標(biāo)明的位置,如T84Binding28452850binds表示觸發(fā)詞“binds”在這個(gè)文檔中某種事件的標(biāo)識(shí)為T84,類型為“Binding”,所處理的對(duì)象是以文檔中起始位置開始記錄的第2845個(gè)字符一直到其后面的5個(gè)字符之間的所有字符串.所以通過(guò)對(duì)文檔分句后,就要重新計(jì)算這些觸發(fā)詞、蛋白質(zhì)的位置,并讓它們轉(zhuǎn)化為分句處理后在各自句子的位置.

(3)由于按詞語(yǔ)進(jìn)行分析是Gdep分析器的主要功能,并且部分蛋白質(zhì)是由兩個(gè)或更多的詞構(gòu)成,因此在進(jìn)行句法分析前,我們需要先替換蛋白質(zhì),統(tǒng)一以“protein+序號(hào)”的形式將語(yǔ)料中給出的蛋白質(zhì)替換掉,然后再對(duì)分句處理后的語(yǔ)料進(jìn)行分析.

(4)用Gdep句法分析器進(jìn)行句子的分析處理后,每個(gè)句子中的每個(gè)詞的依有關(guān)系及依有關(guān)系子節(jié)點(diǎn),另外還有詞干化結(jié)果、詞性等相關(guān)信息就會(huì)清晰呈現(xiàn)出來(lái).

(5)分析Gdep得出的結(jié)果,弄懂每行的基本信息,可以看出句子中的每一個(gè)詞分別占一行.每個(gè)詞的基本信息都在對(duì)應(yīng)行清晰顯現(xiàn).通過(guò)觀察分析可知:該詞的依存關(guān)系中父節(jié)點(diǎn)的位置是每行倒數(shù)第二個(gè)位置上的數(shù)字,該詞在句子中所處的位置則是該行最前面的數(shù)字.

(6)建立候選詞詞典.候選詞詞典在建立的過(guò)程中通常會(huì)引入大量噪音,進(jìn)而特征的可用性就會(huì)隨之降低.鑒于此種情況,候選詞詞典中只放入訓(xùn)練集中出現(xiàn)的觸發(fā)詞,即將所有a2文件的觸發(fā)詞抽取到一個(gè)文件中,這樣就建立了候選詞的詞典.而對(duì)于候選詞,則必須要先在觸發(fā)詞詞典中進(jìn)行匹配,然后才能進(jìn)行提取特征.

2.2提取上下文特征

提取上下文特征主要是從處理后的語(yǔ)料中得到的.其原理是根據(jù)候選詞本身以及其所在的位置、詞干化和詞性等特征進(jìn)行提取.其具體的特征主要有:

(1)詞特征.它主要包括候選詞詞干化的結(jié)果、候選詞本身和候選詞詞性以及詞袋特征.其中N窗口表示與候選詞左側(cè)和右側(cè)相距最遠(yuǎn)為N個(gè)詞的距離.由經(jīng)驗(yàn)得知,N=5時(shí)效果最佳.所以實(shí)驗(yàn)中窗口的大小我們也采用N=5.

(2)特定位置特征.對(duì)觸發(fā)詞的識(shí)別有重要影響的還有判斷候選詞周圍特殊位置的詞.如果候選詞“transcription”左邊的第一個(gè)為“T-box”,右邊的第一個(gè)詞為“factor”.我們就會(huì)把該特征記錄為“Candicate_left=T-box”“Candicate_right=factor”.同樣也會(huì)考慮左右第二個(gè)詞.由經(jīng)驗(yàn)可知,如果考慮太多位置,則會(huì)引入更多噪音,同時(shí)還會(huì)出現(xiàn)數(shù)據(jù)稀疏問(wèn)題.

(3)N-gram特征.N-gram特征更多的是考慮周圍詞與候選詞的關(guān)系.由于這個(gè)特征,從而使得特征的可辨識(shí)度得到了進(jìn)一步提高,同樣是由經(jīng)驗(yàn)可知,2-gram和3-gram時(shí)效果最好.如對(duì)于“Down-regulationofinterferonregulatorfact4geneexpressioninleukemiccellsduetohypermethylationofCpGnotifsinthepromoterregion.”的候選詞expression來(lái)表示,它的3-gram特征則表示為“3-gram-left=4geneexpression”,它還可以表示為“3-gram=geneexpressionin”或“3-gram-right=expressioninleukemic”.

(4)與給定蛋白質(zhì)的距離特征.已標(biāo)識(shí)的蛋白質(zhì)對(duì)于判斷是否為觸發(fā)詞能起很大作用.因此我們可以利用蛋白質(zhì)及候選詞之間的單詞個(gè)數(shù)(距離信息),通過(guò)下邊的公式將兩者間的距離特征變?yōu)樘卣髦担趕core(d)=iemax(d,β)-β+0.01公式中的d表示的是候選詞與蛋白質(zhì)之間的距離,β作為閥值進(jìn)行調(diào)節(jié),從而確定出β取什么值時(shí)F的效果最好.

2.3提取語(yǔ)義特征

在語(yǔ)料預(yù)處理過(guò)程中,我們已經(jīng)通過(guò)Gdep句法分析器進(jìn)行了分析,分析結(jié)果可以用語(yǔ)義上下層關(guān)系表示出來(lái),從而得到一個(gè)樹形結(jié)構(gòu),即依存分析樹,因而可以利用語(yǔ)義信息進(jìn)行特征的提取。

2.3.1語(yǔ)義特定位置特征由于父節(jié)點(diǎn)只有一個(gè),而子節(jié)點(diǎn)可能有多個(gè),考慮到語(yǔ)義特定位置的特殊性,需要提取子節(jié)點(diǎn)和父節(jié)點(diǎn)兩種特征.對(duì)子節(jié)點(diǎn)只提取子節(jié)點(diǎn)特征,而對(duì)父節(jié)點(diǎn)則需要提取父節(jié)點(diǎn)和父節(jié)點(diǎn)的父節(jié)點(diǎn)特征.

2.3.2語(yǔ)義N-gram特征為避免出現(xiàn)數(shù)據(jù)稀疏的現(xiàn)象,只取N=2時(shí)的特征,這里不僅需要考慮詞,還需要考慮是否有依存關(guān)系.比如對(duì)于候選詞“silencing”的2-gram特征表示為:

①不考慮依存關(guān)系的子節(jié)點(diǎn)方向的特征為:“semantic-2gram=silencingthe”和“semantic-2gram=silencingof”;

②不考慮依存關(guān)系的父節(jié)點(diǎn)方向的特征“semantic-2gram=ofsilencing”,考慮依存關(guān)系的父節(jié)點(diǎn)方向特征“semantic-2gram-dependency=ofPMODsilencing”;

③考慮依存關(guān)系的子節(jié)點(diǎn)方向的兩個(gè)特征分別為:“semantic-2gram-dependency=silencingNMODthe”和“semantic-2gram-dependency=silencingNMODof”.

2.3.3根路徑特征由上例的依存分析樹圖1可以看出,“rootremainedcauseofsilencingoflevelProtein206”是存在于root與指定蛋白質(zhì)“Protein206”之間的一條路徑,基于主要的節(jié)點(diǎn)都在這條路徑上,我們可以把它看作是句子中的一條關(guān)鍵路徑.我們之所以把該詞和其父節(jié)點(diǎn)是否在根路徑上作為一個(gè)特征,是因?yàn)橥ㄟ^(guò)在訓(xùn)練集中的統(tǒng)計(jì)發(fā)現(xiàn):觸發(fā)詞本身或其父節(jié)點(diǎn)出現(xiàn)在根路徑上對(duì)于觸發(fā)詞的判別有很大作用.例如“silencing”這一候選詞的根路徑特征可表示為:“semantic-in-rootpath=1”和“semantic-father-in-rootpath=1”.

3實(shí)驗(yàn)結(jié)果與分析

3.1實(shí)驗(yàn)

在BioNLP’13的GE語(yǔ)料中,我們發(fā)現(xiàn)有Geneexpression(基因表達(dá))、Transcription(轉(zhuǎn)錄)、Proteincatabolism(蛋白質(zhì)分解代謝)、Phosphorylation(磷酸化)、Localization(定位)、Binding(綁定事件)、Regulation(調(diào)控)、Positiveregulation(正向調(diào)控)、Negativeregulation(負(fù)向調(diào)控)這9種類型.如果我們把在候選詞中出現(xiàn)的每個(gè)詞都看作候選詞,然后對(duì)它的語(yǔ)義特征和上下文等特征進(jìn)行提取,將觸發(fā)詞的識(shí)別作為一個(gè)多分類的過(guò)程任務(wù),則需要分成10類,因?yàn)檫@里還要考慮到判斷該候選詞是否為觸發(fā)詞這一任務(wù),所以多了1類.我們用SVMlight工具進(jìn)行分類訓(xùn)練。為了便于比較與說(shuō)明,在這里我們將上文中提到的各種特征進(jìn)行重新劃分和分類:SF類特征、Base類特征和RP特征.其中Base類特征表示上下文特征,SF則表示除根路徑外的語(yǔ)義特征,RP表示的是根路徑特征.為了對(duì)本文方法的有效性進(jìn)行評(píng)估,對(duì)目前文獻(xiàn)中提出的主題詞抽取方法進(jìn)行了對(duì)比分析.不同算法下的性能對(duì)比Fig.2Performancecomparisonchartofdifferentalgorithms

3.2實(shí)驗(yàn)分析

中可以看出,我們的系統(tǒng)在簡(jiǎn)單事件上取得了很好的效果,在4種系統(tǒng)中F值最高.在所有事件的比較中,我們的準(zhǔn)確率很高,F(xiàn)值較最好的FAUST系統(tǒng)有一些差距,但與同樣基于分類方法的UTurku系統(tǒng)和MSP-NLP系統(tǒng)相比,本文的SVM-BASED系統(tǒng)的結(jié)果要好很多.

4結(jié)束語(yǔ)

本文在前人關(guān)于生物醫(yī)學(xué)文獻(xiàn)的事件抽取進(jìn)行研究的基礎(chǔ)上,提出了基于SVM的生物醫(yī)學(xué)事件觸發(fā)詞識(shí)別探索.在生物醫(yī)學(xué)信息領(lǐng)域,觸發(fā)詞表示的是實(shí)體間的復(fù)雜關(guān)系,大部分觸發(fā)詞的識(shí)別都將轉(zhuǎn)化為觸發(fā)詞分類問(wèn)題.基于SVM方法的生物醫(yī)學(xué)事件觸發(fā)詞的識(shí)別是能夠基于訓(xùn)練集自動(dòng)學(xué)習(xí)的.它主要是利用特征集訓(xùn)練出觸發(fā)詞識(shí)別的分類器,從而進(jìn)行觸發(fā)詞的識(shí)別.本文主要研究了目前生物醫(yī)學(xué)事件抽取的研究背景、主要方法,闡述了生物醫(yī)學(xué)事件抽取的相關(guān)理論,并對(duì)語(yǔ)料進(jìn)行處理,利用SVM方法訓(xùn)練出模型進(jìn)行觸發(fā)詞的識(shí)別,這種方法具有較強(qiáng)分類能力.由于本文主要是基于標(biāo)注數(shù)據(jù)進(jìn)行研究的,而在實(shí)際的生活中,標(biāo)注數(shù)據(jù)的代價(jià)很大,所以利用未標(biāo)注的數(shù)據(jù)進(jìn)行觸發(fā)詞的識(shí)別是以后工作研究的重點(diǎn)。

作者:魏培文 段德全 孫印杰 毛文濤 單位:河南師范大學(xué)

免责声明

本站为第三方开放式学习交流平台,所有内容均为用户上传,仅供参考,不代表本站立场。若内容不实请联系在线客服删除,服务时间:8:00~21:00。

AI写作,高效原创

在线指导,快速准确,满意为止

立即体验
文秘服务 AI帮写作 润色服务 论文发表