公務(wù)員期刊網(wǎng) 論文中心 正文

計(jì)算語(yǔ)言學(xué)視野下翻譯平臺(tái)的建設(shè)

前言:想要寫(xiě)出一篇引人入勝的文章?我們特意為您整理了計(jì)算語(yǔ)言學(xué)視野下翻譯平臺(tái)的建設(shè)范文,希望能給你帶來(lái)靈感和參考,敬請(qǐng)閱讀。

計(jì)算語(yǔ)言學(xué)視野下翻譯平臺(tái)的建設(shè)

以往研究多為討論計(jì)算語(yǔ)言學(xué)對(duì)語(yǔ)言學(xué)的影響,馮志偉(1992)用人類(lèi)對(duì)自然語(yǔ)言符號(hào)認(rèn)識(shí)水平的新理論,探討計(jì)算語(yǔ)言學(xué)對(duì)傳統(tǒng)語(yǔ)言學(xué)的挑戰(zhàn)。[2]布買(mǎi)熱木•阿布拉(2004)認(rèn)為計(jì)算語(yǔ)言學(xué)對(duì)語(yǔ)言學(xué)分支帶來(lái)了不同的沖擊和挑戰(zhàn)的同時(shí)又推進(jìn)了語(yǔ)言學(xué)的發(fā)展。[3]計(jì)算語(yǔ)言學(xué)對(duì)傳統(tǒng)的句法學(xué)、形態(tài)學(xué)、語(yǔ)義學(xué)、邏輯語(yǔ)法、詞匯學(xué)等方面有著重要的影響作用。同時(shí)計(jì)算統(tǒng)計(jì)學(xué)的發(fā)展也給語(yǔ)言學(xué)帶來(lái)新的視角,例如,冀鐵亮等(2007)將語(yǔ)言學(xué)與統(tǒng)計(jì)方法結(jié)合建立漢語(yǔ)動(dòng)詞子類(lèi)框架類(lèi)型集。[4]姚敏鋒(2010)描述了一種基于短語(yǔ)譯文組合的漢英機(jī)器翻譯系統(tǒng),對(duì)構(gòu)建一個(gè)漢英機(jī)器翻譯平臺(tái)有積極影響。[5]計(jì)算語(yǔ)言學(xué)與語(yǔ)言學(xué)之間的影響作用應(yīng)該是相互的。這些研究中側(cè)重討論了計(jì)算語(yǔ)言學(xué)對(duì)語(yǔ)言學(xué)的影響,接下來(lái)筆者將重點(diǎn)探討語(yǔ)言學(xué)對(duì)計(jì)算語(yǔ)言學(xué)的影響,以及計(jì)算語(yǔ)言學(xué)在翻譯方面的應(yīng)用。

計(jì)算語(yǔ)言學(xué)與語(yǔ)言學(xué)

隨著計(jì)算語(yǔ)言學(xué)在語(yǔ)言處理的理論與應(yīng)用方面研究不斷演化發(fā)展,語(yǔ)言學(xué)與計(jì)算語(yǔ)言學(xué)之間模糊的多面性關(guān)系逐漸形成。語(yǔ)言學(xué)在計(jì)算語(yǔ)言學(xué)的發(fā)展過(guò)程中,發(fā)揮著重要作用。計(jì)算語(yǔ)言學(xué)將計(jì)算科學(xué)與語(yǔ)言學(xué)結(jié)合并形成了對(duì)兩者分工明確的混合系統(tǒng),這個(gè)混合系統(tǒng)對(duì)翻譯平臺(tái)的建設(shè)具有很強(qiáng)的實(shí)踐指導(dǎo)作用。

(一)語(yǔ)言學(xué)對(duì)計(jì)算語(yǔ)言學(xué)的影響作用

計(jì)算語(yǔ)言學(xué)并非探討計(jì)算機(jī)語(yǔ)言的學(xué)科,[6]不是分解出來(lái)的關(guān)于數(shù)學(xué)語(yǔ)言學(xué)或者應(yīng)用語(yǔ)言學(xué)新的語(yǔ)言學(xué)分支,其研究對(duì)象既不是二進(jìn)制的機(jī)器語(yǔ)言,也不是編寫(xiě)計(jì)算機(jī)程序所用的程序設(shè)計(jì)語(yǔ)言,而是在人類(lèi)認(rèn)識(shí)世界和創(chuàng)造文明的過(guò)程中形成的自然語(yǔ)言。上世紀(jì)80年代,Lauri Kart-tunen發(fā)現(xiàn)應(yīng)用計(jì)算語(yǔ)言學(xué)與理論計(jì)算語(yǔ)言學(xué)共存且相互促進(jìn),同時(shí)理論計(jì)算語(yǔ)言學(xué)的分支也為理解人類(lèi)語(yǔ)言結(jié)構(gòu)和使用發(fā)揮了重要作用。然而語(yǔ)言學(xué)和計(jì)算語(yǔ)言學(xué)之間關(guān)系隨著時(shí)間發(fā)生了很多變化。這些變化通過(guò)計(jì)算語(yǔ)言學(xué)的五個(gè)范式體現(xiàn)出來(lái),在每一個(gè)范式中,語(yǔ)言學(xué)理論都發(fā)揮一定的作用,都對(duì)計(jì)算語(yǔ)言學(xué)研究產(chǎn)生不同的影響。第一個(gè)范式是直接啟用程序處理語(yǔ)言。操作者接受了相關(guān)的語(yǔ)言學(xué)理論教育,直接啟用如FORTRAN,COBOL等計(jì)算機(jī)程序或者匯編程序等進(jìn)行語(yǔ)言處理。這個(gè)階段對(duì)語(yǔ)言學(xué)知識(shí)和處理方法之間沒(méi)有系統(tǒng)性分別。第二個(gè)范式是語(yǔ)言處理專業(yè)算法與方法的發(fā)展,如解析算法,限定性分析以及擴(kuò)大的短語(yǔ)結(jié)構(gòu)語(yǔ)法。這種范式下發(fā)現(xiàn)了語(yǔ)言學(xué)知識(shí)和處理程序之間的分別,但研究方法的改進(jìn)離不開(kāi)語(yǔ)言學(xué)理論的指導(dǎo),需要一定程度地運(yùn)用語(yǔ)言學(xué)理論知識(shí)。第三個(gè)范式是語(yǔ)言學(xué)形式體系的出現(xiàn)。

20世紀(jì)80年代出現(xiàn)了一系列新的語(yǔ)法形式體系,如HPSG(Head-DrivenPhrase Structure Grammar,中心語(yǔ)驅(qū)動(dòng)短語(yǔ)結(jié)構(gòu)語(yǔ)法,吳云芳,2003),[7]LFG(Lexical-Functional Grammar,詞匯功能語(yǔ)法)等理論體系對(duì)計(jì)算語(yǔ)言學(xué)產(chǎn)生了影響,出現(xiàn)了形式與語(yǔ)義系統(tǒng)集合的語(yǔ)法模式體系,其形式模型與語(yǔ)言學(xué)理論緊密相連,因此許多模型體系被安排在語(yǔ)言學(xué)課程里教授探討。當(dāng)這些語(yǔ)言學(xué)的形式主義模型不能滿足實(shí)際應(yīng)用時(shí),第四種范式很快運(yùn)用于自然語(yǔ)言處理當(dāng)中并成為主導(dǎo)方法,即自然語(yǔ)言處理的專業(yè)方法。這樣研究者們將注意力集中于處理技術(shù)的提高,對(duì)語(yǔ)言及語(yǔ)言學(xué)的重視程度降低。第五種范式的出現(xiàn)是在計(jì)算語(yǔ)言學(xué)中的統(tǒng)計(jì)學(xué)方法在一些應(yīng)用領(lǐng)域難以進(jìn)行時(shí),自然語(yǔ)言處理開(kāi)始重新考慮語(yǔ)言學(xué)的方法和知識(shí)源泉。自然語(yǔ)言處理中的統(tǒng)計(jì)學(xué)方法專家試著回歸語(yǔ)言學(xué)中的詞匯學(xué)或是試著建立基于短語(yǔ)結(jié)構(gòu)的統(tǒng)計(jì)模式。統(tǒng)計(jì)學(xué)和語(yǔ)言學(xué)方法模式的結(jié)合促成了計(jì)算語(yǔ)言學(xué)第五種范式的生成,即統(tǒng)計(jì)的和非統(tǒng)計(jì)的機(jī)器學(xué)習(xí)方法與語(yǔ)言學(xué)方法的創(chuàng)新性結(jié)合。隨著計(jì)算機(jī)技術(shù)的發(fā)展與語(yǔ)言理論的深入研究,前三種范式漸漸退出研究的中心地位,后兩種范式將計(jì)算語(yǔ)言學(xué)的重要方法統(tǒng)計(jì)學(xué)與語(yǔ)言學(xué)結(jié)合起來(lái),成為自然語(yǔ)言處理的一個(gè)新的進(jìn)步范式。語(yǔ)言學(xué)與計(jì)算語(yǔ)言學(xué)中的統(tǒng)計(jì)學(xué)方法的合理應(yīng)用才能促進(jìn)語(yǔ)言研究的深入開(kāi)展。因此,對(duì)二者的分工與結(jié)合形成的混合系統(tǒng)進(jìn)行探討就顯得格外重要。

(二)計(jì)算語(yǔ)言學(xué)和語(yǔ)言學(xué)的分工與結(jié)合———混合系統(tǒng)研究

統(tǒng)計(jì)學(xué)的發(fā)展不斷改變著計(jì)算語(yǔ)言學(xué)與語(yǔ)言學(xué)之間的關(guān)系。統(tǒng)計(jì)學(xué)運(yùn)用于計(jì)算語(yǔ)言學(xué)方面,與語(yǔ)言學(xué)理論相結(jié)合,其促進(jìn)作用體現(xiàn)在混合系統(tǒng)研究中。在語(yǔ)言處理的一些領(lǐng)域中,設(shè)計(jì)混合系統(tǒng)的方法已經(jīng)顯示出了前景性的成果。第一個(gè)設(shè)計(jì)混合系統(tǒng)既包含語(yǔ)言學(xué)也包括計(jì)算機(jī)技術(shù)成分,使這兩種語(yǔ)言分析方法共同完成對(duì)詞匯短語(yǔ)句子等的處理任務(wù)。在混和機(jī)器翻譯研究中,混合系統(tǒng)的任務(wù)就是系統(tǒng)地為輸入的語(yǔ)言探索統(tǒng)計(jì)學(xué)與語(yǔ)言規(guī)則最理想的結(jié)合結(jié)果。由經(jīng)驗(yàn)豐富的語(yǔ)言學(xué)家對(duì)輸入的語(yǔ)言進(jìn)行一個(gè)詳細(xì)的語(yǔ)義分析,由最好的統(tǒng)計(jì)系統(tǒng)發(fā)現(xiàn)相對(duì)應(yīng)的輸出語(yǔ)言的詞匯短語(yǔ)或者句子鏈,并決定哪一類(lèi)的輸出結(jié)果是最恰當(dāng)?shù)姆g。系統(tǒng)利用事先給定的語(yǔ)言學(xué)語(yǔ)法轉(zhuǎn)換規(guī)則對(duì)這些詞匯短語(yǔ)句子鏈集合進(jìn)行譯文選擇組合,從而得到對(duì)應(yīng)的輸出語(yǔ)言語(yǔ)句。這種利用計(jì)算語(yǔ)言學(xué)技術(shù)與語(yǔ)言規(guī)則結(jié)合系統(tǒng)對(duì)詞匯短語(yǔ)句子進(jìn)行翻譯探索的方法只是對(duì)混合處理系統(tǒng)的嘗試。另一個(gè)混合系統(tǒng)的設(shè)計(jì)方法就是基于對(duì)于整個(gè)語(yǔ)篇的研究理論。這種語(yǔ)篇混合系統(tǒng)是對(duì)第一個(gè)混合系統(tǒng)的補(bǔ)充,它不僅研究短語(yǔ)結(jié)構(gòu),更將短語(yǔ)結(jié)構(gòu)的匹配上升到了語(yǔ)篇的高度,是一個(gè)更高層次的探索。這樣,計(jì)算語(yǔ)言學(xué)與語(yǔ)言學(xué)的發(fā)展對(duì)于混合系統(tǒng)研究、混合機(jī)器翻譯與翻譯平臺(tái)的建設(shè)發(fā)揮著重要的作用。

計(jì)算語(yǔ)言學(xué)視角下的翻譯平臺(tái)建設(shè)

在中國(guó)對(duì)外貿(mào)易、文化以及科技交流的蓬勃發(fā)展對(duì)翻譯行業(yè)需求高漲的背景下,語(yǔ)言信息處理技術(shù)的進(jìn)步給翻譯事業(yè)帶來(lái)的巨大變革和沖擊。環(huán)境的變化要求語(yǔ)言服務(wù)企業(yè)發(fā)現(xiàn)新的商業(yè)模式、采用新的戰(zhàn)略和新的管理模式,提高生產(chǎn)效率[8](俞敬松,2010)。很多語(yǔ)言服務(wù)企業(yè)每月百萬(wàn)字級(jí)別的翻譯項(xiàng)目已經(jīng)屢見(jiàn)不鮮,要求在很短的時(shí)間按照預(yù)定的質(zhì)量標(biāo)準(zhǔn)完成大量的翻譯。對(duì)語(yǔ)言服務(wù)工作者提出全新的要求。然而傳統(tǒng)小作坊模式的“譯、審、?!笔止しg流程顯然已經(jīng)不再適應(yīng)當(dāng)今大批量的、團(tuán)隊(duì)協(xié)作的翻譯業(yè)務(wù)流程?,F(xiàn)代語(yǔ)言信息處理等行業(yè)需要精通機(jī)器輔助翻譯的原理和應(yīng)用技術(shù)的人才及相關(guān)的自然語(yǔ)言處理技術(shù)的發(fā)展提高,因此探討在計(jì)算語(yǔ)言學(xué)視角下的翻譯平臺(tái)建設(shè)顯得格外重要,尤其是混合系統(tǒng)研究下的混合機(jī)器翻譯系統(tǒng)。

(一)語(yǔ)言規(guī)則是翻譯平臺(tái)建設(shè)中混合系統(tǒng)研究的前提條件

機(jī)器翻譯是當(dāng)前計(jì)算語(yǔ)言學(xué)研究的熱點(diǎn)和難點(diǎn)。要提高機(jī)譯的質(zhì)量,首先要解決的是語(yǔ)言本身問(wèn)題而非程序設(shè)計(jì)問(wèn)題;單靠程序來(lái)做機(jī)譯系統(tǒng),無(wú)法提高機(jī)譯質(zhì)量。目前的機(jī)器學(xué)習(xí)方法就是從相似的文本中獲得統(tǒng)計(jì)翻譯模型,但是對(duì)很多句法現(xiàn)象卻難以像傳統(tǒng)的語(yǔ)言學(xué)語(yǔ)法一樣正確地分析。如果語(yǔ)言學(xué)家們已經(jīng)理解并形成了對(duì)語(yǔ)言文本特殊情況的潛在分析,那么從句法和語(yǔ)義注解語(yǔ)篇學(xué)習(xí)中總結(jié)復(fù)雜規(guī)則是可能的。每種人類(lèi)語(yǔ)言的語(yǔ)法都包括一小部分高度復(fù)雜的規(guī)則和一大部分相對(duì)簡(jiǎn)單的現(xiàn)象。這一小部分高度復(fù)雜的現(xiàn)象要比那部分相對(duì)簡(jiǎn)單的現(xiàn)象出現(xiàn)的多。這種傾斜的分布體現(xiàn)了的學(xué)習(xí)語(yǔ)言規(guī)則的價(jià)值和重要性。至今為止,我們還沒(méi)有自動(dòng)的機(jī)器學(xué)習(xí)方法,正確的產(chǎn)出復(fù)雜的語(yǔ)言現(xiàn)象。這樣就提出疑問(wèn),如果沒(méi)有人類(lèi)語(yǔ)言學(xué)習(xí)者開(kāi)發(fā)的句法———語(yǔ)義正確方法的指導(dǎo),這些機(jī)器學(xué)習(xí)規(guī)則是否能夠被運(yùn)用?另一方面,詞典和簡(jiǎn)單篩選匹配的限定能夠容易地理解,很大程度上是因?yàn)槠鋸?fù)雜性在于詞匯本身類(lèi)別的結(jié)構(gòu),而不是詞語(yǔ)類(lèi)別之間的簡(jiǎn)單劃分。理解語(yǔ)言規(guī)則,設(shè)計(jì)這種混合機(jī)器翻譯系統(tǒng)的平臺(tái)顯得尤為重要。

(二)語(yǔ)料庫(kù)資源建設(shè)與語(yǔ)言信息處理技術(shù)

的提高為翻譯平臺(tái)建設(shè)中混合系統(tǒng)研究提供了資源與技術(shù)保證語(yǔ)言信息處理技術(shù)是新一代知識(shí)工程處理的核心支撐技術(shù),[9]更是機(jī)器翻譯中重要的技術(shù)保證。近年來(lái),在自然語(yǔ)言處理技術(shù)等方面的研究中,語(yǔ)料庫(kù)資源的巨大價(jià)值已經(jīng)受到越來(lái)越多學(xué)者的關(guān)注和認(rèn)可,特別是包含兩種語(yǔ)言互譯文本的語(yǔ)料庫(kù),如雙語(yǔ)語(yǔ)料庫(kù)已經(jīng)成為機(jī)器翻譯、翻譯知識(shí)獲取、數(shù)據(jù)挖掘以及雙語(yǔ)詞典編纂研究不可或缺的重要資源。關(guān)于國(guó)內(nèi)漢外雙語(yǔ)語(yǔ)料庫(kù)的建設(shè)以及對(duì)齊加工和標(biāo)注多級(jí)自動(dòng)對(duì)齊技術(shù)以及雙語(yǔ)平行語(yǔ)料庫(kù)在機(jī)器翻譯和翻譯知識(shí)獲取等方面的應(yīng)用技術(shù)目前已經(jīng)取得了很大進(jìn)展。機(jī)器翻譯新技術(shù)的發(fā)展得益于雙語(yǔ)語(yǔ)料庫(kù)的出現(xiàn),有效改善了翻譯質(zhì)量。同時(shí),雙語(yǔ)語(yǔ)料庫(kù)又是汲取翻譯知識(shí)的重要源泉,如翻譯詞典和翻譯模板等,從而進(jìn)一步改進(jìn)傳統(tǒng)的機(jī)器翻譯技術(shù)。

(三)混合機(jī)器翻譯系統(tǒng)是翻譯平臺(tái)建設(shè)的核心動(dòng)力

目前翻譯平臺(tái)有很多,如網(wǎng)絡(luò)翻譯譯言網(wǎng)、谷歌翻譯等。但是翻譯平臺(tái)建設(shè)的核心動(dòng)力在于機(jī)器翻譯系統(tǒng)。機(jī)譯系統(tǒng)可劃分為基于規(guī)則(Rule-Based)和基于語(yǔ)料庫(kù)(Corpus-Based)兩大類(lèi)。前者由詞典和規(guī)則庫(kù)構(gòu)成知識(shí)源;后者由經(jīng)過(guò)劃分并具有標(biāo)注的語(yǔ)料庫(kù)構(gòu)成知識(shí)源,既不需要詞典也不需要規(guī)則,以統(tǒng)計(jì)規(guī)律為主。機(jī)器翻譯的研究是建立在語(yǔ)言學(xué)、數(shù)學(xué)和計(jì)算機(jī)科學(xué)這三門(mén)學(xué)科的基礎(chǔ)之上的。語(yǔ)言學(xué)家提供適合于計(jì)算機(jī)進(jìn)行加工的詞典和語(yǔ)法規(guī)則,數(shù)學(xué)家把語(yǔ)言學(xué)家提供的材料形式化和代碼化,計(jì)算機(jī)科學(xué)家給機(jī)器翻譯提供軟件手段和硬件設(shè)備,并進(jìn)行程序設(shè)計(jì)。缺少上述任何一方面,機(jī)器翻譯就不能實(shí)現(xiàn),機(jī)器翻譯效果的好壞,也取決于這三個(gè)方面,而且直接關(guān)系到翻譯平臺(tái)的建設(shè)。計(jì)算語(yǔ)言學(xué)提供了一個(gè)新的視角,研究將計(jì)算語(yǔ)言學(xué)技術(shù)、語(yǔ)言學(xué)規(guī)則與大型語(yǔ)料庫(kù)有效結(jié)合,構(gòu)成一個(gè)語(yǔ)言處理的混合系統(tǒng)。利用計(jì)算機(jī)技術(shù)實(shí)現(xiàn)雙語(yǔ)對(duì)齊,結(jié)合語(yǔ)言學(xué)規(guī)則及專業(yè)術(shù)語(yǔ)語(yǔ)料庫(kù),將計(jì)算機(jī)技術(shù)、語(yǔ)言規(guī)則與語(yǔ)料庫(kù)結(jié)合構(gòu)成全新的語(yǔ)言翻譯的標(biāo)準(zhǔn)庫(kù),形成相對(duì)完善的語(yǔ)言資源庫(kù),進(jìn)一步促進(jìn)翻譯平臺(tái)的建設(shè)和完備。計(jì)算語(yǔ)言學(xué)視角下的翻譯平臺(tái)建設(shè)可以應(yīng)用于語(yǔ)言服務(wù)產(chǎn)業(yè),不僅能夠快速有效地提高翻譯的效率及準(zhǔn)確率,而且有利于綜合性語(yǔ)資源庫(kù)的建設(shè),如大型語(yǔ)料庫(kù)建設(shè)等,以適應(yīng)國(guó)際間多層次全方位的交流及信息化時(shí)代語(yǔ)言服務(wù)的要求。

結(jié)語(yǔ)

計(jì)算語(yǔ)言學(xué)與語(yǔ)言學(xué)的發(fā)展及其相關(guān)理論研究為翻譯平臺(tái)建設(shè)提供了技術(shù)支持與理論保障。翻譯平臺(tái)建設(shè)的核心動(dòng)力是混合機(jī)器翻譯系統(tǒng)的設(shè)計(jì)。語(yǔ)言規(guī)則為翻譯平臺(tái)建設(shè)中的混合系統(tǒng)設(shè)計(jì)提供了前提條件。語(yǔ)料庫(kù)資源建設(shè)與語(yǔ)言信息處理技術(shù)的提高是混合系統(tǒng)研究的重要資源與技術(shù)保證。計(jì)算語(yǔ)言學(xué)與語(yǔ)言學(xué)之間的相互促進(jìn)對(duì)翻譯平臺(tái)的建設(shè)發(fā)揮著重要作用。目前雖然計(jì)算語(yǔ)言學(xué)在一些語(yǔ)言學(xué)研究領(lǐng)域取得了不錯(cuò)的進(jìn)展,但隨著互聯(lián)網(wǎng)的廣泛普及,語(yǔ)言信息處理需求越來(lái)越大,人們迫切需要用自動(dòng)化的手段處理語(yǔ)言信息,仍需要語(yǔ)言工作者的深入研究。因此,未來(lái)的研究中應(yīng)重視理論語(yǔ)言學(xué)與計(jì)算語(yǔ)言學(xué)的影響作用,進(jìn)一步探索計(jì)算語(yǔ)言學(xué)在語(yǔ)言研究、語(yǔ)言信息處理等領(lǐng)域的重要應(yīng)用。(本文作者:張曉艷、宋鐵花 單位:太原理工大學(xué)外國(guó)語(yǔ)學(xué)院、山西農(nóng)業(yè)大學(xué)文理學(xué)院)