公務員期刊網(wǎng) 論文中心 正文

石油專業(yè)多語種翻譯知識庫研發(fā)

前言:想要寫出一篇引人入勝的文章?我們特意為您整理了石油專業(yè)多語種翻譯知識庫研發(fā)范文,希望能給你帶來靈感和參考,敬請閱讀。

石油專業(yè)多語種翻譯知識庫研發(fā)

摘要:近年來,新疆油田公司對外交流和國際合作越發(fā)頻繁,對外合作項目也日益增多,隨之而來的外文翻譯工作呈明顯上升趨勢。由于翻譯周期短,翻譯任務多,許多材料都交給翻譯公司承擔。但是這些資料的專業(yè)性極強,有的翻譯公司譯文不夠?qū)I(yè),質(zhì)量無法保障,且翻譯費用較高,這給對外合作項目帶來不便。同時,石油科研技術(shù)人員也迫切希望有一個自己的翻譯知識庫平臺,以便輔助閱讀相關(guān)外文資料,提升技術(shù)攻關(guān)效率。通過實際需求調(diào)研并結(jié)合自身的科研實力,新疆油田公司勘探開發(fā)研究院決定研發(fā)一套屬于自己的輔助翻譯知識庫平臺。以此來協(xié)助海外項目研究,提升專業(yè)人員工作效率、節(jié)約開支、鍛煉隊伍、培養(yǎng)語言人才。

關(guān)鍵詞:信息系統(tǒng)應用;翻譯平臺;輔助翻譯

一、前言

目前,市面上石油領(lǐng)域的專業(yè)翻譯軟件較少,俄語翻譯軟件更是如此,這給專業(yè)人員帶來了不便。在實際工作中,專業(yè)技術(shù)人員多使用各自不同的翻譯軟件,相同的術(shù)語往往會有不同的翻譯結(jié)果,這導致譯文專業(yè)性不強。一些專業(yè)技術(shù)人員經(jīng)過一段時間的積累,收集整理出成百甚至上千條專業(yè)詞匯,但沒有一個好的途徑共享給大家進行學習。此外,多年的海外工作過程中,勘探開發(fā)研究院積累了許多專業(yè)性極強的雙語報告,這些資料對年輕翻譯人員來說非常難得且極具參考價值,但是由于保密工作需要無法進行大面積傳閱,造成了資源浪費。通過調(diào)查發(fā)現(xiàn),中石油內(nèi)部沒有統(tǒng)一的石油專業(yè)術(shù)語庫,要解決上述專業(yè)資料翻譯過程中遇到的問題,就必須建立一套屬于自己的術(shù)語庫和石油專業(yè)多語種資料翻譯知識平臺,以此提高外語翻譯的質(zhì)量。

二、平臺設(shè)計

(一)總體框架設(shè)計

本平臺框架由三個應用層組成,最下面是數(shù)據(jù)層,中間是數(shù)據(jù)管理層,最上面是用戶使用的應用層(圖1)。最底層的數(shù)據(jù)層保存著平臺所有英、俄、漢術(shù)語、句子和雙語報告數(shù)據(jù)。數(shù)據(jù)管理層主要負責從底層數(shù)據(jù)層數(shù)據(jù)進行相應邏輯處理,然后給上面應用層提供數(shù)據(jù)和各種數(shù)據(jù)接口服務。應用層的職責是調(diào)用數(shù)據(jù)層的接口,讀取數(shù)據(jù)并展示給用戶。

(二)平臺功能建設(shè)

近年來,越來越多的ASP. NET開發(fā)人員開始接觸MVC 架,開始大都認為MVC與ASP. NET完全沒有關(guān)系,是一個全新 的Web開發(fā),而亊實上MVC是一種更高級架構(gòu)體系,原來的的ASP. NET稱為ASP. NET WebForms,新的MVC稱為ASP. NET MVC[1],項目組利用微軟的ASP.Net MVC框架作為開發(fā)框架、SQL Server和SQLite作為底層數(shù)據(jù)庫、前段UI大量使用BootStrap和各種JS框架來實現(xiàn)快速開發(fā),制定了詳細的平臺建設(shè)及實施方案,經(jīng)過一年多時間的研發(fā)完成了C/S和B/S版本,并在實際應用不斷完善,主要功能包括以下5個方面。

1.權(quán)限管理模塊功能

平臺B/S版本的權(quán)限模塊是基于角色訪問控制,只有內(nèi)部用戶才能使用B/S版本,利用這種方式保證了平臺數(shù)據(jù)安全。具體技術(shù)上使用了ASP.NET Identity來實現(xiàn)用戶登錄和權(quán)限模塊,它為平臺提供了一系列接口來管理和維護用戶和角色。ASP.NET Identity將用戶所有的數(shù)據(jù)存儲在數(shù)據(jù)庫中。ASP.NET Identity使用Entity Framework實現(xiàn)其所有的檢索和持久化機制。ASP.NET Identity支持基于聲明的身份驗證,它使用一組“聲明”來表示用戶的身份標識,相對于“角色”,“聲明”能使開發(fā)人員能夠更好地描述用戶的身份標識。

2.術(shù)語、句子查詢功能

在平臺的術(shù)語查詢界面上,用戶輸入關(guān)鍵字后,平臺會自動判斷用戶輸入的關(guān)鍵字語種并將相關(guān)搜索結(jié)果顯示在下面的展示欄目,同時進行相應的模糊查詢并找出詞組展示在詞組框里。

3.平臺內(nèi)部分享功能

翻譯人員在翻譯工作中發(fā)現(xiàn)一些術(shù)語的新譯法時,可以通過平臺中“我的詞匯”功能來實現(xiàn)平臺的內(nèi)部共享。其他人在查詢該術(shù)語時可以查看他人分享的內(nèi)容。

4.多個網(wǎng)絡詞典統(tǒng)一展示功能

用戶在查詢某個句子或單詞的翻譯時,系統(tǒng)首先在本地庫里搜索翻譯結(jié)果,同時也在其它幾個網(wǎng)絡詞典中搜索翻譯結(jié)果并把結(jié)果展示在搜索結(jié)果欄,供使用者參考。

5.知識庫功能

勘探開發(fā)研究院在多年的海外項目工作中產(chǎn)生了很多優(yōu)秀的雙語科研報告。項目組將這些報告按照數(shù)據(jù)庫規(guī)則導入到數(shù)據(jù)庫中。用戶使用平臺進行查詢時,系統(tǒng)會根據(jù)用戶給的關(guān)鍵字從數(shù)據(jù)庫中搜出相應的段落進行展示。這些優(yōu)秀的雙語科研報告對翻譯人員準確理解詞句提供了很大的幫助。

三、數(shù)據(jù)庫建設(shè)

作為一種數(shù)據(jù)驅(qū)動方法,當前的機器翻譯髙度依賴平行語料庫的規(guī)模、質(zhì)量和領(lǐng)域廣度[2]。在數(shù)據(jù)庫建設(shè)過程中,為了保證數(shù)據(jù)質(zhì)量,首先由項目組對石油專業(yè)英俄漢術(shù)語進行了收集、整理和分析,然后由石油專業(yè)翻譯專家結(jié)合自身經(jīng)驗對各種紙質(zhì)詞典、網(wǎng)絡術(shù)語、專業(yè)報告中的術(shù)語進行比對篩選,挑選出最精煉的術(shù)語。這些術(shù)語經(jīng)過專家審核后,再利用編程算法進行了二次整理,確認無誤后,正式上傳到英俄漢術(shù)語庫中。為了簡化審核工作,項目組單獨開發(fā)了數(shù)據(jù)審核模塊對所有錄入的數(shù)據(jù)在線進行審核(圖2)。此外,在軟件研發(fā)的同時,團隊還建立了一套完整的數(shù)據(jù)審批流程。科研人員在翻譯過程中發(fā)現(xiàn)新的雙語詞語或句子時,可以自行添加到術(shù)語庫和句子庫。經(jīng)過翻譯專家后臺審核通過后,該術(shù)語將自動加載到平臺術(shù)語庫中。這套流程將不斷擴充和豐富知識庫,保證知識庫數(shù)據(jù)的正?;?。研發(fā)人員和石油專業(yè)用戶共同協(xié)作,根據(jù)工作要求不斷完善平臺功能,這也是與其他翻譯平臺的不同之處。平臺數(shù)據(jù)主要分為三類:術(shù)語、句子和雙語報告,術(shù)語庫為最基礎(chǔ)庫。截止到2021年底,數(shù)據(jù)庫已收錄英漢石油專業(yè)術(shù)語15萬余條、俄漢石油專業(yè)術(shù)語10萬余條以及俄漢石油專業(yè)句子6.4萬余條,俄漢雙語報告3.7萬余字。

四、平臺建設(shè)的關(guān)鍵技術(shù)

(一) PRR全文搜索技術(shù)(PRR:Petroleum Research Report)

在平臺建設(shè)中,項目組沒有使用通用的全文搜索源碼,而是通過自主編寫代碼實現(xiàn)了歷史報告的全文搜索功能。在此過程中,為了保證數(shù)據(jù)安全,將整篇雙語報告按段落拆分,并進行加密入庫,數(shù)據(jù)庫端使用SQlite保證了數(shù)據(jù)的查詢速度。SQLite數(shù)據(jù)庫是一個開源的嵌人式關(guān)系數(shù)據(jù)庫,它在2000年由D.Richard Hipp發(fā)布,作為嵌人式數(shù)據(jù)庫,SQlite數(shù)據(jù)庫可以很好地解決大型數(shù)據(jù)庫占用大量資源的問題,它可以有效減少應用程序管理數(shù)據(jù)的開銷,具有移植性好、容易使用、體積小、高效而且可靠等多方面的優(yōu)點[3]。在進行涉密資料的安全處理時,首先把報告拆分,按段落進行錄入。這樣搜索關(guān)鍵字時只能拿到一段匹配到的記錄,而且也不知道報告的具體內(nèi)容。由于報告里的數(shù)字涉密最多,這些具體數(shù)字會被自動替換。同時設(shè)置一些涉密關(guān)鍵字,進行自動過濾。最后錄入之前請相關(guān)人員進行審核,檢查是否有涉密的內(nèi)容。通過這些方法最大程度地保證了數(shù)據(jù)的安全性。

(二)石油專業(yè)語義分析技術(shù)

在數(shù)據(jù)庫建設(shè)初期,數(shù)據(jù)庫收集了大量的英漢和俄漢術(shù)語,在翻譯平臺中用中文查詢外語時效果不太理想。為了解決這個問題,通過研發(fā)石油專業(yè)語義分析技術(shù),把所有英漢和俄漢詞典中的術(shù)語進行了優(yōu)化調(diào)整,創(chuàng)建了漢英和漢俄數(shù)據(jù)庫,實現(xiàn)了中文外文的雙向查詢,提高了漢俄、漢英查詢時搜索結(jié)果的準確性(圖3)。

(三)網(wǎng)絡爬蟲技術(shù)

網(wǎng)絡爬蟲(又被稱為網(wǎng)頁蜘蛛,網(wǎng)絡機器人)是一種按照一定的規(guī)則,自動抓取網(wǎng)頁信息的程序或腳本。通過研究網(wǎng)路爬蟲技術(shù),項目組掌握了HtmlAgilityPack和xpath解析html文檔技術(shù),編寫了雙語句子爬蟲算法,利用算法進行爬蟲抓取數(shù)據(jù),從網(wǎng)絡上成功獲取6萬多條雙語句子。這個技術(shù)還可以在后期數(shù)據(jù)庫的術(shù)語審核和校對中發(fā)揮更好的作用。

(四)在線翻譯系統(tǒng)的接口集成技術(shù)

在研究海外項目組工作人員的翻譯習慣時發(fā)現(xiàn)他們中很多人習慣使用一些在線詞典。大家常用的在線詞典包括有道、yandex、Google、Bing、百度等。通過研究WebService技術(shù),實現(xiàn)了三個常用在線詞典的接口集成。用戶在知識庫里檢索文字時,平臺首先在知識庫里搜索關(guān)鍵字并進行展示,同時把三個在線詞典的檢索結(jié)果展示在同一頁面。

五、平臺建設(shè)成果及先進性對比

(一)平臺建設(shè)取得的成果

通過一年多時間的開發(fā),平臺建設(shè)取得了3項主要成果:第一,建立了一套擁有獨立知識產(chǎn)權(quán)的石油專業(yè)翻譯服務平臺,實現(xiàn)了英、俄、漢專業(yè)詞匯的在線互查,申報軟件著作權(quán)2項:《石油專業(yè)多語種翻譯知識庫查詢系統(tǒng)》《漢、英、俄石油專業(yè)術(shù)語詞典系統(tǒng)》。第二,建立了中石油首個石油專業(yè)領(lǐng)域的英、俄、漢術(shù)語庫。第三,首次實現(xiàn)石油行業(yè)內(nèi)高質(zhì)量雙語專業(yè)科研報告全文搜索服務。翻譯人員在工作中發(fā)現(xiàn)一些術(shù)語的新譯法時,可以在平臺內(nèi)部進行收錄,實現(xiàn)平臺的內(nèi)部共享。這樣用戶在翻譯相同的術(shù)語時,能夠查看別人共享的內(nèi)容,節(jié)約翻譯時間。經(jīng)過所有用戶長時間的分享積累,術(shù)語庫將得到不斷的擴充。

(二)成果先進性對比

在對外交流的過程中,中石油旗下的很多部門都對翻譯工具進行過研究。1995年新疆石油管理局召集相關(guān)領(lǐng)域?qū)<液头g小組出版了漢、英、俄、維石油技術(shù)詞典,這本詞典的參考價值很高,至今仍是俄語翻譯人員的主要參考工具。2016年石油出版社也根據(jù)自己的需求推出了石油知識翻譯的網(wǎng)頁版本,提供在線術(shù)語翻譯。這些翻譯工具功能都相對單一,項目組研發(fā)的石油專業(yè)多語種翻譯知識庫平臺PC版本則是一個功能比較完善、可擴展性較強的應用平臺。主要表現(xiàn)在以下3個方面。

1.首個石油專業(yè)領(lǐng)域知識庫平臺

目前在常見的翻譯軟件中(見表1),石油專業(yè)領(lǐng)域知識庫較少。我們將翻譯知識庫平臺的術(shù)語庫功能與國內(nèi)一個常用的線上詞典進行對比。用該詞典查詢石油專業(yè)術(shù)語時,一般只能得到通用的釋義,無法得到符合科研人員要求的專業(yè)釋義(圖4)。

2.數(shù)據(jù)庫有良好的可擴展性

只有不斷改進完善的平臺才是好平臺。用戶需求隨著實際工作要求不斷變化,石油專業(yè)多語種翻譯知識庫的很多靈活功能都是投入測試以后使用者提出來的,研發(fā)人員和石油專業(yè)用戶共同協(xié)作,根據(jù)工作要求不斷完善平臺功能,這也是此平臺與其他翻譯平臺的不同之處。今后,平臺會根據(jù)石油專業(yè)用戶的需求推出更多個性化的功能,并進行長期的維護和升級。

3.最大限度地利用了新疆油田獨一無二的歷史雙語報告資源

新疆油田公司勘探開發(fā)研究院有許多多年從事石油專業(yè)翻譯的專家,因此產(chǎn)生了許多寶貴的雙語科研報告。該平臺的最大亮點還包括科研報告的再利用。因為科研報告的翻譯和常規(guī)報告有很大不同,所以根據(jù)新疆油田公司海外技術(shù)服務習慣翻譯的內(nèi)容可以給使用者提供最正確最直接的答案,這也是該平臺獨一無二的功能(圖5)。

六、推廣應用

平臺開發(fā)完成后,桌面版本已經(jīng)交由新疆油田公司勘探開發(fā)研究院中亞研究所和中國石油大學(北京)克拉瑪依校區(qū)試用。經(jīng)過近一年的推廣實踐,翻譯平臺對相關(guān)人員的工作有起到了很大幫助,提高了研究人員對外文資料的理解速度和質(zhì)量,同時對外文翻譯人員提高翻譯準確率和效率起到了較大輔助作用。中亞研究所和中國石油大學(北京)克拉瑪依校區(qū)提供了專門的應用評估反饋。目前市面上的翻譯軟件基本都是通用的翻譯軟件,石油行業(yè)的專業(yè)性不夠??碧介_發(fā)研究院研發(fā)的多語種資料翻譯知識庫有非常好的俄漢、英漢基礎(chǔ)術(shù)語庫和句子庫。行業(yè)內(nèi)專業(yè)技術(shù)人員會在實際工作中不斷使用該平臺,平臺的專業(yè)維護團隊也將根據(jù)用戶需求不斷地對數(shù)據(jù)庫進行維護和補充,這樣將大幅度提高軟件的穩(wěn)定性和用戶粘度。這就是一個商業(yè)軟件必須具備的條件。圖5知識庫翻譯結(jié)果展示圖而且,平臺的基礎(chǔ)框架是自主研發(fā),底層部分的自主研發(fā)具有非常好的可移植性,平臺的技術(shù)條件可以很好地適應安卓和蘋果版本,并發(fā)布到各手機應用商城,所以完全可以像商業(yè)化軟件一樣移植到安卓和蘋果移動手機上,具有一定的商業(yè)化價值和市場潛力。

七、結(jié)語

通過整合現(xiàn)有的外語翻譯人員及科研力量,新疆油田公司勘探開發(fā)研究院建立了石油專業(yè)多語種資料翻譯知識庫,提高了外語翻譯的質(zhì)量和時效性,對新疆油田的對外合作事業(yè)具有重大的現(xiàn)實意義。該平臺對海外工作人員來說是一個全新的應用平臺,它區(qū)別于通用的翻譯詞典或軟件,既能滿足專業(yè)研究人員的需要,又能提高專業(yè)翻譯的速度和效率。在鍛煉隊伍、培養(yǎng)語言人才和輸送人才上起到積極的作用,同時對新疆油田的對外合作事業(yè)的發(fā)展具有重大的現(xiàn)實意義。

參考文獻

[1]黃玉春.MVC框架在ASP.NET中的應用研究與實踐[J].商丘師范學院學報,2021(3):15-17.

[2]宋仕振.試論機器翻譯與人工翻譯的未來關(guān)系[J].未來與發(fā)展,2019(2):25-30.

[3]張小鳳.基于Python的SQLite數(shù)據(jù)庫存儲裝備維修技術(shù),2020(5):16-17.

作者:曹藝鐘 熊維莉 曹菁 庫爾班江·托乎提 單位:新疆油田公司勘探開發(fā)研究院