前言:想要寫出一篇引人入勝的文章?我們特意為您整理了融合多語言交互下的在線翻譯輔助系統(tǒng)范文,希望能給你帶來靈感和參考,敬請閱讀。
摘要:隨著機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,目前翻譯行業(yè)也逐漸引入該技術(shù)用來提升翻譯效果。文章以實(shí)現(xiàn)在線學(xué)習(xí)為目標(biāo),為了學(xué)習(xí)人員能夠在不斷糾正過程中進(jìn)行學(xué)習(xí),設(shè)計了一套端到端平臺,該平臺將機(jī)器翻譯服務(wù)器集成到專業(yè)翻譯人員最常用的用戶界面中,實(shí)現(xiàn)在機(jī)器不斷從人的選擇中學(xué)習(xí)并根據(jù)特定領(lǐng)域或用戶風(fēng)格調(diào)整模型的同時,節(jié)省學(xué)習(xí)人員后期的編輯工作,提升了在線翻譯過程中的輔助效果。
關(guān)鍵詞:機(jī)器學(xué)習(xí);翻譯行業(yè);端到端平臺;翻譯模型
引言
在翻譯行業(yè)中,翻譯的效果至關(guān)重要,直接關(guān)系著業(yè)務(wù)人員的工作效率。如今,翻譯行業(yè)的高效性需求必須滿足快速的商業(yè)需求,為此,需要在較短的時間內(nèi)為用戶提供準(zhǔn)備高質(zhì)量的翻譯結(jié)果。隨著機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,文獻(xiàn)[1]中提出使用支持向量機(jī)(一種監(jiān)督學(xué)習(xí)模型)獲得了安德森雜質(zhì)模型的格林函數(shù),用來實(shí)現(xiàn)自學(xué)習(xí)提升。機(jī)器學(xué)習(xí)技術(shù)的快速發(fā)展,為翻譯行業(yè)提供了可高效、快捷翻譯結(jié)果的途徑,即“人性化”翻譯,稱為后期編輯(PE),該模式目前在翻譯行業(yè)中被證明是有效的[2],被稱為是機(jī)器翻譯(MachineTranslation,MT),隨著MT功能的不斷完善,此工作流程已成為翻譯行業(yè)的重要內(nèi)容。PE過程本身就在不斷生成新的雙語數(shù)據(jù),此數(shù)據(jù)通常用于創(chuàng)建特定于域的語料庫,可用于將系統(tǒng)從更廣泛的域改編為特定的域客戶端或樣式。在線學(xué)習(xí)(OnlineLearning,OL)范式指在PE過程中執(zhí)行這種調(diào)整[3]:每次用戶驗(yàn)證后期編輯的翻譯時,系統(tǒng)都會在考慮到此數(shù)據(jù)的情況下進(jìn)行更新。因此,當(dāng)產(chǎn)生下一個翻譯時,系統(tǒng)將考慮先前的版本,從而將產(chǎn)生更好的翻譯(或更切近于人類語言用于規(guī)范)。OL范式已迅速引起研究人員和行業(yè)的關(guān)注,基于短語的統(tǒng)計MT系統(tǒng)從用戶后期編輯中逐步改編而成,最近,OL技術(shù)也被應(yīng)用于神經(jīng)機(jī)器翻譯(NMT)系統(tǒng)[4],本文介紹了內(nèi)部OL框架的演示系統(tǒng),在該系統(tǒng)中,將翻譯服務(wù)器與翻譯程序的用戶友好界面SDLTradosStudio集成在一起,從而提升了多語言交互翻譯過程中的效率。
1系統(tǒng)設(shè)計
從用戶在PE流程中生成的后期編輯中提升翻譯效果,為此,通過即時更新系統(tǒng),即,一旦者確認(rèn)了句子,便會立即進(jìn)行更新,在用戶確認(rèn)編輯之后,立即使用源語句和后編輯作為培訓(xùn)來更新NMT(NeuralMachineTranslation)系統(tǒng)的模型。這種適應(yīng)可以在梯度下降之后進(jìn)行,梯度下降是神經(jīng)網(wǎng)絡(luò)的常規(guī)訓(xùn)練方法。本文設(shè)計的OL框架體系結(jié)構(gòu)由三個主要模塊組成:MT引擎、用戶界面和鏈接兩者的翻譯服務(wù)器。此外,還添加了一個日志記錄選項(xiàng),以使用戶能夠跟蹤擊鍵、時間和鼠標(biāo)移動等信息,該系統(tǒng)的體系架構(gòu),如圖1所示。翻譯過程包括將機(jī)器翻譯傳遞到用戶界面,培訓(xùn)過程使用用戶提供的反饋對MT引擎進(jìn)行再培訓(xùn)。這兩個過程都是通過客戶端-服務(wù)器通信執(zhí)行的,接下來,詳細(xì)描述各個模塊的具體功能。(1)機(jī)器翻譯引擎MT引擎的核心由生成翻譯的模型組成,可以在需要時進(jìn)行重新訓(xùn)練。每個翻譯項(xiàng)目都有其自己的模型,其模型是根據(jù)項(xiàng)目的需要設(shè)置的,所有模型都是基于神經(jīng)網(wǎng)絡(luò)的,并使用OpenNMT-py進(jìn)行了訓(xùn)練[5]。每個MT模型都有其自己的配置文件,其中包含個性化的翻譯和OL選項(xiàng),例如標(biāo)記化、子詞分段和學(xué)習(xí)率等。(2)翻譯服務(wù)器翻譯服務(wù)器與MT模型進(jìn)行通信,以生成翻譯并根據(jù)用戶的版本來修改系統(tǒng)。該服務(wù)器基于OpenNMT-py的REST服務(wù)器,并使用HTTP協(xié)議定義消息以服務(wù)于用戶的請求。翻譯服務(wù)器的代碼已公開且可用,在OpenNMT-py中創(chuàng)建了一個分支,該分支具有此服務(wù)器并與其所有不同模型兼容。用戶界面和MT引擎之間的通信是通過GET和POST請求執(zhí)行的。服務(wù)器等待翻譯請求,收到請求后,這些請求將以JSON格式發(fā)送到機(jī)器翻譯引擎,當(dāng)用戶對機(jī)器翻譯片段進(jìn)行更正時,將更正發(fā)送到翻譯引擎。(3)用戶界面在翻譯行業(yè)中,翻譯人員最常用的用戶界面是SDLTradosStudio。系統(tǒng)用戶界面,如圖2所示。用戶在如下情況自動獲得機(jī)器翻譯輸出:單擊界面中線段的目標(biāo)部分,然后,用戶對片段進(jìn)行后期編輯,并在糾正翻譯后對其進(jìn)行確認(rèn)。SDL允許開發(fā)TradosStudio插件來增強(qiáng)和擴(kuò)展該工具。此外,SDL擁有龐大的開發(fā)人員社區(qū)[5],可通過附加軟件和應(yīng)用程序來更快的學(xué)習(xí)該框架。本文將自適應(yīng)框架整合為TradosStudio插件,該插件將用戶界面、TradosStudio與翻譯服務(wù)器互聯(lián)。當(dāng)用戶確認(rèn)后期編輯時,已審核的細(xì)分將發(fā)送回MT引擎,以使用此新信息進(jìn)行重新訓(xùn)練。(4)日志記錄為了衡量PE過程中OL的翻譯效率和有效性,系統(tǒng)集成了工具來記錄在后期編輯給定文件中涉及的時間、擊鍵和鼠標(biāo)移動等動作。為此,Trados合并了Qualitivity[6]插件。該插件生成一個XML日志文件,其中包含每個段的所有按鍵時間信息,如圖3所示。利用這些日志信息,可以衡量將MT與OL一起用于后期編輯文件所需的工作量。使用專業(yè)翻譯人員在模擬和真實(shí)環(huán)境中進(jìn)行的初步實(shí)驗(yàn)[6]報告稱,MT系統(tǒng)生成的翻譯質(zhì)量有了顯著提高。
2實(shí)驗(yàn)分析
本章節(jié)分析了在用戶試用中獲得的結(jié)果,如表1所示。表1顯示了與使用參考樣本進(jìn)行更新的非NMT系統(tǒng)相比,NMT系統(tǒng)的翻譯質(zhì)量的結(jié)果[7-9]。通過這種綜合設(shè)置獲得的結(jié)果支持通過在線學(xué)習(xí)進(jìn)行智能化翻譯的有用性。在所有情況下,NMT系統(tǒng)都比非NMT系統(tǒng)獲得更好的TER和BLEU(機(jī)器翻譯的評價指標(biāo))。我們從TER的角度獲得的結(jié)果表明后期編輯這些樣本所需的人力更少。接下來進(jìn)行人工后期編輯實(shí)驗(yàn),三名專業(yè)翻譯參與了實(shí)驗(yàn)。對于NMT系統(tǒng)測試,所有后期編輯人員都使用相同的系統(tǒng)啟動任務(wù),該系統(tǒng)使用每個人自己的后期編輯工具進(jìn)行調(diào)整。因此,在在線學(xué)習(xí)過程結(jié)束時,每個后期編輯都獲得了相關(guān)的翻譯服務(wù)。對于靜態(tài)實(shí)驗(yàn),最初的NMT系統(tǒng)在整個過程中均保持不變,為了避免多次翻譯相同文本的影響,每個參與者在每種情況下后編輯了一個不同的測試集,如表2所示。該實(shí)驗(yàn)的測試結(jié)果如表3所示。這些數(shù)字是不同后期編輯所獲得結(jié)果的平均值,對于集合T1,每個句子的后期編輯時間的大幅減少尤其重要(每個句子平均7.5秒)。在測試集T2中,NMT系統(tǒng)的后期編輯時間也比非NMT系統(tǒng)的稍短一些,為0.7秒。
3總結(jié)
本文介紹了一個在線翻譯框架,該框架結(jié)合了通過在線學(xué)習(xí)對系統(tǒng)進(jìn)行即時調(diào)整的功能。這種模式允許翻譯人員/后期編輯人員產(chǎn)生更多具有人類品質(zhì)的文本,即提升翻譯效率,因?yàn)橄到y(tǒng)不斷從用戶的后期編輯中學(xué)習(xí),從而避免了重復(fù)錯誤。本文已將MT服務(wù)器集成到SDLTradosStudio用戶界面中,實(shí)驗(yàn)結(jié)果證明該系統(tǒng)在翻譯過程中有較高的效率。
參考文獻(xiàn)
[7]林寒.基于多語言交互的英語翻譯在線輔助系統(tǒng)設(shè)計[J].現(xiàn)代電子技術(shù),2019,42(6):22-25.
[8]夏吾吉,華卻才讓.基于有限狀態(tài)自動機(jī)阿拉伯?dāng)?shù)字與藏文數(shù)詞自動翻譯[J].計算機(jī)工程與科學(xué),2018,40(3):550-554.
[9]余倩.基于特征提取算法的交互式英漢翻譯系統(tǒng)設(shè)計[J].現(xiàn)代電子技術(shù),2018,41(4):161-163.
作者:胡曉榕 單位:咸陽師范學(xué)院