公務(wù)員期刊網(wǎng) 精選范文 卷積神經(jīng)網(wǎng)絡(luò)情感分析范文

卷積神經(jīng)網(wǎng)絡(luò)情感分析精選(九篇)

前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的卷積神經(jīng)網(wǎng)絡(luò)情感分析主題范文,僅供參考,歡迎閱讀并收藏。

卷積神經(jīng)網(wǎng)絡(luò)情感分析

第1篇:卷積神經(jīng)網(wǎng)絡(luò)情感分析范文

關(guān)鍵詞:人機(jī)大戰(zhàn);人工智能;發(fā)展前景

中圖分類(lèi)號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A

0.引言

2016年3月15日,備受矚目的“人機(jī)大戰(zhàn)”終于落下帷幕,最終Google公司開(kāi)發(fā)的“AlphaGo”以4∶1戰(zhàn)勝了韓國(guó)九段棋手李世h。毫無(wú)疑問(wèn),這是人工智能歷史上一個(gè)具有里程碑式的大事件。大家一致認(rèn)為,人工智能已經(jīng)上升到了一個(gè)新的高度。

這次勝利與1997年IBM公司的“深藍(lán)”戰(zhàn)勝?lài)?guó)際象棋世界冠軍卡斯帕羅不同。主要表現(xiàn)在兩個(gè)方面:

(1)AlphaGo的勝利并非僅僅依賴(lài)強(qiáng)悍的計(jì)算能力和龐大的棋譜數(shù)據(jù)庫(kù)取勝,而是AlphaGo已經(jīng)擁有了深度學(xué)習(xí)的能力,能夠?qū)W習(xí)已經(jīng)對(duì)弈過(guò)的棋盤(pán),并在練習(xí)和實(shí)戰(zhàn)中不斷學(xué)習(xí)和積累經(jīng)驗(yàn)。

(2)圍棋比國(guó)際象棋更加復(fù)雜,圍棋棋盤(pán)有361個(gè)點(diǎn),其分支因子無(wú)窮無(wú)盡,19×19格圍棋的合法棋局?jǐn)?shù)的所有可能性是冪為171的指數(shù),這樣的計(jì)算量相當(dāng)巨大。英國(guó)圍棋聯(lián)盟裁判托比表示:“圍棋是世界上最為復(fù)雜的智力游戲,它簡(jiǎn)單的規(guī)則加深了棋局的復(fù)雜性”。因此,進(jìn)入圍棋領(lǐng)域一直被認(rèn)為是目前人工智能的最大挑戰(zhàn)。

簡(jiǎn)而言之,AlphaGo取得勝利的一個(gè)很重要的方面就是它擁有強(qiáng)大的“學(xué)習(xí)”能力。深度學(xué)習(xí)是源于人工神經(jīng)網(wǎng)絡(luò)的研究,得益于大數(shù)據(jù)和互聯(lián)網(wǎng)技術(shù)。本文就從人工智能的發(fā)展歷程與現(xiàn)狀入手,在此基礎(chǔ)上分析了人工智能的未來(lái)發(fā)展前景。

1.人工智能的發(fā)展歷程

AlphaGo的勝利表明,人工智能發(fā)展到今天,已經(jīng)取得了很多卓越的成果。但是,其發(fā)展不是一帆風(fēng)順的,人工智能是一個(gè)不斷進(jìn)步,并且至今仍在取得不斷突破的學(xué)科?;仡櫲斯ぶ悄艿陌l(fā)展歷程,可大致分為孕育、形成、暗淡、知識(shí)應(yīng)用和集成發(fā)展五大時(shí)期。

孕育期:1956年以前,數(shù)學(xué)、邏輯、計(jì)算機(jī)等理論和技術(shù)方面的研究為人工智能的出現(xiàn)奠定了基礎(chǔ)。德國(guó)數(shù)學(xué)家和哲學(xué)家萊布尼茨把形式邏輯符號(hào)化,奠定了數(shù)理邏輯的基礎(chǔ)。英國(guó)數(shù)學(xué)家圖靈在1936年創(chuàng)立了自動(dòng)機(jī)理論(亦稱(chēng)圖靈機(jī)),1950年在其著作《計(jì)算機(jī)與智能》中首次提出“機(jī)器也能思維”,被譽(yù)為“人工智能之父”??傊?,這些人為人工智能的孕育和產(chǎn)生做出了巨大的貢獻(xiàn)。

形成期:1956年夏季,在美國(guó)達(dá)特茅斯大學(xué)舉辦了長(zhǎng)達(dá)2個(gè)多月的研討會(huì),熱烈地討論用機(jī)器模擬人類(lèi)智能的問(wèn)題。該次會(huì)議首次使用了“人工智能”這一術(shù)語(yǔ)。這是人類(lèi)歷史上第一次人工智能研討會(huì),標(biāo)志著人工智能學(xué)科的誕生。其后的十幾年是人工智能的黃金時(shí)期。在接下來(lái)的幾年中,在眾多科學(xué)家的努力下,人工智能取得了矚目的突破,也在當(dāng)時(shí)形成了廣泛的樂(lè)觀思潮。

暗淡期:20世紀(jì)70年代初,即使最杰出的AI程序也只能解決問(wèn)題中最簡(jiǎn)單的部分,發(fā)展遇到瓶頸也就是說(shuō)所有的AI程序都只是“玩具”,無(wú)法解決更為復(fù)雜的問(wèn)題。隨著AI遭遇批評(píng),對(duì)AI提供資助的機(jī)構(gòu)也逐漸停止了部分AI的資助。資金上的困難使得AI的研究方向縮窄,缺少了以往的自由探索。

知識(shí)應(yīng)用期:在80年代,“專(zhuān)家系統(tǒng)”(Expect System)成為了人工智能中一個(gè)非常主流的分支?!皩?zhuān)家系統(tǒng)”是一種程序,為計(jì)算機(jī)提供特定領(lǐng)域的專(zhuān)門(mén)知識(shí)和經(jīng)驗(yàn),計(jì)算機(jī)就能夠依據(jù)一組從專(zhuān)門(mén)知識(shí)中推演出的邏輯規(guī)則在某一特定領(lǐng)域回答或解決問(wèn)題。不同領(lǐng)域的專(zhuān)家系統(tǒng)基本都是由知識(shí)庫(kù)、數(shù)據(jù)庫(kù)、推理機(jī)、解釋機(jī)制、知識(shí)獲取等部分組成。

集成發(fā)展期:得益于互聯(lián)網(wǎng)的蓬勃發(fā)展、計(jì)算機(jī)性能的突飛猛進(jìn)、分布式系統(tǒng)的廣泛應(yīng)用以及人工智能多分支的協(xié)同發(fā)展,人工智能在這一階段飛速發(fā)展。尤其是隨著深度學(xué)習(xí)和人工神經(jīng)網(wǎng)絡(luò)研究的不斷深入,人工智能在近幾十年中取得了長(zhǎng)足的進(jìn)步,取得了令人矚目的成就。

人工智能發(fā)展到今天,出現(xiàn)了很多令人矚目的研究成果。AlphaGo的勝利就是基于這些研究成果的一個(gè)里程碑。當(dāng)前人工智能的研究熱點(diǎn)主要集中在自然語(yǔ)言處理、機(jī)器學(xué)習(xí)、人工神經(jīng)網(wǎng)絡(luò)等領(lǐng)域。

2.人工智能l展現(xiàn)狀與前景

人工智能當(dāng)前有很多重要的研究領(lǐng)域和分支。目前,越來(lái)越多的AI項(xiàng)目依賴(lài)于分布式系統(tǒng),而當(dāng)前研究的普遍熱點(diǎn)則集中于自然語(yǔ)言處理、機(jī)器學(xué)習(xí)和人工神經(jīng)網(wǎng)絡(luò)等領(lǐng)域。

自然語(yǔ)言處理:自然語(yǔ)言處理(Natural Language Processing,簡(jiǎn)稱(chēng)NLP),是語(yǔ)言學(xué)與人工智能的交叉學(xué)科,其主要功能就是實(shí)現(xiàn)讓機(jī)器明白人類(lèi)的語(yǔ)言,這需要將人類(lèi)的自然語(yǔ)言轉(zhuǎn)化為計(jì)算機(jī)能夠處理的機(jī)器語(yǔ)言。

自然語(yǔ)言處理主要包括詞法分析、句法分析和語(yǔ)義分析三大部分。詞法分析的核心就是分詞處理,即單詞的邊界處理。句法分析就是對(duì)自然語(yǔ)言中句子的結(jié)構(gòu)、語(yǔ)法進(jìn)行分析如辨別疑問(wèn)句和感嘆句等。而語(yǔ)義分析則注重情感分析和整個(gè)段落的上下文分析,辨別一些字詞在不同的上下文定的語(yǔ)義和情感態(tài)度。

當(dāng)前自然語(yǔ)言的處理主要有兩大方向。一種是基于句法-語(yǔ)義規(guī)則的理性主義理論,該理論認(rèn)為需要為計(jì)算機(jī)制定一系列的規(guī)則,計(jì)算機(jī)在規(guī)則下進(jìn)行推理與判斷。因此其技術(shù)路線(xiàn)是一系列的人為的語(yǔ)料建設(shè)與規(guī)則制定。第二種是基于統(tǒng)計(jì)學(xué)習(xí)的經(jīng)驗(yàn)主義理論,這種理論在最近受到普遍推崇。該理論讓計(jì)算機(jī)自己通過(guò)學(xué)習(xí)并進(jìn)行統(tǒng)計(jì)推斷的方式不停地從數(shù)據(jù)中“學(xué)習(xí)”語(yǔ)言,試圖刻畫(huà)真實(shí)世界的語(yǔ)言現(xiàn)象,從數(shù)據(jù)中統(tǒng)計(jì)語(yǔ)言的規(guī)律。

機(jī)器學(xué)習(xí):機(jī)器學(xué)習(xí)(Machine Learning)是近20年來(lái)興起的人工智能一大重要領(lǐng)域。其主要是指通過(guò)讓計(jì)算機(jī)在數(shù)據(jù)中自動(dòng)分析獲得規(guī)律,從而獲取“自我學(xué)習(xí)”的能力,并利用規(guī)律對(duì)未知數(shù)據(jù)進(jìn)行判斷和預(yù)測(cè)的方法。

機(jī)器學(xué)致可以分為有監(jiān)督的學(xué)習(xí)和無(wú)監(jiān)督的學(xué)習(xí)。有監(jiān)督的學(xué)習(xí)是從給定的訓(xùn)練數(shù)據(jù)集中練出一個(gè)函數(shù)和目標(biāo),當(dāng)有新的數(shù)據(jù)到來(lái)時(shí),可以由訓(xùn)練得到函數(shù)預(yù)測(cè)目標(biāo)。有監(jiān)督的學(xué)習(xí)要求訓(xùn)練集同時(shí)有輸入和輸出,也就是所謂的特征和目標(biāo)。而依據(jù)預(yù)測(cè)的結(jié)果是離散的還是連續(xù)的,將有監(jiān)督的學(xué)習(xí)分為兩大問(wèn)題,即統(tǒng)計(jì)分類(lèi)問(wèn)題和回歸分析問(wèn)題。統(tǒng)計(jì)分類(lèi)的預(yù)測(cè)結(jié)果是離散的,如腫瘤是良性還是惡性等;而回歸分析問(wèn)題目標(biāo)是連續(xù)的,如天氣、股價(jià)等的預(yù)測(cè)。

無(wú)監(jiān)督學(xué)習(xí)的訓(xùn)練集則沒(méi)有人為標(biāo)注的結(jié)果,這就需要計(jì)算機(jī)去發(fā)現(xiàn)數(shù)據(jù)間的聯(lián)系并用來(lái)分類(lèi)等。一種常見(jiàn)的無(wú)監(jiān)督學(xué)習(xí)是聚類(lèi)分析(Cluster Analysis),它是將相似的對(duì)象通過(guò)靜態(tài)分類(lèi)的方法分成不同的組別或者是特定的子集,讓同一個(gè)子集中的數(shù)據(jù)對(duì)象都有一些相似的屬性,比較常用的聚類(lèi)方法是簡(jiǎn)潔并快速的“K-均值”聚類(lèi)算法。它基于K個(gè)中心并對(duì)距離這些中心最近的數(shù)據(jù)對(duì)象進(jìn)行分類(lèi)。

機(jī)器學(xué)習(xí)還包括如半監(jiān)督學(xué)習(xí)和增強(qiáng)學(xué)習(xí)等類(lèi)別??偠灾瑱C(jī)器學(xué)習(xí)是研究如何使用機(jī)器來(lái)模擬人類(lèi)學(xué)習(xí)活動(dòng)的一門(mén)學(xué)科,而其應(yīng)用隨著人工智能研究領(lǐng)域的深入也變得越來(lái)越廣泛,如模式識(shí)別、計(jì)算機(jī)視覺(jué)、語(yǔ)音識(shí)別、推薦算法等領(lǐng)域越來(lái)越廣泛地應(yīng)用到了機(jī)器學(xué)習(xí)中。

人工神經(jīng)網(wǎng)絡(luò):在腦神經(jīng)科學(xué)領(lǐng)域,人們認(rèn)為人類(lèi)的意識(shí)及智能行為,都是通過(guò)巨大的神經(jīng)網(wǎng)絡(luò)傳遞的,每個(gè)神經(jīng)細(xì)胞通過(guò)突出與其他神經(jīng)細(xì)胞連接,當(dāng)通過(guò)突觸的信號(hào)強(qiáng)度超過(guò)某個(gè)閾值時(shí),神經(jīng)細(xì)胞便會(huì)進(jìn)入激活狀態(tài),向所連接的神經(jīng)細(xì)胞一層層傳遞信號(hào)。于1943年提出的基于生物神經(jīng)元的M-P模型的主要思想就是將神經(jīng)元抽象為一個(gè)多輸入單輸出的信息處理單元,并通過(guò)傳遞函數(shù)f對(duì)輸入x1,x2…,xn進(jìn)行處理并模擬神經(jīng)細(xì)胞的激活模式。主要的傳遞函數(shù)有階躍型、線(xiàn)性型和S型。

在此基礎(chǔ)上,對(duì)神經(jīng)網(wǎng)絡(luò)算法的研究又有諸多進(jìn)展。日本的福島教授于1983年基于視覺(jué)認(rèn)知模型提出了卷積神經(jīng)網(wǎng)絡(luò)計(jì)算模型。通過(guò)學(xué)習(xí)訓(xùn)練獲取到卷積運(yùn)算中所使用的卷積系數(shù),并通過(guò)不同層次與自由度的變化,可以得到較為優(yōu)化的計(jì)算結(jié)果。而AlphaGo也正是采用了這種深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)模型,提高了AlphaGo的視覺(jué)分類(lèi)能力,也就是所謂的“棋感”,增強(qiáng)了其對(duì)全盤(pán)決策和把握的能力。

3.人工智能的發(fā)展前景

總體來(lái)看,人工智能的應(yīng)用經(jīng)歷了博弈、感知、決策和反饋這幾個(gè)里程碑。在以上4個(gè)領(lǐng)域中,既是縱向發(fā)展的過(guò)程,也是橫向不斷改進(jìn)的過(guò)程。

人工智能在博弈階段,主要是實(shí)現(xiàn)邏輯推理等功能,隨著計(jì)算機(jī)處理能力的進(jìn)步以及深度學(xué)習(xí)等算法的改進(jìn),機(jī)器擁有了越來(lái)越強(qiáng)的邏輯與對(duì)弈能力。在感知領(lǐng)域,隨著自然語(yǔ)言處理的進(jìn)步,機(jī)器已經(jīng)基本能對(duì)人類(lèi)的語(yǔ)音與語(yǔ)言進(jìn)行感知,并且能夠已經(jīng)對(duì)現(xiàn)實(shí)世界進(jìn)行視覺(jué)上的感知?;诖髷?shù)據(jù)的處理和機(jī)器學(xué)習(xí)的發(fā)展,機(jī)器已經(jīng)能夠?qū)χ車(chē)沫h(huán)境進(jìn)行認(rèn)知,例如微軟的Kinect就能夠準(zhǔn)確的對(duì)人的肢體動(dòng)作進(jìn)行判斷。該領(lǐng)域的主要實(shí)現(xiàn)還包括蘋(píng)果的Siri,谷歌大腦以及無(wú)人駕駛汽車(chē)中的各種傳感器等。在以上兩個(gè)階段的基礎(chǔ)上,機(jī)器擁有了一定的決策和反饋的能力。無(wú)人駕駛汽車(chē)的蓬勃發(fā)展就是這兩個(gè)里程碑很好的例證。Google的無(wú)人駕駛汽車(chē)通過(guò)各種傳感器對(duì)周?chē)沫h(huán)境進(jìn)行感知并處理人類(lèi)的語(yǔ)言等指令,利用所收集的信息進(jìn)行最后的決策,比如操作方向盤(pán)、剎車(chē)等。

人工智能已經(jīng)滲透到生活中的各個(gè)領(lǐng)域。機(jī)器已經(jīng)能識(shí)別語(yǔ)音、人臉以及視頻內(nèi)容等,從而實(shí)現(xiàn)各種人際交互的場(chǎng)景。在醫(yī)學(xué)領(lǐng)域,人工智能可以實(shí)現(xiàn)自動(dòng)讀片和輔助診斷以及個(gè)性化t療和基因排序等功能。在教育領(lǐng)域,機(jī)器也承擔(dān)了越來(lái)越多的輔助教育,智能交互的功能。在交通領(lǐng)域,一方面無(wú)人車(chē)的發(fā)展表明無(wú)人駕駛是一個(gè)可以期待的未來(lái),另一方面人工智能能夠帶來(lái)更加通暢和智能的交通。另外人工智能在安防、金融等領(lǐng)域也有非常廣闊的發(fā)展前景??傊?,人工智能在一些具有重復(fù)性的和具備簡(jiǎn)單決策的領(lǐng)域已經(jīng)是一種非常重要的工具,用來(lái)幫助人們解決問(wèn)題,創(chuàng)造價(jià)值。

參考文獻(xiàn)

[1]阮曉東.從AlphaGo的勝利看人工智能的未來(lái)[J].新經(jīng)濟(jì)導(dǎo)刊,2016 (6):69-74.

第2篇:卷積神經(jīng)網(wǎng)絡(luò)情感分析范文

關(guān)鍵詞:句子相似度計(jì)算;Word2Vector;編輯距離;Edit Distance

中圖分類(lèi)號(hào):TP18 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2017)05-0146-02

1 背景

句子的相似度計(jì)算在自然語(yǔ)言處理中有著十分廣泛的運(yùn)用。例如,機(jī)器翻譯中相似性文檔的判斷和提取,在問(wèn)答系統(tǒng)中相似性問(wèn)題的匹配或者問(wèn)題與答案之間的匹配判斷等。對(duì)于這個(gè)相似度的刻畫(huà),主要分為幾個(gè)不同的等級(jí),具體為語(yǔ)法層面的相似度,語(yǔ)義層面的相似度,與語(yǔ)用層面的相似度。其計(jì)算難度也是層層遞進(jìn)。在具體的應(yīng)用中,只要能達(dá)到語(yǔ)義層面的判斷基本上就可以達(dá)到基本的需求了。目前對(duì)句子的語(yǔ)義層面的相似度計(jì)算方法主要有基于相同詞匯的方法,使用語(yǔ)義詞典的方法、使用編輯距離的方法,以及基于統(tǒng)計(jì)的方法等。其中,基于相同詞匯的方法比較簡(jiǎn)單,但是其缺點(diǎn)也十分的明顯,就是對(duì)于句子中同義詞的判斷存在不足。相對(duì)于基于相同詞匯的方法,使用語(yǔ)義詞典可以很好的處理句子中同義詞的情形,但是語(yǔ)義詞典也存在著需要不斷地更新和維護(hù)詞典庫(kù)的缺點(diǎn),而且如果只是單一的使用語(yǔ)義詞典會(huì)缺乏對(duì)句子本身結(jié)構(gòu)的分析,對(duì)最后的計(jì)算結(jié)果也有較大的影響。編輯距離一般使用在對(duì)句子的快速模糊匹配上,由于其規(guī)定的編輯操作有限,而且對(duì)于同義詞的替換也缺乏判斷,因此最后的準(zhǔn)確率也不是很理想。本文基于編輯距離的方法,利用深度學(xué)習(xí)模型Word2Vector來(lái)增強(qiáng)其編輯操作的靈活程度,從而克服了單純使用編輯距離對(duì)句子的語(yǔ)義理解不足的缺點(diǎn)。本文的第一部分主要介紹了相關(guān)的算法和基礎(chǔ)知識(shí)。第二部分主要描述了基于Word2Vector與編輯距離的句子相似度計(jì)算方法,第三部分給出了測(cè)試結(jié)果以及對(duì)該方法的優(yōu)缺點(diǎn)討論,最后第四部分是結(jié)語(yǔ)。

編輯距離方法是指兩個(gè)句子間,由一個(gè)句子轉(zhuǎn)換到另一個(gè)句子所需的最少的編輯操作次數(shù)。這里的編輯操作共有“插入”、“刪除”和“替換”三種。例如:

我是中國(guó)人 -> 你是中國(guó)人 (把“我”替換為“你”)

我是中國(guó)人 -> 我愛(ài)中國(guó)人 (把“是”替換為“愛(ài)”)

我是中國(guó)人 -> 是中國(guó)人(把”我”刪除)

利用這種方法對(duì)兩個(gè)句子進(jìn)行相似度比較就像引言中分析的,其優(yōu)點(diǎn)是簡(jiǎn)單,速度快。但是缺點(diǎn)也十分明顯,由于編輯操作缺乏一定的靈活性,使得其無(wú)法進(jìn)一步的判斷語(yǔ)義層面的含義,比如同義詞,同類(lèi)、異類(lèi)詞等,因此,該方法適合于句子間的模糊匹配。

2.2 Word2Vector

Word2Vector是一種將詞匯表示轉(zhuǎn)化為空間向量的技術(shù),主要利用了深度學(xué)習(xí)的思想對(duì)語(yǔ)料進(jìn)行訓(xùn)練,通過(guò)將句子進(jìn)行分詞,然后將每個(gè)詞匯映射成N維的向量,這樣可以將兩個(gè)詞匯的相似度比較轉(zhuǎn)化為對(duì)兩個(gè)向量的相似度比較,可以利用cosine 相似度、歐氏距離等數(shù)學(xué)工具對(duì)詞匯進(jìn)行語(yǔ)義分析,其采用了一個(gè)具有三層的神經(jīng)網(wǎng)絡(luò),并且根據(jù)詞頻用Huffman編碼技術(shù)將相似詞頻詞匯的隱藏層激活的內(nèi)容出于大致相同的位置,如果哪個(gè)詞匯出現(xiàn)的頻率很高,那么它激活的隱藏層的數(shù)目就很少,通過(guò)這樣處理可以使得計(jì)算的復(fù)雜度大幅度的降低。最后,通過(guò)Kmeans聚類(lèi)方法,將相似的詞向量聚在一起,最后形成了Word2Vector的詞聚類(lèi)模型。

Word2Vector的輸出結(jié)果可以利用在NLP的很多地方,比如聚類(lèi),查找一個(gè)詞的同義詞,或者進(jìn)行詞性的分析等。

3 基于Word2Vector與編輯距離的句子相似度計(jì)算方法

3.1 問(wèn)題描述

3.3 按照Word2Vector的詞向量距離來(lái)定義編輯操作的系數(shù)

由Word2Vector訓(xùn)練好的模型會(huì)將各個(gè)詞匯生成一個(gè)與其相對(duì)應(yīng)的詞向量,計(jì)算兩個(gè)詞匯對(duì)應(yīng)的詞向量便可以知道這兩個(gè)詞匯的相似度。如果值為1,說(shuō)明這兩個(gè)詞匯完全一致,如果為0,則表示完全沒(méi)有關(guān)系。

這里考慮一種情形,當(dāng)利用替換操作進(jìn)行兩個(gè)詞匯的替換時(shí),如果兩個(gè)詞匯意思是相近的,那么它的替換代價(jià)會(huì)相應(yīng)的低一點(diǎn),反之,則會(huì)相應(yīng)的高。舉個(gè)例子:

我愛(ài)故宮

我愛(ài)天安門(mén)

我愛(ài)蘋(píng)果

這三個(gè)句子我們可以知道1,2兩句更加的接近,因?yàn)樗淼亩际蔷包c(diǎn)。因此待匹配的句子1應(yīng)該會(huì)匹配上句子2。為了將詞語(yǔ)的相似度考慮進(jìn)去,這里引入Word2Vector的詞向量來(lái)改進(jìn)替換操作的系數(shù)。

假設(shè)兩個(gè)詞匯的向量距離為k,k∈[0,1]??紤]到k的值的大小與編輯距離的大小是相反的,這里將更新后的替換操作的系數(shù)設(shè)定為1/(1+k)。這樣更新后的替換操作會(huì)根據(jù)不同詞匯之間的距離發(fā)生變化,變化范圍在[0.5,1]之間。而且這個(gè)值的范圍不會(huì)打破編輯操作里面的平衡,即替換=插入+刪除。更新后的編輯距離公式L=a+1/(1+k)*b + c。

4 實(shí)驗(yàn)及結(jié)果分析

為了驗(yàn)證改進(jìn)的編輯距離算法的有效性,本文自行構(gòu)造了實(shí)驗(yàn)所需的句子集合,本文所用的測(cè)試句子一共有400句。其中380句為來(lái)自各個(gè)不同領(lǐng)域類(lèi)型的句子。比如,體育,娛樂(lè),軍事,文化,科技,教育等。另外20句為沒(méi)有意義的干擾句。這里從380個(gè)句子中挑選100句作為參考句子,通過(guò)人工評(píng)價(jià),比較測(cè)試結(jié)果。這里評(píng)價(jià)按照結(jié)果的質(zhì)量分為3類(lèi):1、準(zhǔn)確,2、相關(guān),3、不相關(guān)。其中查準(zhǔn)率P的定義如下所示:

通過(guò)實(shí)驗(yàn)可以發(fā)現(xiàn),經(jīng)過(guò)改進(jìn)的編輯距離句子相似度匹配算法在準(zhǔn)確度上有了一定的提高和改進(jìn),其中原因便是調(diào)整后的編輯距離算法將同義詞近義詞等通過(guò)詞向量給計(jì)算出來(lái)。但是在實(shí)驗(yàn)中也發(fā)現(xiàn)了一個(gè)現(xiàn)象,就是相對(duì)來(lái)說(shuō)判斷準(zhǔn)確的句子都是一些短小句,即長(zhǎng)度不是很長(zhǎng)的句子,而判斷不相關(guān)的句子明顯長(zhǎng)度要更長(zhǎng)一些。事實(shí)也是如此,當(dāng)句子的長(zhǎng)度較長(zhǎng)時(shí),通過(guò)分詞將一個(gè)句子分為一個(gè)個(gè)短的詞匯來(lái)利用詞向量來(lái)理解會(huì)破壞句子的整體含義。

5 結(jié)束語(yǔ)

本文通過(guò)利用Word2Vector模型將詞向量計(jì)算引入到編輯距離算法的編輯操作中,從而使得改進(jìn)后的編輯算法對(duì)句子具有一定的語(yǔ)義理解能力。通過(guò)實(shí)驗(yàn)也比較好的驗(yàn)證了此方法的有效性,尤其是對(duì)近義詞與同義詞的理解上有了很大的提升,而算法本身的時(shí)間復(fù)雜度相較于編輯距離算法則沒(méi)有改變多少。

另外,通過(guò)實(shí)驗(yàn)也發(fā)現(xiàn),此方法對(duì)短句子的效果非常的明顯,而對(duì)于一些長(zhǎng)句則還是具有較大的誤差。從對(duì)句子本身的分析角度上看,還需要通過(guò)對(duì)句子進(jìn)行建模才可以達(dá)到比較好的理解匹配。

參考文獻(xiàn):

[1] 李彬, 劉挺, 秦兵, 等. 基于語(yǔ)義依存的漢語(yǔ)句子相似度計(jì)算[J]. 計(jì)算機(jī)應(yīng)用研究, 2003, 20(12): 15-17.

[2] 孔勝, 王宇. 基于句子相似度的文本主題句提取算法研究[J]. 情報(bào)學(xué)報(bào), 2011, 30(6): 605-609.

[3] 賈明靜, 董日壯, 段良濤. 問(wèn)句相似度計(jì)算綜述[J]. 電腦知識(shí)與技術(shù): 學(xué)術(shù)交流, 2014 (11): 7434-7437.

[4] 賈熹濱, 李寧, 靳亞. 用于文本情感極性分析的動(dòng)態(tài)卷積神經(jīng)網(wǎng)絡(luò)超限學(xué)習(xí)算法[J]. 北京工業(yè)大學(xué)學(xué)報(bào), 2017, 43(1): 28-35.

[5] Xu G, Cao Y, Zhang Y, et al. TRM: Computing Reputation Score by Mining Reviews[J]. 2015.

[6] 萬(wàn)翔, 劉挺, 秦兵, 等. 基于改進(jìn)編輯距離的中文相似句子檢索[J]. 高技術(shù)通訊, 2004, 14(7): 15-19.

[7] 汪衛(wèi)明, 梁東鶯. 基于語(yǔ)義依存關(guān)系匹配的漢語(yǔ)句子相似度計(jì)算[J]. 深圳信息職業(yè)技術(shù)學(xué)院學(xué)報(bào), 2014 (1): 56-61.

[8] 裴婧, 包宏. 漢語(yǔ)句子相似度計(jì)算在 FAQ 中的應(yīng)用[J]. 計(jì)算機(jī)工程, 2009, 35(17): 46-48.