前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的卷積神經(jīng)網(wǎng)絡(luò)情感分析主題范文,僅供參考,歡迎閱讀并收藏。
關(guān)鍵詞:人機(jī)大戰(zhàn);人工智能;發(fā)展前景
中圖分類號:TP391 文獻(xiàn)標(biāo)識碼:A
0.引言
2016年3月15日,備受矚目的“人機(jī)大戰(zhàn)”終于落下帷幕,最終Google公司開發(fā)的“AlphaGo”以4∶1戰(zhàn)勝了韓國九段棋手李世h。毫無疑問,這是人工智能歷史上一個具有里程碑式的大事件。大家一致認(rèn)為,人工智能已經(jīng)上升到了一個新的高度。
這次勝利與1997年IBM公司的“深藍(lán)”戰(zhàn)勝國際象棋世界冠軍卡斯帕羅不同。主要表現(xiàn)在兩個方面:
(1)AlphaGo的勝利并非僅僅依賴強(qiáng)悍的計算能力和龐大的棋譜數(shù)據(jù)庫取勝,而是AlphaGo已經(jīng)擁有了深度學(xué)習(xí)的能力,能夠?qū)W習(xí)已經(jīng)對弈過的棋盤,并在練習(xí)和實戰(zhàn)中不斷學(xué)習(xí)和積累經(jīng)驗。
(2)圍棋比國際象棋更加復(fù)雜,圍棋棋盤有361個點(diǎn),其分支因子無窮無盡,19×19格圍棋的合法棋局?jǐn)?shù)的所有可能性是冪為171的指數(shù),這樣的計算量相當(dāng)巨大。英國圍棋聯(lián)盟裁判托比表示:“圍棋是世界上最為復(fù)雜的智力游戲,它簡單的規(guī)則加深了棋局的復(fù)雜性”。因此,進(jìn)入圍棋領(lǐng)域一直被認(rèn)為是目前人工智能的最大挑戰(zhàn)。
簡而言之,AlphaGo取得勝利的一個很重要的方面就是它擁有強(qiáng)大的“學(xué)習(xí)”能力。深度學(xué)習(xí)是源于人工神經(jīng)網(wǎng)絡(luò)的研究,得益于大數(shù)據(jù)和互聯(lián)網(wǎng)技術(shù)。本文就從人工智能的發(fā)展歷程與現(xiàn)狀入手,在此基礎(chǔ)上分析了人工智能的未來發(fā)展前景。
1.人工智能的發(fā)展歷程
AlphaGo的勝利表明,人工智能發(fā)展到今天,已經(jīng)取得了很多卓越的成果。但是,其發(fā)展不是一帆風(fēng)順的,人工智能是一個不斷進(jìn)步,并且至今仍在取得不斷突破的學(xué)科?;仡櫲斯ぶ悄艿陌l(fā)展歷程,可大致分為孕育、形成、暗淡、知識應(yīng)用和集成發(fā)展五大時期。
孕育期:1956年以前,數(shù)學(xué)、邏輯、計算機(jī)等理論和技術(shù)方面的研究為人工智能的出現(xiàn)奠定了基礎(chǔ)。德國數(shù)學(xué)家和哲學(xué)家萊布尼茨把形式邏輯符號化,奠定了數(shù)理邏輯的基礎(chǔ)。英國數(shù)學(xué)家圖靈在1936年創(chuàng)立了自動機(jī)理論(亦稱圖靈機(jī)),1950年在其著作《計算機(jī)與智能》中首次提出“機(jī)器也能思維”,被譽(yù)為“人工智能之父”??傊@些人為人工智能的孕育和產(chǎn)生做出了巨大的貢獻(xiàn)。
形成期:1956年夏季,在美國達(dá)特茅斯大學(xué)舉辦了長達(dá)2個多月的研討會,熱烈地討論用機(jī)器模擬人類智能的問題。該次會議首次使用了“人工智能”這一術(shù)語。這是人類歷史上第一次人工智能研討會,標(biāo)志著人工智能學(xué)科的誕生。其后的十幾年是人工智能的黃金時期。在接下來的幾年中,在眾多科學(xué)家的努力下,人工智能取得了矚目的突破,也在當(dāng)時形成了廣泛的樂觀思潮。
暗淡期:20世紀(jì)70年代初,即使最杰出的AI程序也只能解決問題中最簡單的部分,發(fā)展遇到瓶頸也就是說所有的AI程序都只是“玩具”,無法解決更為復(fù)雜的問題。隨著AI遭遇批評,對AI提供資助的機(jī)構(gòu)也逐漸停止了部分AI的資助。資金上的困難使得AI的研究方向縮窄,缺少了以往的自由探索。
知識應(yīng)用期:在80年代,“專家系統(tǒng)”(Expect System)成為了人工智能中一個非常主流的分支?!皩<蚁到y(tǒng)”是一種程序,為計算機(jī)提供特定領(lǐng)域的專門知識和經(jīng)驗,計算機(jī)就能夠依據(jù)一組從專門知識中推演出的邏輯規(guī)則在某一特定領(lǐng)域回答或解決問題。不同領(lǐng)域的專家系統(tǒng)基本都是由知識庫、數(shù)據(jù)庫、推理機(jī)、解釋機(jī)制、知識獲取等部分組成。
集成發(fā)展期:得益于互聯(lián)網(wǎng)的蓬勃發(fā)展、計算機(jī)性能的突飛猛進(jìn)、分布式系統(tǒng)的廣泛應(yīng)用以及人工智能多分支的協(xié)同發(fā)展,人工智能在這一階段飛速發(fā)展。尤其是隨著深度學(xué)習(xí)和人工神經(jīng)網(wǎng)絡(luò)研究的不斷深入,人工智能在近幾十年中取得了長足的進(jìn)步,取得了令人矚目的成就。
人工智能發(fā)展到今天,出現(xiàn)了很多令人矚目的研究成果。AlphaGo的勝利就是基于這些研究成果的一個里程碑。當(dāng)前人工智能的研究熱點(diǎn)主要集中在自然語言處理、機(jī)器學(xué)習(xí)、人工神經(jīng)網(wǎng)絡(luò)等領(lǐng)域。
2.人工智能l展現(xiàn)狀與前景
人工智能當(dāng)前有很多重要的研究領(lǐng)域和分支。目前,越來越多的AI項目依賴于分布式系統(tǒng),而當(dāng)前研究的普遍熱點(diǎn)則集中于自然語言處理、機(jī)器學(xué)習(xí)和人工神經(jīng)網(wǎng)絡(luò)等領(lǐng)域。
自然語言處理:自然語言處理(Natural Language Processing,簡稱NLP),是語言學(xué)與人工智能的交叉學(xué)科,其主要功能就是實現(xiàn)讓機(jī)器明白人類的語言,這需要將人類的自然語言轉(zhuǎn)化為計算機(jī)能夠處理的機(jī)器語言。
自然語言處理主要包括詞法分析、句法分析和語義分析三大部分。詞法分析的核心就是分詞處理,即單詞的邊界處理。句法分析就是對自然語言中句子的結(jié)構(gòu)、語法進(jìn)行分析如辨別疑問句和感嘆句等。而語義分析則注重情感分析和整個段落的上下文分析,辨別一些字詞在不同的上下文定的語義和情感態(tài)度。
當(dāng)前自然語言的處理主要有兩大方向。一種是基于句法-語義規(guī)則的理性主義理論,該理論認(rèn)為需要為計算機(jī)制定一系列的規(guī)則,計算機(jī)在規(guī)則下進(jìn)行推理與判斷。因此其技術(shù)路線是一系列的人為的語料建設(shè)與規(guī)則制定。第二種是基于統(tǒng)計學(xué)習(xí)的經(jīng)驗主義理論,這種理論在最近受到普遍推崇。該理論讓計算機(jī)自己通過學(xué)習(xí)并進(jìn)行統(tǒng)計推斷的方式不停地從數(shù)據(jù)中“學(xué)習(xí)”語言,試圖刻畫真實世界的語言現(xiàn)象,從數(shù)據(jù)中統(tǒng)計語言的規(guī)律。
機(jī)器學(xué)習(xí):機(jī)器學(xué)習(xí)(Machine Learning)是近20年來興起的人工智能一大重要領(lǐng)域。其主要是指通過讓計算機(jī)在數(shù)據(jù)中自動分析獲得規(guī)律,從而獲取“自我學(xué)習(xí)”的能力,并利用規(guī)律對未知數(shù)據(jù)進(jìn)行判斷和預(yù)測的方法。
機(jī)器學(xué)致可以分為有監(jiān)督的學(xué)習(xí)和無監(jiān)督的學(xué)習(xí)。有監(jiān)督的學(xué)習(xí)是從給定的訓(xùn)練數(shù)據(jù)集中練出一個函數(shù)和目標(biāo),當(dāng)有新的數(shù)據(jù)到來時,可以由訓(xùn)練得到函數(shù)預(yù)測目標(biāo)。有監(jiān)督的學(xué)習(xí)要求訓(xùn)練集同時有輸入和輸出,也就是所謂的特征和目標(biāo)。而依據(jù)預(yù)測的結(jié)果是離散的還是連續(xù)的,將有監(jiān)督的學(xué)習(xí)分為兩大問題,即統(tǒng)計分類問題和回歸分析問題。統(tǒng)計分類的預(yù)測結(jié)果是離散的,如腫瘤是良性還是惡性等;而回歸分析問題目標(biāo)是連續(xù)的,如天氣、股價等的預(yù)測。
無監(jiān)督學(xué)習(xí)的訓(xùn)練集則沒有人為標(biāo)注的結(jié)果,這就需要計算機(jī)去發(fā)現(xiàn)數(shù)據(jù)間的聯(lián)系并用來分類等。一種常見的無監(jiān)督學(xué)習(xí)是聚類分析(Cluster Analysis),它是將相似的對象通過靜態(tài)分類的方法分成不同的組別或者是特定的子集,讓同一個子集中的數(shù)據(jù)對象都有一些相似的屬性,比較常用的聚類方法是簡潔并快速的“K-均值”聚類算法。它基于K個中心并對距離這些中心最近的數(shù)據(jù)對象進(jìn)行分類。
機(jī)器學(xué)習(xí)還包括如半監(jiān)督學(xué)習(xí)和增強(qiáng)學(xué)習(xí)等類別??偠灾?,機(jī)器學(xué)習(xí)是研究如何使用機(jī)器來模擬人類學(xué)習(xí)活動的一門學(xué)科,而其應(yīng)用隨著人工智能研究領(lǐng)域的深入也變得越來越廣泛,如模式識別、計算機(jī)視覺、語音識別、推薦算法等領(lǐng)域越來越廣泛地應(yīng)用到了機(jī)器學(xué)習(xí)中。
人工神經(jīng)網(wǎng)絡(luò):在腦神經(jīng)科學(xué)領(lǐng)域,人們認(rèn)為人類的意識及智能行為,都是通過巨大的神經(jīng)網(wǎng)絡(luò)傳遞的,每個神經(jīng)細(xì)胞通過突出與其他神經(jīng)細(xì)胞連接,當(dāng)通過突觸的信號強(qiáng)度超過某個閾值時,神經(jīng)細(xì)胞便會進(jìn)入激活狀態(tài),向所連接的神經(jīng)細(xì)胞一層層傳遞信號。于1943年提出的基于生物神經(jīng)元的M-P模型的主要思想就是將神經(jīng)元抽象為一個多輸入單輸出的信息處理單元,并通過傳遞函數(shù)f對輸入x1,x2…,xn進(jìn)行處理并模擬神經(jīng)細(xì)胞的激活模式。主要的傳遞函數(shù)有階躍型、線性型和S型。
在此基礎(chǔ)上,對神經(jīng)網(wǎng)絡(luò)算法的研究又有諸多進(jìn)展。日本的福島教授于1983年基于視覺認(rèn)知模型提出了卷積神經(jīng)網(wǎng)絡(luò)計算模型。通過學(xué)習(xí)訓(xùn)練獲取到卷積運(yùn)算中所使用的卷積系數(shù),并通過不同層次與自由度的變化,可以得到較為優(yōu)化的計算結(jié)果。而AlphaGo也正是采用了這種深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)模型,提高了AlphaGo的視覺分類能力,也就是所謂的“棋感”,增強(qiáng)了其對全盤決策和把握的能力。
3.人工智能的發(fā)展前景
總體來看,人工智能的應(yīng)用經(jīng)歷了博弈、感知、決策和反饋這幾個里程碑。在以上4個領(lǐng)域中,既是縱向發(fā)展的過程,也是橫向不斷改進(jìn)的過程。
人工智能在博弈階段,主要是實現(xiàn)邏輯推理等功能,隨著計算機(jī)處理能力的進(jìn)步以及深度學(xué)習(xí)等算法的改進(jìn),機(jī)器擁有了越來越強(qiáng)的邏輯與對弈能力。在感知領(lǐng)域,隨著自然語言處理的進(jìn)步,機(jī)器已經(jīng)基本能對人類的語音與語言進(jìn)行感知,并且能夠已經(jīng)對現(xiàn)實世界進(jìn)行視覺上的感知?;诖髷?shù)據(jù)的處理和機(jī)器學(xué)習(xí)的發(fā)展,機(jī)器已經(jīng)能夠?qū)χ車沫h(huán)境進(jìn)行認(rèn)知,例如微軟的Kinect就能夠準(zhǔn)確的對人的肢體動作進(jìn)行判斷。該領(lǐng)域的主要實現(xiàn)還包括蘋果的Siri,谷歌大腦以及無人駕駛汽車中的各種傳感器等。在以上兩個階段的基礎(chǔ)上,機(jī)器擁有了一定的決策和反饋的能力。無人駕駛汽車的蓬勃發(fā)展就是這兩個里程碑很好的例證。Google的無人駕駛汽車通過各種傳感器對周圍的環(huán)境進(jìn)行感知并處理人類的語言等指令,利用所收集的信息進(jìn)行最后的決策,比如操作方向盤、剎車等。
人工智能已經(jīng)滲透到生活中的各個領(lǐng)域。機(jī)器已經(jīng)能識別語音、人臉以及視頻內(nèi)容等,從而實現(xiàn)各種人際交互的場景。在醫(yī)學(xué)領(lǐng)域,人工智能可以實現(xiàn)自動讀片和輔助診斷以及個性化t療和基因排序等功能。在教育領(lǐng)域,機(jī)器也承擔(dān)了越來越多的輔助教育,智能交互的功能。在交通領(lǐng)域,一方面無人車的發(fā)展表明無人駕駛是一個可以期待的未來,另一方面人工智能能夠帶來更加通暢和智能的交通。另外人工智能在安防、金融等領(lǐng)域也有非常廣闊的發(fā)展前景。總之,人工智能在一些具有重復(fù)性的和具備簡單決策的領(lǐng)域已經(jīng)是一種非常重要的工具,用來幫助人們解決問題,創(chuàng)造價值。
參考文獻(xiàn)
[1]阮曉東.從AlphaGo的勝利看人工智能的未來[J].新經(jīng)濟(jì)導(dǎo)刊,2016 (6):69-74.
關(guān)鍵詞:句子相似度計算;Word2Vector;編輯距離;Edit Distance
中圖分類號:TP18 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2017)05-0146-02
1 背景
句子的相似度計算在自然語言處理中有著十分廣泛的運(yùn)用。例如,機(jī)器翻譯中相似性文檔的判斷和提取,在問答系統(tǒng)中相似性問題的匹配或者問題與答案之間的匹配判斷等。對于這個相似度的刻畫,主要分為幾個不同的等級,具體為語法層面的相似度,語義層面的相似度,與語用層面的相似度。其計算難度也是層層遞進(jìn)。在具體的應(yīng)用中,只要能達(dá)到語義層面的判斷基本上就可以達(dá)到基本的需求了。目前對句子的語義層面的相似度計算方法主要有基于相同詞匯的方法,使用語義詞典的方法、使用編輯距離的方法,以及基于統(tǒng)計的方法等。其中,基于相同詞匯的方法比較簡單,但是其缺點(diǎn)也十分的明顯,就是對于句子中同義詞的判斷存在不足。相對于基于相同詞匯的方法,使用語義詞典可以很好的處理句子中同義詞的情形,但是語義詞典也存在著需要不斷地更新和維護(hù)詞典庫的缺點(diǎn),而且如果只是單一的使用語義詞典會缺乏對句子本身結(jié)構(gòu)的分析,對最后的計算結(jié)果也有較大的影響。編輯距離一般使用在對句子的快速模糊匹配上,由于其規(guī)定的編輯操作有限,而且對于同義詞的替換也缺乏判斷,因此最后的準(zhǔn)確率也不是很理想。本文基于編輯距離的方法,利用深度學(xué)習(xí)模型Word2Vector來增強(qiáng)其編輯操作的靈活程度,從而克服了單純使用編輯距離對句子的語義理解不足的缺點(diǎn)。本文的第一部分主要介紹了相關(guān)的算法和基礎(chǔ)知識。第二部分主要描述了基于Word2Vector與編輯距離的句子相似度計算方法,第三部分給出了測試結(jié)果以及對該方法的優(yōu)缺點(diǎn)討論,最后第四部分是結(jié)語。
編輯距離方法是指兩個句子間,由一個句子轉(zhuǎn)換到另一個句子所需的最少的編輯操作次數(shù)。這里的編輯操作共有“插入”、“刪除”和“替換”三種。例如:
我是中國人 -> 你是中國人 (把“我”替換為“你”)
我是中國人 -> 我愛中國人 (把“是”替換為“愛”)
我是中國人 -> 是中國人(把”我”刪除)
利用這種方法對兩個句子進(jìn)行相似度比較就像引言中分析的,其優(yōu)點(diǎn)是簡單,速度快。但是缺點(diǎn)也十分明顯,由于編輯操作缺乏一定的靈活性,使得其無法進(jìn)一步的判斷語義層面的含義,比如同義詞,同類、異類詞等,因此,該方法適合于句子間的模糊匹配。
2.2 Word2Vector
Word2Vector是一種將詞匯表示轉(zhuǎn)化為空間向量的技術(shù),主要利用了深度學(xué)習(xí)的思想對語料進(jìn)行訓(xùn)練,通過將句子進(jìn)行分詞,然后將每個詞匯映射成N維的向量,這樣可以將兩個詞匯的相似度比較轉(zhuǎn)化為對兩個向量的相似度比較,可以利用cosine 相似度、歐氏距離等數(shù)學(xué)工具對詞匯進(jìn)行語義分析,其采用了一個具有三層的神經(jīng)網(wǎng)絡(luò),并且根據(jù)詞頻用Huffman編碼技術(shù)將相似詞頻詞匯的隱藏層激活的內(nèi)容出于大致相同的位置,如果哪個詞匯出現(xiàn)的頻率很高,那么它激活的隱藏層的數(shù)目就很少,通過這樣處理可以使得計算的復(fù)雜度大幅度的降低。最后,通過Kmeans聚類方法,將相似的詞向量聚在一起,最后形成了Word2Vector的詞聚類模型。
Word2Vector的輸出結(jié)果可以利用在NLP的很多地方,比如聚類,查找一個詞的同義詞,或者進(jìn)行詞性的分析等。
3 基于Word2Vector與編輯距離的句子相似度計算方法
3.1 問題描述
3.3 按照Word2Vector的詞向量距離來定義編輯操作的系數(shù)
由Word2Vector訓(xùn)練好的模型會將各個詞匯生成一個與其相對應(yīng)的詞向量,計算兩個詞匯對應(yīng)的詞向量便可以知道這兩個詞匯的相似度。如果值為1,說明這兩個詞匯完全一致,如果為0,則表示完全沒有關(guān)系。
這里考慮一種情形,當(dāng)利用替換操作進(jìn)行兩個詞匯的替換時,如果兩個詞匯意思是相近的,那么它的替換代價會相應(yīng)的低一點(diǎn),反之,則會相應(yīng)的高。舉個例子:
我愛故宮
我愛天安門
我愛蘋果
這三個句子我們可以知道1,2兩句更加的接近,因為它代表的都是景點(diǎn)。因此待匹配的句子1應(yīng)該會匹配上句子2。為了將詞語的相似度考慮進(jìn)去,這里引入Word2Vector的詞向量來改進(jìn)替換操作的系數(shù)。
假設(shè)兩個詞匯的向量距離為k,k∈[0,1]。考慮到k的值的大小與編輯距離的大小是相反的,這里將更新后的替換操作的系數(shù)設(shè)定為1/(1+k)。這樣更新后的替換操作會根據(jù)不同詞匯之間的距離發(fā)生變化,變化范圍在[0.5,1]之間。而且這個值的范圍不會打破編輯操作里面的平衡,即替換=插入+刪除。更新后的編輯距離公式L=a+1/(1+k)*b + c。
4 實驗及結(jié)果分析
為了驗證改進(jìn)的編輯距離算法的有效性,本文自行構(gòu)造了實驗所需的句子集合,本文所用的測試句子一共有400句。其中380句為來自各個不同領(lǐng)域類型的句子。比如,體育,娛樂,軍事,文化,科技,教育等。另外20句為沒有意義的干擾句。這里從380個句子中挑選100句作為參考句子,通過人工評價,比較測試結(jié)果。這里評價按照結(jié)果的質(zhì)量分為3類:1、準(zhǔn)確,2、相關(guān),3、不相關(guān)。其中查準(zhǔn)率P的定義如下所示:
通過實驗可以發(fā)現(xiàn),經(jīng)過改進(jìn)的編輯距離句子相似度匹配算法在準(zhǔn)確度上有了一定的提高和改進(jìn),其中原因便是調(diào)整后的編輯距離算法將同義詞近義詞等通過詞向量給計算出來。但是在實驗中也發(fā)現(xiàn)了一個現(xiàn)象,就是相對來說判斷準(zhǔn)確的句子都是一些短小句,即長度不是很長的句子,而判斷不相關(guān)的句子明顯長度要更長一些。事實也是如此,當(dāng)句子的長度較長時,通過分詞將一個句子分為一個個短的詞匯來利用詞向量來理解會破壞句子的整體含義。
5 結(jié)束語
本文通過利用Word2Vector模型將詞向量計算引入到編輯距離算法的編輯操作中,從而使得改進(jìn)后的編輯算法對句子具有一定的語義理解能力。通過實驗也比較好的驗證了此方法的有效性,尤其是對近義詞與同義詞的理解上有了很大的提升,而算法本身的時間復(fù)雜度相較于編輯距離算法則沒有改變多少。
另外,通過實驗也發(fā)現(xiàn),此方法對短句子的效果非常的明顯,而對于一些長句則還是具有較大的誤差。從對句子本身的分析角度上看,還需要通過對句子進(jìn)行建模才可以達(dá)到比較好的理解匹配。
參考文獻(xiàn):
[1] 李彬, 劉挺, 秦兵, 等. 基于語義依存的漢語句子相似度計算[J]. 計算機(jī)應(yīng)用研究, 2003, 20(12): 15-17.
[2] 孔勝, 王宇. 基于句子相似度的文本主題句提取算法研究[J]. 情報學(xué)報, 2011, 30(6): 605-609.
[3] 賈明靜, 董日壯, 段良濤. 問句相似度計算綜述[J]. 電腦知識與技術(shù): 學(xué)術(shù)交流, 2014 (11): 7434-7437.
[4] 賈熹濱, 李寧, 靳亞. 用于文本情感極性分析的動態(tài)卷積神經(jīng)網(wǎng)絡(luò)超限學(xué)習(xí)算法[J]. 北京工業(yè)大學(xué)學(xué)報, 2017, 43(1): 28-35.
[5] Xu G, Cao Y, Zhang Y, et al. TRM: Computing Reputation Score by Mining Reviews[J]. 2015.
[6] 萬翔, 劉挺, 秦兵, 等. 基于改進(jìn)編輯距離的中文相似句子檢索[J]. 高技術(shù)通訊, 2004, 14(7): 15-19.
[7] 汪衛(wèi)明, 梁東鶯. 基于語義依存關(guān)系匹配的漢語句子相似度計算[J]. 深圳信息職業(yè)技術(shù)學(xué)院學(xué)報, 2014 (1): 56-61.
[8] 裴婧, 包宏. 漢語句子相似度計算在 FAQ 中的應(yīng)用[J]. 計算機(jī)工程, 2009, 35(17): 46-48.
本站为第三方开放式学习交流平台,所有内容均为用户上传,仅供参考,不代表本站立场。若内容不实请联系在线客服删除,服务时间:8:00~21:00。