公務員期刊網(wǎng) 論文中心 正文

金融學文本大數(shù)據(jù)挖掘方法淺議

前言:想要寫出一篇引人入勝的文章?我們特意為您整理了金融學文本大數(shù)據(jù)挖掘方法淺議范文,希望能給你帶來靈感和參考,敬請閱讀。

金融學文本大數(shù)據(jù)挖掘方法淺議

摘要:通過回顧歷史文獻可知,傳統(tǒng)研究主要研究文本分析常用方法,對于文本大數(shù)據(jù)挖掘實施過程關注較少。本文闡述了文本大數(shù)據(jù)挖掘的主要方法,闡述在此過程中獲取、預處理、表示文檔和抽取文檔特征的方法,總結文本大數(shù)據(jù)挖掘信息來源,結合文本信息來源分析金融學領域文本數(shù)據(jù)挖掘應用發(fā)展趨勢,從而為金融學領域文本大數(shù)據(jù)應用提供參考。

關鍵詞:金融學研究;文本大數(shù)據(jù);數(shù)據(jù)挖掘;深度學習

在針對金融學領域進行實證研究時,傳統(tǒng)研究方法通常選擇結構化數(shù)據(jù)作為研究依據(jù),常見類型如股票市場數(shù)據(jù)、財務報表等。大數(shù)據(jù)技術發(fā)展后,計算機技術逐漸成熟,在實證研究中可獲取更加多樣化的數(shù)據(jù),非結構化文本大數(shù)據(jù)得到應用,例如:P2P網(wǎng)絡借貸文本、財經(jīng)媒體報道、網(wǎng)絡搜索指數(shù)、上市公司披露文本、社交網(wǎng)絡文本等。本文探討了相關文本可讀性、相似性、語氣語調(diào)與語義特征等。

1.在金融學研究中文本大數(shù)據(jù)的挖掘方法

傳統(tǒng)研究方法通常采用人工閱讀方法對文本信息進行識別,因為文本數(shù)量龐大、信息構成復雜,人工識別效率較低,而且信息識別質(zhì)量不穩(wěn)定,信息識別效果受到閱讀者專業(yè)素養(yǎng)、理解能力等多方面因素影響。計算機技術發(fā)展后逐漸被應用于分析文本大數(shù)據(jù),利用計算機技術獲取語料,對文本資料進行預處理、文本表示、抽取特征等操作。完成上述步驟后,在研究分析中使用文檔特征,從而開展深入分析[1]。在分析文本大數(shù)據(jù)時,主要采取如下流程:(1)從眾多信息來源中獲取語料,對語料文檔進行解析,明確文本定位,清洗數(shù)據(jù),獲得文本分詞,標注詞性,將其中停用詞清除。(2)構建詞云、詞嵌入、詞袋模型與主題模型。(3)分析文本情緒、可讀性、相似性,分析語義關聯(lián)性。(4)監(jiān)督機器學習、詞典語法處理[2]。

1.1獲取語料

獲取語料的方法主要分為兩種:(1)人工獲?。唬?)利用網(wǎng)絡工具爬取或抓取。其中人工獲取語料投入成本較高,耗時較長,需要投入大量人力,因此網(wǎng)絡抓取的可行性相對較高[3]。網(wǎng)絡抓取方法可有效應對大量文本量,在一定程度上降低文本大數(shù)據(jù)獲取難度。在網(wǎng)絡抓取語料時,需要借助編程語言,通過直接抓取或爬取的方法獲取文本大數(shù)據(jù)。采用此種語料獲取模式具有兩方面顯著優(yōu)勢,不僅獲取文本信息耗時較短,效率較高,而且可直接使用編程語言整理內(nèi)容和規(guī)范形式,為后續(xù)文本分析工作奠定基礎[4]。

1.2預處理環(huán)節(jié)

獲取目標語料后,前期需要預處理文本,解析、定位文本,清洗數(shù)據(jù),標注分詞與詞性,最后去除停用詞。金融市場通常要求企業(yè)采用PDF格式作為信息披露文檔格式,文本預處理中首先需要解析富格式文檔,獲取文檔信息。定位文本和清洗數(shù)據(jù)環(huán)節(jié)中,利用計算機程序定位文本信息[5]。在該類研究中,MD&A研究熱度較高,使用正則表達式進行財務報告正文MD&A定位首尾信息部分,提取上述信息。此外,文本信息中除核心內(nèi)容結構外,還包括超文本標記語文、腳本語等代碼信息、圖片信息、廣告信息等,該類信息在文本分析中屬于噪聲內(nèi)容,需要刪除和清洗相關信息,從文本中篩選有價值的核心內(nèi)容[6]。文本分詞處理與文本語言密切相關。英文文本使用空格劃分單詞,即自然存在分詞形式,也可采取提取詞干、還原詞形等方法劃分單詞。中文文本中不使用空格分詞,根據(jù)中文語言習慣,詞語為最小語言單位,可獨立使用?;诖朔N背景,分析文本時需要專門分詞處理中文文本,例如:使用Python開源“jieba”中的中文分詞處理模塊處理文本,股票論壇帖子文本、年度業(yè)績說明會以及企業(yè)財務報告均可使用該類工具處理,完成分詞。在針對中文文本進行分詞處理時,其中實施難度較高的部分是識別新詞、歧義詞與控制切分顆粒度。在處理歧義詞時,需要科學選擇分詞方法,采用“jieba”針對文本進行分詞處理時,選擇分詞模式是否科學直接影響分詞精準度。分詞處理新詞時,需要用戶在相應模塊中自行添加新詞,完善自定義詞典,從而使分詞軟件識別新詞[7]。語義信息被識別的關鍵依據(jù)是詞性等語法特征,詞語切分后標記詞語詞性操作被稱為詞性標注。詞性標注操作可幫助計算機進行詞語種類識別,避免詞語歧義,對語法結構進行有效識別,從而促進計算機順利進行語義分析。詞性標注時,中英文操作方法不同,詞性劃分英文單詞要求比較嚴謹,利用詞尾變化反映詞性變化。在英文詞匯中,許多固定詞尾可提示詳細詞性信息。在處理中文詞語中,并無明確詞性指示,詞性識別依據(jù)主要為語法、語義等。簡言之,英文詞性識別標記注重形式,漢語詞性標記以語義為主。在處理文本信息時,需要將文本信息中停用詞去除,從而保證文本挖掘信息具有較高精度。所謂停用詞,即自身詞義表達有限,然而對于句子語法結構完整性而言非常重要的詞語。停用詞導致文本數(shù)據(jù)具有更繁瑣維度,導致分析文本的成本較高。英文中動詞、連詞、冠詞均為常見停用詞。中文處理方法比較復雜,必須結合語言習慣分析停用詞,不僅需要處理特殊符號、標點符號,還需要處理連詞、俚語。除此之外,應根據(jù)具體研究內(nèi)容確定停用詞。在進行文本情緒研究時,特定標點符號、語氣詞等會影響文本表達的情感信息,對于此類信息需要予以保留,從而保證文本情感程度得到準確分析。

1.3文檔表示環(huán)節(jié)

文本數(shù)據(jù)為高維度數(shù)據(jù),具有稀疏特點,使用計算機處理文本數(shù)據(jù)時難度較高,預處理實施后,必須通過特定方式表示文檔信息,通過此種處理降低后續(xù)計算機分析和人工研究難度。詞云、詞嵌入、詞袋模型、主題模型均為核心表示方法[8]。詞語技術具有可視化特點,是文本大數(shù)據(jù)技術之一。所謂本文可視化,即使用視覺符號顯示復雜內(nèi)容,展示文本規(guī)律。根據(jù)生物特性,人們習慣于通過視覺獲取文本信息,實現(xiàn)文本可視化可提高信息提取效率。使用詞云技術可有效描述文本中詞匯使用頻率,采用醒目形式顯示高頻詞匯。詞袋模型的構建基礎是無嚴格語序要求的文字詞組存在[9],以此種假設為前提,文本相當于眾多詞語集合,采用向量化方法表達文本,在此過程中只計算各個詞語出現(xiàn)頻率。在詞袋模型中含有兩種構建方法:(1)獨熱表示法;(2)詞頻-逆文檔頻率法。前者的應用優(yōu)勢是可行性較高,操作難度較低。例如:現(xiàn)有如下兩個文檔:(1)文檔一:“經(jīng)濟學中文本大數(shù)據(jù)使用”;(2)文檔二:“金融學中文本大數(shù)據(jù)使用”。以文檔一、文檔二為基礎建設詞表,根據(jù)詞序實施詞袋化處理,確定詞袋向量。對于出現(xiàn)的詞,以“1”表示,未出現(xiàn)的詞以“0”表示。但是在實際操作中,不同詞語在文檔中出現(xiàn)頻率存在差異,通常文本中高頻詞數(shù)量較少,許多詞匯使用頻率較低。為體現(xiàn)文檔中不同詞語的作用,對單詞詞語賦予權重。TF-IDF是計算文檔中特定詞語權重的有效方法。含有詞語i文檔數(shù)描述為dfi,集合中文檔總量描述為N,逆文檔頻率描述為idfi,第j個文件中詞語i頻率描述為tfi,j,第j個文檔內(nèi)詞語數(shù)量描述為aj,第i個文檔內(nèi)詞語i權重描述為tf-idfi,j,則公式應表示為[10]其中的前提條件是不低于1,0定義為其他情況。較之獨熱表示法,TF-IDF方法的特點是對每個單詞賦予不同權重。在賦予其權重的基本方法時文本中該詞匯出現(xiàn)頻率越高,其重要性越高,與此同時語料庫中該詞匯出現(xiàn)頻率越高,則其重要性相應降低。詞嵌入處理中,主要是在低緯度連續(xù)向量空間嵌入指定高維空間,該高維空間維數(shù)包括全部詞數(shù)量。在金融學領域中進行文本研究時,詞嵌入技術通常采用Word2vec技術,該技術中主要使用CBOW技術與Skip-Gram神經(jīng)網(wǎng)絡模型,針對神經(jīng)網(wǎng)絡進行訓練,促使其有效捕獲詞語中包含的上下文信息,對詞語進行向量化映射,得到的向量語義信息更加豐富,信息密度更大,信息維度更低。主題模型中應用頻率較高的是LDA模型,應用此種模型進行文本分析屬于無監(jiān)督機器學習法,通過此種方法才能夠大量集中語料中提取主題信息。在應用該方法時,將生成文檔的過程分為兩步,首先假定各文檔具有對應主題,從這些主題中抽取一個主題,然后假定文檔具有對應詞匯,對比之前抽取的主題,從詞語中選取一個與主題對應的詞語。完成上述迭代后,將其與文檔中各詞語擬合,從而獲得各文檔主題、主題中詞語分布情況。LDA模型主要優(yōu)勢是,與手動編碼相比,該模型性能更完善,可有效分類大規(guī)模文檔。該模型做出的文本主題分類支持復制,準確性較高,而采用人工手段分類文本時較易受到主觀性影響。此外,使用此種模型時,無需人工分類進行關鍵詞、規(guī)則設定。LDA模型的缺點是在主題預設個數(shù)時,受到研究者主觀因素影響,選擇主題個數(shù)的數(shù)量受此影響顯著,因此生成主題過程與歸類文本主題時較易受到相關影響。

1.4抽取文本特征的方法

文本特征是指文本可讀性、相似性、文本情緒以及語義關聯(lián)性。其中文本可讀性即讀者在閱讀文本時是否可較容易地理解文本信息。在編輯文本時應保證文本具有較高可讀性,保證投資者通過閱讀文本可有效理解文本信息,即確保文本對投資者投資行為產(chǎn)生積極影響。有研究者在文本分析中使用迷霧指數(shù),該類研究認為,迷霧指數(shù)與年報可讀性呈負相關。年報文本字數(shù)、電子文檔規(guī)格也是影響年報可讀性的重要因素。在使用迷霧指數(shù)評價文本可讀性時,常見的問題是,隨機排序句子中詞語將導致文本難以理解,然而正常文本和經(jīng)過隨機排序處理的文本在分析計算時,顯示相同迷霧指數(shù)。不僅如此,在進行商業(yè)文本測量時采用迷霧指數(shù)作為依據(jù)具有顯著缺陷,例如,當對企業(yè)披露信息進行可讀性分析時,難以有效劃分年報可讀性與該企業(yè)實際復雜性?;诖朔N背景,在針對年報文本可讀性進行評價時,需要結合企業(yè)業(yè)務復雜性等影響,提出非文本因素[11]。在提取文本情緒時,通常采用有監(jiān)督機器學習法與詞典法進行提取操作。詞典法即在文本情緒、語氣語調(diào)研究中使用情緒詞典輔助分析。詞典確定后,該類研究即支持復制。不僅如此,建設詞典時還需要融合大量金融學專業(yè)知識,從而使詞典與金融文本分析需求一致。使用現(xiàn)有多種類詞典、文獻等分析媒體報道情緒,針對財務報告進行語氣語調(diào)分析,以及進行電話會議等進行語氣語調(diào)分析等。中文大數(shù)據(jù)分析時,通常是以英文詞典、詞庫等為模板,構建中文情緒詞典。使用該類詞典輔助分析股票成交量、收益率,評估股市崩盤風險高低。在詞典法應用中需要結合加權法進行文本情緒分析[12]。有監(jiān)督機器學習法包括支持向量機、樸素貝葉斯等方法。采用此類方法時,重點環(huán)節(jié)在于對分類效果進行檢驗和評價。交叉驗證法是常見檢驗方法。有監(jiān)督機器學習法的缺點是必須人工編碼設置訓練集,工作量較大,并且人工編碼較易受到主觀因素影響,分類效果魯棒性較差,并且研究難以復制。其優(yōu)點是分類精確度較好。

2.文本大數(shù)據(jù)分析

大數(shù)據(jù)分析主要是進行財務報告等公司披露文本信息、搜索指數(shù)、社交網(wǎng)絡文本以及財經(jīng)媒體報道等進行分析。通過文本挖掘從海量文本中抽取核心特征,分析其可行性、相似性、語義特征、語氣語調(diào)等,然后分析股票市場行為與文本特征等相關性。分析披露文本信息時,主要是利用文本信息對企業(yè)財務、經(jīng)營、管理層長效經(jīng)營信息等進行研究。在進行此類研究時,重點是分析文本可讀性、相似性,以及分析語氣語調(diào)。披露文本可讀性較高時,有利于投資者有效獲取公司信息,影響投資行為。迷霧指數(shù)理論認為,財務報告具有較高可讀性的企業(yè)通常具有更長久的利潤。此外,有研究者提出,財務報告可讀性直接影響盈余預測離散性和可靠性。財務報告可讀性較低時,公司為減輕此種消極影響,可采取自愿披露措施緩解消極影響。管理者通過控制財務報告可讀性可對投資者行為做出影響[13]。在針對企業(yè)發(fā)展情況和股票市場發(fā)展趨勢進行分析時,披露文本語氣語調(diào)具有重要參考價值。相關研究認為,MD&A語氣內(nèi)含有增量信息,該類信息為企業(yè)長效經(jīng)營能力進行預測,同時可根據(jù)該類信息分析企業(yè)破產(chǎn)風險。管理者情緒狀態(tài)可表現(xiàn)在電話會議語氣中,此種語氣分散情況與經(jīng)營決策具有相關性,同時語氣對投資者感知、分析師評價產(chǎn)生影響。分析財經(jīng)媒體報道時,主要關注媒體情緒,分析媒體報道著眼點,針對經(jīng)濟政策進行分析,了解其不確定性,此外還需要研究媒體報道偏向信息、假新聞等。進行社交網(wǎng)絡文本研究時,主要是分析策略性信息披露情況與文本情緒。搜索指數(shù)研究方面,主要通過搜索指數(shù)了解投資者關注度。

3結語

綜上所述,在金融學領域中針對文本進行大數(shù)據(jù)挖掘時,主要分析流程是獲取語料、預處理文本、文檔表示以及抽取文檔特征。在分析文本大數(shù)據(jù)時,可通過分析上市公司披露文本信息、研究財經(jīng)報道、分析社交網(wǎng)絡文本和搜索指數(shù)等,評價文本的可讀性、相似性,分析語義語氣,了解文本情緒,獲取有價值的文本信息。

作者:胡丹 單位:鄭州升達經(jīng)貿(mào)管理學院