當(dāng)前大數(shù)據(jù)已經(jīng)在諸多領(lǐng)域得到應(yīng)用,與我們的生活息息相關(guān)。例如,打開網(wǎng)絡(luò)我們就會(huì)收到關(guān)于購物的推薦廣告,進(jìn)入電子郵箱時(shí)就會(huì)看到系統(tǒng)自動(dòng)識(shí)別的垃圾信件等,這些現(xiàn)象背后均與大數(shù)據(jù)和人工智能密不可分。然而,與之形成對(duì)比的是,在國際關(guān)系研究領(lǐng)域,大數(shù)據(jù)似乎并未得到普遍應(yīng)用。那么大數(shù)據(jù)在國際關(guān)系領(lǐng)域應(yīng)用前景究竟如何呢?筆者嘗試就此作一番探究。
國際關(guān)系數(shù)據(jù)存在特殊性
大數(shù)據(jù)顧名思義是數(shù)據(jù)量巨大的數(shù)據(jù),有時(shí)也被稱為海量數(shù)據(jù)。隨著互聯(lián)網(wǎng)技術(shù)的應(yīng)用和普及,人類社會(huì)中產(chǎn)生了越來越多的數(shù)據(jù),例如網(wǎng)絡(luò)發(fā)言、網(wǎng)絡(luò)購物、圖片、音頻和視頻等。對(duì)于這些數(shù)據(jù)的挖掘和研究,有助于科研的創(chuàng)新和企業(yè)的發(fā)展。因此,我們可以看到大數(shù)據(jù)以及人工智能算法在我們生活中的諸多方面得到了普遍應(yīng)用。
然而與在國內(nèi)社會(huì)領(lǐng)域得到普遍應(yīng)用的情況不同,國際關(guān)系研究領(lǐng)域似乎尚未對(duì)大數(shù)據(jù)加以深入探究??梢钥吹?,無論是理論前沿還是國際關(guān)系熱點(diǎn),我們都很難看到大數(shù)據(jù)的應(yīng)用,這與國際關(guān)系研究的對(duì)象有關(guān)。國際關(guān)系的研究問題往往為高政治領(lǐng)域,例如國際沖突與戰(zhàn)爭(zhēng)、同盟締結(jié)與破裂等現(xiàn)象,而戰(zhàn)爭(zhēng)與結(jié)盟等現(xiàn)象的發(fā)生次數(shù)是有限的,樣本量往往很難上萬,依靠傳統(tǒng)數(shù)據(jù)庫就足以解決。這導(dǎo)致國際關(guān)系主流數(shù)據(jù)庫的數(shù)據(jù)規(guī)模都較小,例如戰(zhàn)爭(zhēng)相關(guān)因素?cái)?shù)據(jù)庫(COW)、烏普薩拉沖突數(shù)據(jù)庫(UCDP)、奧斯陸國際和平研究所的武裝沖突數(shù)據(jù)(ACD)、同盟協(xié)議數(shù)據(jù)庫(ATOP)等。由于這些主流數(shù)據(jù)庫都可以免費(fèi)使用,其變量、指標(biāo)和維度均受到國際關(guān)系專業(yè)人士的認(rèn)可,因此得到了廣泛應(yīng)用。
大數(shù)據(jù)在國際關(guān)系領(lǐng)域的應(yīng)用現(xiàn)狀
由于專業(yè)特性,大數(shù)據(jù)在當(dāng)前的國際關(guān)系研究領(lǐng)域似乎較少有用武之地,然而隨著數(shù)據(jù)挖掘的深入,也有一些國際關(guān)系研究開始將大數(shù)據(jù)作為研究的變量之一。首先,比較具有應(yīng)用前景的有GIS地理信息系統(tǒng)(Geographic Information System)提供的地理分布數(shù)據(jù)有助于學(xué)者對(duì)空間數(shù)據(jù)進(jìn)行建模,使既往研究中長期被忽視的地理因素得以重回大家的視野。其次,全球夜間燈光數(shù)據(jù)也具有應(yīng)用價(jià)值,該數(shù)據(jù)由美國國防氣象衛(wèi)星計(jì)劃(DMSP)的衛(wèi)星觀測(cè)所得,比較客觀地反映了各國/地區(qū)的生產(chǎn)、生活狀況,可以替代GDP成為度量經(jīng)濟(jì)活動(dòng)的可行指標(biāo)之一。再次,谷歌(Google)公司提供的 GDELT全球事件數(shù)據(jù)項(xiàng)目(GDELT Event Database)提供了全球100多種語言的媒體、網(wǎng)頁上的事件信息,時(shí)間跨度為1979年至今,數(shù)據(jù)量達(dá)億級(jí),包括國家、事件類型、地理位置等多個(gè)維度。除此以外,學(xué)者們也可以通過采用網(wǎng)絡(luò)爬蟲技術(shù)抓取網(wǎng)絡(luò)上自己感興趣的信息,然后再對(duì)自己挖掘的數(shù)據(jù)進(jìn)行文本分析、自然語言處理和圖像識(shí)別等技術(shù)加工。
根據(jù)以上分析,我們可以看到,大數(shù)據(jù)在國際關(guān)系領(lǐng)域的應(yīng)用存在局限。第一,從研究主體上看,傳統(tǒng)國際關(guān)系數(shù)據(jù)庫大部分關(guān)注的主體是國家,而大數(shù)據(jù)的主體則出現(xiàn)向微觀個(gè)體轉(zhuǎn)變的趨勢(shì),例如網(wǎng)絡(luò)發(fā)言或微信等自媒體上的數(shù)據(jù)都是以個(gè)人為主體,因此應(yīng)用大數(shù)據(jù)有助于我們對(duì)于輿論的判斷和選舉的民情進(jìn)行評(píng)估。第二,從時(shí)間上看,大數(shù)據(jù)借助于新技術(shù)而出現(xiàn),例如網(wǎng)絡(luò)、衛(wèi)星等,因此大數(shù)據(jù)的時(shí)間段往往集中于最近數(shù)十年,這導(dǎo)致對(duì)于一些涉及較長時(shí)間段的普遍性理論,例如戰(zhàn)爭(zhēng)與和平問題,目前的大數(shù)據(jù)似乎難以提供有力的幫助。第三,從數(shù)據(jù)質(zhì)量看,大數(shù)據(jù)的質(zhì)量有待提高,例如應(yīng)用自然語言處理技術(shù)從新聞報(bào)道中獲得的大數(shù)據(jù),盡管有量大和速度快等優(yōu)點(diǎn),但是這類數(shù)據(jù)受到新聞報(bào)道者偏好的影響很大,有些新聞會(huì)重復(fù)報(bào)道,有些偏遠(yuǎn)地區(qū)的事件則被忽視。例如近年來民眾似乎對(duì)歐洲“恐襲”印象深刻,然而從發(fā)生次數(shù)看,不論是與2010年以前的歐洲“恐襲”次數(shù)比較,還是與其他地區(qū)“恐襲”頻率比較,近年的次數(shù)并不多。顯然這一現(xiàn)象與全球媒體對(duì)歐洲的密切關(guān)注有關(guān)。因此,研究人員要對(duì)挖掘出來的大數(shù)據(jù)進(jìn)行清洗,排除重復(fù)報(bào)道、錯(cuò)誤報(bào)道、有傾向性的報(bào)道等因素的影響。第四,大數(shù)據(jù)不一定包括總體,在統(tǒng)計(jì)中,隨機(jī)抽樣技術(shù)是為了盡量使樣本能夠體現(xiàn)出總體的特征,然而不能因?yàn)閿?shù)據(jù)量的巨大就判定大數(shù)據(jù)能代表總體。例如,在考慮民情輿論時(shí),根據(jù)網(wǎng)絡(luò)發(fā)言大數(shù)據(jù)得到的初步判斷可能是有偏差的,因?yàn)榫W(wǎng)絡(luò)言論只能表明那些樂于在網(wǎng)上表達(dá)意見的人群的立場(chǎng),而沒有考慮到不愛上網(wǎng)的人群和上網(wǎng)不愛發(fā)言的人群的立場(chǎng)。
算法應(yīng)用提高預(yù)測(cè)準(zhǔn)確率
在李世石與AlphaGo的人機(jī)大戰(zhàn)中,機(jī)器學(xué)習(xí)、深度學(xué)習(xí)算法對(duì)AlphaGo的獲勝起了重要作用,這些算法同樣對(duì)于國際關(guān)系預(yù)測(cè)具有重大幫助。在傳統(tǒng)回歸方法中,統(tǒng)計(jì)模型的假設(shè)檢驗(yàn)需要對(duì)樣本數(shù)據(jù)的分布做出假定,例如正態(tài)分布、卡方分布和F分布等,從而進(jìn)行進(jìn)一步計(jì)算。這一方法的缺陷是,如果樣本數(shù)據(jù)的分布不符合假定,則結(jié)論不一定成立。大數(shù)據(jù)中常用的機(jī)器學(xué)習(xí)算法主要采用交叉驗(yàn)證,將數(shù)據(jù)分為訓(xùn)練集和測(cè)試集兩類,先用訓(xùn)練集建模,然后用測(cè)試集加以檢驗(yàn),可以規(guī)避傳統(tǒng)回歸中對(duì)分布假定帶來的不足。目前國際關(guān)系學(xué)界也應(yīng)用了一些算法進(jìn)行預(yù)測(cè),例如樸素貝葉斯模型、Logistic模型、隱馬爾可夫模型、神經(jīng)網(wǎng)絡(luò)等,取得了較好的預(yù)測(cè)準(zhǔn)確率。
然而,機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等算法往往關(guān)注的是變量間的相關(guān)關(guān)系,而較少考慮因果關(guān)系。即使根據(jù)某些算法能夠提高預(yù)測(cè)準(zhǔn)確率,研究人員也很難對(duì)模型中各變量的作用機(jī)制加以解釋。例如神經(jīng)網(wǎng)絡(luò)算法可以根據(jù)輸入的數(shù)據(jù)得出結(jié)果,但沒法給出被擬合函數(shù)的數(shù)學(xué)表達(dá)式,整個(gè)過程是黑箱操作。此外,神經(jīng)網(wǎng)絡(luò)結(jié)果對(duì)于參數(shù)十分依賴,然而調(diào)參沒有客觀標(biāo)準(zhǔn),由研究人員憑經(jīng)驗(yàn)決定。由于以上特點(diǎn),機(jī)器學(xué)習(xí)、深度學(xué)習(xí)算法往往被用于政策應(yīng)用或者現(xiàn)實(shí)生活,而較難給國際關(guān)系領(lǐng)域帶來重大理論突破。
在大數(shù)據(jù)時(shí)代,數(shù)據(jù)挖掘技術(shù)使研究人員可以獲得大量過去難以得到的數(shù)據(jù),這對(duì)國際關(guān)系學(xué)科的創(chuàng)新具有重大推動(dòng)作用。然而,根據(jù)國際關(guān)系研究的特點(diǎn),大數(shù)據(jù)及相關(guān)算法在國際關(guān)系領(lǐng)域存在應(yīng)用界限,我們一方面要充分利用新技術(shù)帶來的研究創(chuàng)新空間,另一方面也不必過度迷信大數(shù)據(jù),正確認(rèn)識(shí)到大數(shù)據(jù)的優(yōu)勢(shì)與不足,推進(jìn)學(xué)術(shù)創(chuàng)新。
網(wǎng)上經(jīng)營許可證號(hào):京ICP備18006193號(hào)-1
copyright?2005-2022 czderi.com all right reserved 技術(shù)支持:杭州高達(dá)軟件系統(tǒng)股份有限公司
服務(wù)熱線:010-59231580